基本信息如下

CPU为5800X
内存为48GB
显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
操作系统为 Ubuntu 22.04.4 LTS
现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0
安装了最新的mini coda
使用编译安装的方式安装了 llama.cpp
编译方式如下 cmake -B build
-DGGML_CUDA=ON
-DCMAKE_BUILD_TYPE=Release
-DCMAKE_CUDA_ARCHITECTURES="86"
-DGGML_CUDA_F16=ON
-DGGML_CUDA_FA_ALL_QUANTS=ON
-DGGML_NATIVE=ON
-DCMAKE_C_COMPILER=gcc
-DCMAKE_CXX_COMPILER=g++
-DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc

并行编译（5800X 16核全开）

cmake --build build --config Release -j$(nproc) 9. 现在启动大模型的方式为 sudo nvidia-smi -pm 1 GGML_CUDA_DISABLE_GRAPHS=1
~/llama.cpp/build/bin/llama-server
-m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf
--host 0.0.0.0
--port 8000
-ngl 999
-c 131072
-t 8
--flash-attn on
-b 512
-ub 256
--mlock
-ctk q4_0
-ctv q4_0
--parallel 1
--temp 0.6
--top-k 20
--top-p 0.95
--jinja
-ot ".ffn_(up|down|gate)_exps.=CPU"
--rope-scaling yarn
--rope-scale 4
--yarn-orig-ctx 32768
--override-kv qwen3moe.context_length=int:131072
-a "Qwen3-30B-A3B"

现在实际运行大模型时候的情况如下 token输出为 30 token/s 时间戳 GPU% 显存% 显存用/总MiB 功耗W 温度°C CPU% RAM用/总GiB 2026/06/10 05:45:26.594 | 99% | 29.6% | 4849 / 16384 | 82.04 | 38 | 6% | 19.07 / 46.96

你需要实现的内容

请你判断我的电脑支持运行的最强本地大模型是什么，给出一个列表
给

sudo nvidia-smi -pm 1

GGML_CUDA_DISABLE_GRAPHS=1
~/llama.cpp/build/bin/llama-server
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf
--host 0.0.0.0
--port 8000
-ngl 999
-c 131072
-t 14
--flash-attn on
-b 512
-ub 256
--no-mmap
--mlock
-ctk q4_0
-ctv q4_0
--parallel 1
--temp 1.0
--top-k 20
--top-p 0.95
--jinja
-ot ".ffn_(up|down|gate)_exps.=CPU"
--rope-scaling yarn
--rope-scale 4
--yarn-orig-ctx 32768
--override-kv qwen3moe.context_length=int:131072
--reasoning on
-a "Qwen3.5-122B-A10B"

2.3 KiB Raw Blame History Unescape Escape

基本信息如下

并行编译（5800X 16核全开）

2.3 KiB

Raw Blame History