Files
ProjectAGiPrompt/32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md
2026-06-15 14:14:24 +08:00

2.3 KiB
Raw Blame History

基本信息如下

  1. CPU为5800X

  2. 内存为48GB

  3. 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存

  4. 操作系统为 Ubuntu 22.04.4 LTS

  5. 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0

  6. 安装了最新的mini coda

  7. 使用编译安装的方式安装了 llama.cpp

  8. 编译方式如下 cmake -B build
    -DGGML_CUDA=ON
    -DCMAKE_BUILD_TYPE=Release
    -DCMAKE_CUDA_ARCHITECTURES="86"
    -DGGML_CUDA_F16=ON
    -DGGML_CUDA_FA_ALL_QUANTS=ON
    -DGGML_NATIVE=ON
    -DCMAKE_C_COMPILER=gcc
    -DCMAKE_CXX_COMPILER=g++
    -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc

并行编译5800X 16核全开

cmake --build build --config Release -j$(nproc) 9. 现在启动大模型的方式为 sudo nvidia-smi -pm 1 GGML_CUDA_DISABLE_GRAPHS=1
~/llama.cpp/build/bin/llama-server
-m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf
--host 0.0.0.0
--port 8000
-ngl 999
-c 131072
-t 8
--flash-attn on
-b 512
-ub 256
--mlock
-ctk q4_0
-ctv q4_0
--parallel 1
--temp 0.6
--top-k 20
--top-p 0.95
--jinja
-ot ".ffn_(up|down|gate)_exps.=CPU"
--rope-scaling yarn
--rope-scale 4
--yarn-orig-ctx 32768
--override-kv qwen3moe.context_length=int:131072
-a "Qwen3-30B-A3B"

  1. 现在实际运行大模型时候的情况如下 token输出为 30 token/s 时间戳 GPU% 显存% 显存用/总MiB 功耗W 温度°C CPU% RAM用/总GiB 2026/06/10 05:45:26.594 | 99% | 29.6% | 4849 / 16384 | 82.04 | 38 | 6% | 19.07 / 46.96

你需要实现的内容

  1. 请你判断我的电脑支持运行的最强本地大模型是什么,给出一个列表

sudo nvidia-smi -pm 1

GGML_CUDA_DISABLE_GRAPHS=1
~/llama.cpp/build/bin/llama-server
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf
--host 0.0.0.0
--port 8000
-ngl 999
-c 131072
-t 14
--flash-attn on
-b 512
-ub 256
--no-mmap
--mlock
-ctk q4_0
-ctv q4_0
--parallel 1
--temp 1.0
--top-k 20
--top-p 0.95
--jinja
-ot ".ffn_(up|down|gate)_exps.=CPU"
--rope-scaling yarn
--rope-scale 4
--yarn-orig-ctx 32768
--override-kv qwen3moe.context_length=int:131072
--reasoning on
-a "Qwen3.5-122B-A10B"