2.3 KiB
基本信息如下
-
CPU为5800X
-
内存为48GB
-
显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
-
操作系统为 Ubuntu 22.04.4 LTS
-
现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0
-
安装了最新的mini coda
-
使用编译安装的方式安装了 llama.cpp
-
编译方式如下 cmake -B build
-DGGML_CUDA=ON
-DCMAKE_BUILD_TYPE=Release
-DCMAKE_CUDA_ARCHITECTURES="86"
-DGGML_CUDA_F16=ON
-DGGML_CUDA_FA_ALL_QUANTS=ON
-DGGML_NATIVE=ON
-DCMAKE_C_COMPILER=gcc
-DCMAKE_CXX_COMPILER=g++
-DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc
并行编译(5800X 16核全开)
cmake --build build --config Release -j$(nproc)
9. 现在启动大模型的方式为
sudo nvidia-smi -pm 1
GGML_CUDA_DISABLE_GRAPHS=1
~/llama.cpp/build/bin/llama-server
-m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf
--host 0.0.0.0
--port 8000
-ngl 999
-c 131072
-t 8
--flash-attn on
-b 512
-ub 256
--mlock
-ctk q4_0
-ctv q4_0
--parallel 1
--temp 0.6
--top-k 20
--top-p 0.95
--jinja
-ot ".ffn_(up|down|gate)_exps.=CPU"
--rope-scaling yarn
--rope-scale 4
--yarn-orig-ctx 32768
--override-kv qwen3moe.context_length=int:131072
-a "Qwen3-30B-A3B"
- 现在实际运行大模型时候的情况如下 token输出为 30 token/s 时间戳 GPU% 显存% 显存用/总MiB 功耗W 温度°C CPU% RAM用/总GiB 2026/06/10 05:45:26.594 | 99% | 29.6% | 4849 / 16384 | 82.04 | 38 | 6% | 19.07 / 46.96
你需要实现的内容
- 请你判断我的电脑支持运行的最强本地大模型是什么,给出一个列表
- 给
sudo nvidia-smi -pm 1
GGML_CUDA_DISABLE_GRAPHS=1
~/llama.cpp/build/bin/llama-server
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf
--host 0.0.0.0
--port 8000
-ngl 999
-c 131072
-t 14
--flash-attn on
-b 512
-ub 256
--no-mmap
--mlock
-ctk q4_0
-ctv q4_0
--parallel 1
--temp 1.0
--top-k 20
--top-p 0.95
--jinja
-ot ".ffn_(up|down|gate)_exps.=CPU"
--rope-scaling yarn
--rope-scale 4
--yarn-orig-ctx 32768
--override-kv qwen3moe.context_length=int:131072
--reasoning on
-a "Qwen3.5-122B-A10B"