## 基本信息如下 1. CPU为5800X 2. 内存为48GB 3. 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存 4. 操作系统为 Ubuntu 22.04.4 LTS 5. 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0 6. 安装了最新的mini coda 7. 使用编译安装的方式安装了 llama.cpp 8. 编译方式如下 cmake -B build \ -DGGML_CUDA=ON \ -DCMAKE_BUILD_TYPE=Release \ -DCMAKE_CUDA_ARCHITECTURES="86" \ -DGGML_CUDA_F16=ON \ -DGGML_CUDA_FA_ALL_QUANTS=ON \ -DGGML_NATIVE=ON \ -DCMAKE_C_COMPILER=gcc \ -DCMAKE_CXX_COMPILER=g++ \ -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc # 并行编译(5800X 16核全开) cmake --build build --config Release -j$(nproc) 9. 现在启动大模型的方式为 sudo nvidia-smi -pm 1 GGML_CUDA_DISABLE_GRAPHS=1 \ ~/llama.cpp/build/bin/llama-server \ -m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf \ --host 0.0.0.0 \ --port 8000 \ -ngl 999 \ -c 131072 \ -t 8 \ --flash-attn on \ -b 512 \ -ub 256 \ --mlock \ -ctk q4_0 \ -ctv q4_0 \ --parallel 1 \ --temp 0.6 \ --top-k 20 \ --top-p 0.95 \ --jinja \ -ot "\.ffn_(up|down|gate)_exps\.=CPU" \ --rope-scaling yarn \ --rope-scale 4 \ --yarn-orig-ctx 32768 \ --override-kv qwen3moe.context_length=int:131072 \ -a "Qwen3-30B-A3B" 10. 现在实际运行大模型时候的情况如下 token输出为 30 token/s 时间戳 GPU% 显存% 显存用/总MiB 功耗W 温度°C CPU% RAM用/总GiB 2026/06/10 05:45:26.594 | 99% | 29.6% | 4849 / 16384 | 82.04 | 38 | 6% | 19.07 / 46.96 你需要实现的内容 1. 请你判断我的电脑支持运行的最强本地大模型是什么,给出一个列表 2. 给 sudo nvidia-smi -pm 1 GGML_CUDA_DISABLE_GRAPHS=1 \ ~/llama.cpp/build/bin/llama-server \ -m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \ --host 0.0.0.0 \ --port 8000 \ -ngl 999 \ -c 131072 \ -t 14 \ --flash-attn on \ -b 512 \ -ub 256 \ --no-mmap \ --mlock \ -ctk q4_0 \ -ctv q4_0 \ --parallel 1 \ --temp 1.0 \ --top-k 20 \ --top-p 0.95 \ --jinja \ -ot "\.ffn_(up|down|gate)_exps\.=CPU" \ --rope-scaling yarn \ --rope-scale 4 \ --yarn-orig-ctx 32768 \ --override-kv qwen3moe.context_length=int:131072 \ --reasoning on \ -a "Qwen3.5-122B-A10B"