## 基本信息如下
1. CPU为5800X
2. 内存为48GB 
3. 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
4. 操作系统为 Ubuntu 22.04.4 LTS


5. 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0
6. 安装了最新的mini coda
7. 使用编译安装的方式安装了 llama.cpp 
8. 编译方式如下 cmake -B build \
  -DGGML_CUDA=ON \
  -DCMAKE_BUILD_TYPE=Release \
  -DCMAKE_CUDA_ARCHITECTURES="86" \
  -DGGML_CUDA_F16=ON \
  -DGGML_CUDA_FA_ALL_QUANTS=ON \
  -DGGML_NATIVE=ON \
  -DCMAKE_C_COMPILER=gcc \
  -DCMAKE_CXX_COMPILER=g++ \
  -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc
# 并行编译（5800X 16核全开）
cmake --build build --config Release -j$(nproc)
9. 现在启动大模型的方式为
sudo nvidia-smi -pm 1
GGML_CUDA_DISABLE_GRAPHS=1 \
~/llama.cpp/build/bin/llama-server \
  -m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf \
  --host 0.0.0.0 \
  --port 8000 \
  -ngl 999 \
  -c 131072 \
  -t 8 \
  --flash-attn on \
  -b 512 \
  -ub 256 \
  --mlock \
  -ctk q4_0 \
  -ctv q4_0 \
  --parallel 1 \
  --temp 0.6 \
  --top-k 20 \
  --top-p 0.95 \
  --jinja \
  -ot "\.ffn_(up|down|gate)_exps\.=CPU" \
  --rope-scaling yarn \
  --rope-scale 4 \
  --yarn-orig-ctx 32768 \
  --override-kv qwen3moe.context_length=int:131072 \
  -a "Qwen3-30B-A3B"


10. 现在实际运行大模型时候的情况如下  token输出为 30 token/s
时间戳        GPU%    显存%  显存用/总MiB  功耗W   温度°C  CPU%    RAM用/总GiB
2026/06/10 05:45:26.594    |    99% |  29.6% |  4849 /  16384 |  82.04 |    38  |     6% | 19.07 / 46.96


你需要实现的内容
1. 请你判断我的电脑支持运行的最强本地大模型是什么，给出一个列表
2. 给


sudo nvidia-smi -pm 1

GGML_CUDA_DISABLE_GRAPHS=1 \
~/llama.cpp/build/bin/llama-server \
  -m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
  --host 0.0.0.0 \
  --port 8000 \
  -ngl 999 \
  -c 131072 \
  -t 14 \
  --flash-attn on \
  -b 512 \
  -ub 256 \
  --no-mmap \
  --mlock \
  -ctk q4_0 \
  -ctv q4_0 \
  --parallel 1 \
  --temp 1.0 \
  --top-k 20 \
  --top-p 0.95 \
  --jinja \
  -ot "\.ffn_(up|down|gate)_exps\.=CPU" \
  --rope-scaling yarn \
  --rope-scale 4 \
  --yarn-orig-ctx 32768 \
  --override-kv qwen3moe.context_length=int:131072 \
  --reasoning on \
  -a "Qwen3.5-122B-A10B"