Files
ProjectAGiPrompt/32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md
2026-06-15 14:14:24 +08:00

4.1 KiB
Raw Blame History

基于你的硬件配置RTX 3070 16GB显存 + 48GB RAM + 5800X利用 llama.cpp 的 CPU offload 能力可以覆盖的模型范围远超纯GPU方案。以下是从强到弱的推荐列表。


硬件能力分析

你的关键优势在于 16GB VRAM + 48GB RAM 的组合可以让大参数模型的非关键层FFN exps卸载到CPU正如你当前启动命令中 -ot "\.ffn_(up|down|gate)_exps\.=CPU" 所做的那样 huggingface。当前跑 Qwen3-30B-A3B Q4_K_M 只用了约 4.8GB 显存、30 t/s说明GPU还有大量余量可利用 dev


推荐可运行模型列表

以下按综合实力排序全GPU推理 or GPU+CPU混合推理均可

旗舰级 MoE 模型CPU卸载必需

模型 参数量 量化建议 显存占用 推理速度 备注
Qwen3.5-122B-A10B 122B/10B激活 UD-IQ3_XXS (~44.7GB) ~14.7GB GPU ~20-22 t/s 16GB显存最强MoE质量碾压27B dev
Mistral-Small-4-119B 119B MoE UD-IQ3_XXS (~42.8GB) ~14.8GB GPU ~28-30 t/s 非Qwen系替代代码能力强 dev
Nemotron Super 120B 120B IQ3_XXS (~56.2GB) ~15GB GPU ~17 t/s 需要56GB总内存你48GB稍紧 dev

高性能 MoE 小参数(当前已运行,可升级)

模型 参数量 量化建议 显存占用 推理速度 备注
Qwen3.6-35B-A3B 35B/3B激活 UD-IQ3_XXS (~13.2GB) ~14.7GB GPU ~145 t/s 速度极快接近全GPU dev
Qwen3.5-35B-A3B 35B/3B激活 UD-IQ3_S (~13.6GB) ~14.9GB GPU ~136 t/s 可推到100k context不掉速 dev
Qwen3-30B-A3B 30B/3B激活 Q4_K_M当前 ~4.8GB GPU ~30 t/s 当前方案可尝试Q6_K_M提质量

高质量 Dense 模型全GPU或少量offload

模型 参数量 量化建议 显存占用 推理速度 备注
Qwen3-14B 14B Dense Q8_0 (~15GB) ~15GB GPU ~40-50 t/s 全GPU综合质量最佳Dense biton.co
Gemma 4-26B-A4B 26B MoE UD-IQ4_XS (~13.4GB) ~14.7GB GPU ~120 t/s Google多模态背景速度出色 dev
GLM-4.7-Flash REAP 23B 23B IQ4_XS (~12.6GB) ~13.7GB GPU ~122 t/s 中文能力强,适合你的使用场景 dev
Qwen3-8B 8B Dense Q8_0 (~9GB) ~9GB GPU ~80+ t/s 快速响应场景备用

实际最强推荐

综合质量最强48GB RAM够用Qwen3.5-122B-A10B-UD-IQ3_XXS模型文件约44.7GBGPU占约14.7GBCPU承载其余实测约20-22 t/s智力水平远超30B 。 dev

速度质量最佳平衡:→ Qwen3.6-35B-A3B-UD-IQ3_XXS~145 t/s全程GPU13.8GB显存即可搞定是当前30B方案的直接升级 。 glukhov

你目前运行30B时GPU显存仅用了4.8GB/16GB说明大量FFN被卸载到CPU 。建议优先尝试 Qwen3.6-35B-A3B 的 IQ3_XXS 量化可将几乎全部层放入GPU实现最高速度。 dev

请你给出运行 Qwen3.6-35B-A3B的方式IQ3_XXS 量化是什么 性能损耗与当前的