ProjectAGiPrompt/8-支持运行的大模型列表.md at 0f6e0d70f5d738cf55e0aad87b89983a459dd5df

zeaslity/ProjectAGiPrompt

Fork 0

Files

zeaslity 0f6e0d70f5 大量更新内容

2026-06-15 14:14:24 +08:00

4.1 KiB

Raw Blame History

基于你的硬件配置（RTX 3070 16GB显存 + 48GB RAM + 5800X），利用 llama.cpp 的 CPU offload 能力，可以覆盖的模型范围远超纯GPU方案。以下是从强到弱的推荐列表。

硬件能力分析

你的关键优势在于 16GB VRAM + 48GB RAM 的组合，可以让大参数模型的非关键层（FFN exps）卸载到CPU，正如你当前启动命令中 -ot "\.ffn_(up|down|gate)_exps\.=CPU" 所做的那样 huggingface。当前跑 Qwen3-30B-A3B Q4_K_M 只用了约 4.8GB 显存、30 t/s，说明GPU还有大量余量可利用 dev。

推荐可运行模型列表

以下按综合实力排序（全GPU推理 or GPU+CPU混合推理均可）：

旗舰级 MoE 模型（CPU卸载必需）

模型	参数量	量化建议	显存占用	推理速度	备注
Qwen3.5-122B-A10B	122B/10B激活	UD-IQ3_XXS (~44.7GB)	~14.7GB GPU	~20-22 t/s	16GB显存最强MoE，质量碾压27B dev
Mistral-Small-4-119B	119B MoE	UD-IQ3_XXS (~42.8GB)	~14.8GB GPU	~28-30 t/s	非Qwen系替代，代码能力强 dev
Nemotron Super 120B	120B	IQ3_XXS (~56.2GB)	~15GB GPU	~17 t/s	需要56GB总内存，你48GB稍紧 dev

高性能 MoE 小参数（当前已运行，可升级）

模型	参数量	量化建议	显存占用	推理速度	备注
Qwen3.6-35B-A3B	35B/3B激活	UD-IQ3_XXS (~13.2GB)	~14.7GB GPU	~145 t/s	速度极快，接近全GPU dev
Qwen3.5-35B-A3B	35B/3B激活	UD-IQ3_S (~13.6GB)	~14.9GB GPU	~136 t/s	可推到100k context不掉速 dev
Qwen3-30B-A3B ✅	30B/3B激活	Q4_K_M（当前）	~4.8GB GPU	~30 t/s	当前方案，可尝试Q6_K_M提质量

高质量 Dense 模型（全GPU或少量offload）

模型	参数量	量化建议	显存占用	推理速度	备注
Qwen3-14B	14B Dense	Q8_0 (~15GB)	~15GB GPU	~40-50 t/s	全GPU，综合质量最佳Dense biton.co
Gemma 4-26B-A4B	26B MoE	UD-IQ4_XS (~13.4GB)	~14.7GB GPU	~120 t/s	Google多模态背景，速度出色 dev
GLM-4.7-Flash REAP 23B	23B	IQ4_XS (~12.6GB)	~13.7GB GPU	~122 t/s	中文能力强，适合你的使用场景 dev
Qwen3-8B	8B Dense	Q8_0 (~9GB)	~9GB GPU	~80+ t/s	快速响应场景备用

实际最强推荐

综合质量最强（48GB RAM够用）：→ Qwen3.5-122B-A10B-UD-IQ3_XXS，模型文件约44.7GB，GPU占约14.7GB，CPU承载其余，实测约20-22 t/s，智力水平远超30B 。 dev

速度质量最佳平衡：→ Qwen3.6-35B-A3B-UD-IQ3_XXS，~145 t/s，全程GPU，13.8GB显存即可搞定，是当前30B方案的直接升级。 glukhov

你目前运行30B时GPU显存仅用了4.8GB/16GB，说明大量FFN被卸载到CPU 。建议优先尝试 Qwen3.6-35B-A3B 的 IQ3_XXS 量化，可将几乎全部层放入GPU实现最高速度。 dev

请你给出运行 Qwen3.6-35B-A3B的方式，IQ3_XXS 量化是什么性能损耗与当前的

4.1 KiB Raw Blame History Unescape Escape