大量更新内容

This commit is contained in:
zeaslity
2026-06-15 14:14:24 +08:00
parent 0f3629efc8
commit 0f6e0d70f5
21 changed files with 452 additions and 1 deletions

View File

@@ -0,0 +1,85 @@
#!/bin/bash
# llama-server 后台启动脚本
# 使用方法:
# 启动: ./llama_server.sh start
# 停止: ./llama_server.sh stop
# 重启: ./llama_server.sh restart
# 状态: ./llama_server.sh status
# 日志: ./llama_server.sh logs
PID_FILE="/var/run/llama-server.pid"
LOG_FILE="/var/log/llama-server.log"
SERVICE_NAME="llama-server"
GREEN='\033[0;32m'; RED='\033[0;31m'; YELLOW='\033[1;33m'; NC='\033[0m'
start() {
if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
echo -e "${YELLOW}[WARN]${NC} $SERVICE_NAME 已在运行 (PID: $(cat "$PID_FILE"))"; exit 1
fi
echo -e "${GREEN}[INFO]${NC} 启用 GPU 持久化模式..."
sudo nvidia-smi -pm 1
echo -e "${GREEN}[INFO]${NC} 正在后台启动 $SERVICE_NAME日志: $LOG_FILE"
nohup env GGML_CUDA_DISABLE_GRAPHS=1 \
~/llama.cpp/build/bin/llama-server \
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
--host 0.0.0.0 --port 8000 \
-ngl 999 -c 131072 -t 14 \
--flash-attn on -b 512 -ub 256 \
--no-mmap --mlock \
-ctk q4_0 -ctv q4_0 \
--parallel 1 --temp 1.0 --top-k 20 --top-p 0.95 \
--jinja \
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
--rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768 \
--override-kv qwen3moe.context_length=int:131072 \
--reasoning on \
-a "Qwen3.5-122B-A10B" \
>> "$LOG_FILE" 2>&1 &
echo $! > "$PID_FILE"; sleep 2
if kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
echo -e "${GREEN}[OK]${NC} 已启动 (PID: $(cat "$PID_FILE"))API: http://0.0.0.0:8000"
else
echo -e "${RED}[ERROR]${NC} 启动失败,请查看: $LOG_FILE"; rm -f "$PID_FILE"; exit 1
fi
}
stop() {
[ ! -f "$PID_FILE" ] && echo -e "${YELLOW}[WARN]${NC} 未运行" && exit 1
PID=$(cat "$PID_FILE")
if kill -0 "$PID" 2>/dev/null; then
echo -e "${GREEN}[INFO]${NC} 停止 $SERVICE_NAME (PID: $PID)..."
kill "$PID"
for i in $(seq 1 15); do kill -0 "$PID" 2>/dev/null || break; sleep 1; done
kill -0 "$PID" 2>/dev/null && kill -9 "$PID"
rm -f "$PID_FILE"; echo -e "${GREEN}[OK]${NC} 已停止"
else
echo -e "${YELLOW}[WARN]${NC} 进程不存在,清理 PID 文件"; rm -f "$PID_FILE"
fi
}
status() {
if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
PID=$(cat "$PID_FILE")
echo -e "${GREEN}[运行中]${NC} PID: $PID"
ps -p "$PID" -o pid,user,%cpu,%mem,etime --no-headers
nvidia-smi --query-gpu=name,utilization.gpu,memory.used,memory.total,temperature.gpu \
--format=csv,noheader,nounits | \
awk -F',' '{printf "GPU:%s 使用率:%s%% 显存:%s/%sMiB 温度:%s°C\n",$1,$2,$3,$4,$5}'
else
echo -e "${RED}[未运行]${NC} $SERVICE_NAME"; rm -f "$PID_FILE"
fi
}
logs() {
[ ! -f "$LOG_FILE" ] && echo "日志不存在: $LOG_FILE" && exit 1
tail -f "$LOG_FILE"
}
case "$1" in
start) start ;; stop) stop ;; restart) stop; sleep 1; start ;;
status) status ;; logs) logs ;;
*) echo "用法: $0 {start|stop|restart|status|logs}" ;;
esac

View File

@@ -1,4 +1,4 @@
CPU为5800X 内存为16GB 3200Mhz Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
CPU为5800X 内存为48GB 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0

View File

@@ -0,0 +1,95 @@
## 基本信息如下
1. CPU为5800X
2. 内存为48GB
3. 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
4. 操作系统为 Ubuntu 22.04.4 LTS
5. 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0
6. 安装了最新的mini coda
7. 使用编译安装的方式安装了 llama.cpp
8. 编译方式如下 cmake -B build \
-DGGML_CUDA=ON \
-DCMAKE_BUILD_TYPE=Release \
-DCMAKE_CUDA_ARCHITECTURES="86" \
-DGGML_CUDA_F16=ON \
-DGGML_CUDA_FA_ALL_QUANTS=ON \
-DGGML_NATIVE=ON \
-DCMAKE_C_COMPILER=gcc \
-DCMAKE_CXX_COMPILER=g++ \
-DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc
# 并行编译5800X 16核全开
cmake --build build --config Release -j$(nproc)
9. 现在启动大模型的方式为
sudo nvidia-smi -pm 1
GGML_CUDA_DISABLE_GRAPHS=1 \
~/llama.cpp/build/bin/llama-server \
-m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf \
--host 0.0.0.0 \
--port 8000 \
-ngl 999 \
-c 131072 \
-t 8 \
--flash-attn on \
-b 512 \
-ub 256 \
--mlock \
-ctk q4_0 \
-ctv q4_0 \
--parallel 1 \
--temp 0.6 \
--top-k 20 \
--top-p 0.95 \
--jinja \
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
--rope-scaling yarn \
--rope-scale 4 \
--yarn-orig-ctx 32768 \
--override-kv qwen3moe.context_length=int:131072 \
-a "Qwen3-30B-A3B"
10. 现在实际运行大模型时候的情况如下 token输出为 30 token/s
时间戳 GPU% 显存% 显存用/总MiB 功耗W 温度°C CPU% RAM用/总GiB
2026/06/10 05:45:26.594 | 99% | 29.6% | 4849 / 16384 | 82.04 | 38 | 6% | 19.07 / 46.96
你需要实现的内容
1. 请你判断我的电脑支持运行的最强本地大模型是什么,给出一个列表
2.
sudo nvidia-smi -pm 1
GGML_CUDA_DISABLE_GRAPHS=1 \
~/llama.cpp/build/bin/llama-server \
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
--host 0.0.0.0 \
--port 8000 \
-ngl 999 \
-c 131072 \
-t 14 \
--flash-attn on \
-b 512 \
-ub 256 \
--no-mmap \
--mlock \
-ctk q4_0 \
-ctv q4_0 \
--parallel 1 \
--temp 1.0 \
--top-k 20 \
--top-p 0.95 \
--jinja \
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
--rope-scaling yarn \
--rope-scale 4 \
--yarn-orig-ctx 32768 \
--override-kv qwen3moe.context_length=int:131072 \
--reasoning on \
-a "Qwen3.5-122B-A10B"

View File

@@ -0,0 +1,50 @@
基于你的硬件配置RTX 3070 16GB显存 + 48GB RAM + 5800X利用 llama.cpp 的 CPU offload 能力可以覆盖的模型范围远超纯GPU方案。以下是从强到弱的推荐列表。
***
## 硬件能力分析
你的关键优势在于 **16GB VRAM + 48GB RAM 的组合**可以让大参数模型的非关键层FFN exps卸载到CPU正如你当前启动命令中 `-ot "\.ffn_(up|down|gate)_exps\.=CPU"` 所做的那样 [huggingface](https://huggingface.co/ubergarm/Qwen3-30B-A3B-GGUF)。当前跑 Qwen3-30B-A3B Q4_K_M 只用了约 4.8GB 显存、30 t/s说明GPU还有大量余量可利用 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)。
***
## 推荐可运行模型列表
以下按**综合实力**排序全GPU推理 or GPU+CPU混合推理均可
### 旗舰级 MoE 模型CPU卸载必需
| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
|------|--------|----------|---------|---------|------|
| **Qwen3.5-122B-A10B** | 122B/10B激活 | UD-IQ3_XXS (~44.7GB) | ~14.7GB GPU | ~20-22 t/s | 16GB显存最强MoE质量碾压27B [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **Mistral-Small-4-119B** | 119B MoE | UD-IQ3_XXS (~42.8GB) | ~14.8GB GPU | ~28-30 t/s | 非Qwen系替代代码能力强 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **Nemotron Super 120B** | 120B | IQ3_XXS (~56.2GB) | ~15GB GPU | ~17 t/s | 需要56GB总内存你48GB稍紧 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
### 高性能 MoE 小参数(当前已运行,可升级)
| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
|------|--------|----------|---------|---------|------|
| **Qwen3.6-35B-A3B** | 35B/3B激活 | UD-IQ3_XXS (~13.2GB) | ~14.7GB GPU | ~145 t/s | 速度极快接近全GPU [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **Qwen3.5-35B-A3B** | 35B/3B激活 | UD-IQ3_S (~13.6GB) | ~14.9GB GPU | ~136 t/s | 可推到100k context不掉速 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **Qwen3-30B-A3B** ✅ | 30B/3B激活 | Q4_K_M当前 | ~4.8GB GPU | ~30 t/s | 当前方案可尝试Q6_K_M提质量 |
### 高质量 Dense 模型全GPU或少量offload
| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
|------|--------|----------|---------|---------|------|
| **Qwen3-14B** | 14B Dense | Q8_0 (~15GB) | ~15GB GPU | ~40-50 t/s | 全GPU综合质量最佳Dense [biton.co](https://www.biton.co.jp/blog_71.html) |
| **Gemma 4-26B-A4B** | 26B MoE | UD-IQ4_XS (~13.4GB) | ~14.7GB GPU | ~120 t/s | Google多模态背景速度出色 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **GLM-4.7-Flash REAP 23B** | 23B | IQ4_XS (~12.6GB) | ~13.7GB GPU | ~122 t/s | 中文能力强,适合你的使用场景 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **Qwen3-8B** | 8B Dense | Q8_0 (~9GB) | ~9GB GPU | ~80+ t/s | 快速响应场景备用 |
***
## 实际最强推荐
**综合质量最强**48GB RAM够用**Qwen3.5-122B-A10B-UD-IQ3_XXS**模型文件约44.7GBGPU占约14.7GBCPU承载其余实测约20-22 t/s智力水平远超30B 。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)
**速度质量最佳平衡**:→ **Qwen3.6-35B-A3B-UD-IQ3_XXS**~145 t/s全程GPU13.8GB显存即可搞定是当前30B方案的直接升级 。 [glukhov](https://www.glukhov.org/llm-performance/benchmarks/best-llm-on-16gb-vram-gpu/)
你目前运行30B时GPU显存仅用了4.8GB/16GB说明大量FFN被卸载到CPU 。建议优先尝试 Qwen3.6-35B-A3B 的 IQ3_XXS 量化可将几乎全部层放入GPU实现最高速度。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)
请你给出运行 Qwen3.6-35B-A3B的方式IQ3_XXS 量化是什么 性能损耗与当前的

View File

@@ -0,0 +1,94 @@
基于你的硬件RTX 3070 16GB VRAM + 48GB RAM以下是 Qwen3.5-122B-A10B 在你的机器上的**极限部署完整方案**。
***
## 硬件限制分析
Qwen3.5-122B-A10B 的 3-bit 量化需要约 **60GB 总内存VRAM+RAM**4-bit 需要约 **70GB** 。你的总内存为 16GB VRAM + 48GB RAM = **64GB**,因此: [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5)
- **UD-IQ3_XXS约44-47GB**:✅ 可运行总内存够用有余量给KV cache
- **UD-Q4_K_XL约70GB**:⚠️ 极限压线几乎没有剩余空间给KV cache上下文只能极短
- **Q4_K_M 以上**:❌ 内存不足
**结论UD-IQ3_XXS 是你能运行的唯一实用量化版本。**
***
## 模型下载
```bash
pip install huggingface_hub hf_transfer
# 设置国内镜像加速(中国大陆环境)
export HF_ENDPOINT=https://hf-mirror.com
hf download unsloth/Qwen3.5-122B-A10B-GGUF \
--local-dir /root/models/Qwen3.5-122B-A10B-GGUF \
--include "*UD-IQ3_XXS*"
```
文件总大小约 **44-47GB**,注意磁盘空间 。 [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5)
***
## 极限启动命令
针对你的硬件,核心策略是:**Attention层放GPU所有FFN expert层卸载CPU** 。 [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196)
```bash
sudo nvidia-smi -pm 1
GGML_CUDA_DISABLE_GRAPHS=1 \
~/llama.cpp/build/bin/llama-server \
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
--host 0.0.0.0 \
--port 8000 \
-ngl 999 \
-c 16384 \
-t 14 \
--flash-attn on \
-b 256 \
-ub 128 \
--no-mmap \
--mlock \
-ctk q4_0 \
-ctv q4_0 \
--parallel 1 \
--temp 1.0 \
--top-k 20 \
--top-p 0.95 \
--jinja \
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
--rope-scaling yarn \
--rope-scale 8 \
--yarn-orig-ctx 32768 \
--override-kv qwen3moe.context_length=int:16384 \
--reasoning on \
-a "Qwen3.5-122B-A10B"
```
***
## 关键参数说明
| 参数 | 值 | 原因 |
|------|-----|------|
| `-ngl 999` | 全部层尝试上GPU | 配合 `-ot` 让非FFN层留GPU |
| `-ot "\.ffn_.*_exps\.=CPU"` | FFN专家层卸载CPU | 节省约10GB显存给Attention层 |
| `-c 16384` | 限制16K上下文 | 64GB总内存限制避免OOM |
| `-ctk q4_0 -ctv q4_0` | KV cache 4bit量化 | 进一步压缩KV cache占用 |
| `-t 14` | 14个CPU线程 | 5800X 8核16线程留2线程给系统 |
| `-b 256 -ub 128` | 降低batch size | 减少内存峰值 |
| `--mlock` | 锁定内存防swap | 避免内存被换出导致速度急剧下降 |
***
## 预期性能
由于 FFN expert 层卸载到 5800X 的 CPU速度受限于 CPU 内存带宽(约 47GB/s [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196)
- **预期速度:约 5-12 t/s**远低于当前30B的30 t/s
- **显存占用:约 13-15GB**Attention + 嵌入层)
- **RAM 占用:约 42-48GB**FFN expert 权重)
> ⚠️ **关键风险**`--mlock` 需要确保系统空余RAM **≥ 47GB**,运行前请 `free -h` 确认。若RAM不足建议关闭其他占内存服务如 Docmost、Gitea runner等或将 `-c 16384` 进一步降至 `8192` 来减少KV cache内存占用。

View File

@@ -0,0 +1,34 @@
我现在安装了 ubuntu25.10的desktop
我需要安装小龙虾,我的电脑处于中国大陆境内,需要考虑镜像加速
小龙虾需要配置我使用llama.cpp运行的Qwen3.5-122B-A10B
请你给出完整的安装流程
cat >> ~/.openclaw/openclaw.json << 'EOF'
{
"models": {
"mode": "merge",
"providers": {
"llamacpp": {
"baseUrl": "http://192.168.1.194:8000/v1",
"apiKey": "not-needed",
"api": "openai-completions",
"models": [
{ "id": "Qwen3.5-122B-A10B" }
]
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "llamacpp/Qwen3.5-122B-A10B"
}
}
}
}
EOF

View File

@@ -0,0 +1,8 @@
我是一名熟练大模型开发工程师和linux打交道的非常多
大模型开发工具 codex antigravity对于ubuntu desktop的支持情况如何在windows开发和linux开发上有什么不同
请同时分析
请你给出详细的对比分析

View File

@@ -0,0 +1,15 @@
请帮我分析现在最好的大模型编程工具是那些,请结合我的使用场景,帮我推荐最好的一个
我的主要大模型工具为Codex的PLUS套餐OpenCode的Go套餐和官方的DeepSeekAPI调用
1. 我主要在黑苹果机器上使用codex desktop, DeepSeek的Reasonix进行日常的编程任务
2. 我需要进行持久化任务,能够持续运行的那种
3. 我是用cc-switch工具进行配置切换
请你分析现在市面上Harness工程最佳的工具是哪些分析他们的优缺点以及什么场景下适用s
1. Codex启动长时间自循环的工作流程
2. CaudeCode Desktop的驾驭工程水平如何为何大家都喜欢使用他进行代码开发
3. Oh My OpenAgent的水平如何
请你分析市面上