大量更新内容

2026-06-15 14:14:24 +08:00
parent 0f3629efc8
commit 0f6e0d70f5
21 changed files with 452 additions and 1 deletions
--- a/32-WDD-AI服务器/1-GPU服务器/0-AI服务器初始化.md
+++ b/32-WDD-AI服务器/1-GPU服务器/0-AI服务器初始化.md
--- a/32-WDD-AI服务器/1-GPU服务器/1-nvidia驱动安装.md
+++ b/32-WDD-AI服务器/1-GPU服务器/1-nvidia驱动安装.md
--- a/32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md
+++ b/32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md
@@ -0,0 +1,85 @@
+#!/bin/bash
+# llama-server 后台启动脚本
+# 使用方法:
+#   启动: ./llama_server.sh start
+#   停止: ./llama_server.sh stop
+#   重启: ./llama_server.sh restart
+#   状态: ./llama_server.sh status
+#   日志: ./llama_server.sh logs
+
+PID_FILE="/var/run/llama-server.pid"
+LOG_FILE="/var/log/llama-server.log"
+SERVICE_NAME="llama-server"
+
+GREEN='\033[0;32m'; RED='\033[0;31m'; YELLOW='\033[1;33m'; NC='\033[0m'
+
+start() {
+    if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
+        echo -e "${YELLOW}[WARN]${NC} $SERVICE_NAME 已在运行 (PID: $(cat "$PID_FILE"))"; exit 1
+    fi
+    echo -e "${GREEN}[INFO]${NC} 启用 GPU 持久化模式..."
+    sudo nvidia-smi -pm 1
+    echo -e "${GREEN}[INFO]${NC} 正在后台启动 $SERVICE_NAME，日志: $LOG_FILE"
+
+    nohup env GGML_CUDA_DISABLE_GRAPHS=1 \
+        ~/llama.cpp/build/bin/llama-server \
+        -m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
+        --host 0.0.0.0 --port 8000 \
+        -ngl 999 -c 131072 -t 14 \
+        --flash-attn on -b 512 -ub 256 \
+        --no-mmap --mlock \
+        -ctk q4_0 -ctv q4_0 \
+        --parallel 1 --temp 1.0 --top-k 20 --top-p 0.95 \
+        --jinja \
+        -ot "\.ffn_(up|down|gate)_exps\.=CPU" \
+        --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768 \
+        --override-kv qwen3moe.context_length=int:131072 \
+        --reasoning on \
+        -a "Qwen3.5-122B-A10B" \
+        >> "$LOG_FILE" 2>&1 &
+
+    echo $! > "$PID_FILE"; sleep 2
+    if kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
+        echo -e "${GREEN}[OK]${NC} 已启动 (PID: $(cat "$PID_FILE"))，API: http://0.0.0.0:8000"
+    else
+        echo -e "${RED}[ERROR]${NC} 启动失败，请查看: $LOG_FILE"; rm -f "$PID_FILE"; exit 1
+    fi
+}
+
+stop() {
+    [ ! -f "$PID_FILE" ] && echo -e "${YELLOW}[WARN]${NC} 未运行" && exit 1
+    PID=$(cat "$PID_FILE")
+    if kill -0 "$PID" 2>/dev/null; then
+        echo -e "${GREEN}[INFO]${NC} 停止 $SERVICE_NAME (PID: $PID)..."
+        kill "$PID"
+        for i in $(seq 1 15); do kill -0 "$PID" 2>/dev/null || break; sleep 1; done
+        kill -0 "$PID" 2>/dev/null && kill -9 "$PID"
+        rm -f "$PID_FILE"; echo -e "${GREEN}[OK]${NC} 已停止"
+    else
+        echo -e "${YELLOW}[WARN]${NC} 进程不存在，清理 PID 文件"; rm -f "$PID_FILE"
+    fi
+}
+
+status() {
+    if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
+        PID=$(cat "$PID_FILE")
+        echo -e "${GREEN}[运行中]${NC} PID: $PID"
+        ps -p "$PID" -o pid,user,%cpu,%mem,etime --no-headers
+        nvidia-smi --query-gpu=name,utilization.gpu,memory.used,memory.total,temperature.gpu \
+            --format=csv,noheader,nounits | \
+            awk -F',' '{printf "GPU:%s 使用率:%s%% 显存:%s/%sMiB 温度:%s°C\n",$1,$2,$3,$4,$5}'
+    else
+        echo -e "${RED}[未运行]${NC} $SERVICE_NAME"; rm -f "$PID_FILE"
+    fi
+}
+
+logs() {
+    [ ! -f "$LOG_FILE" ] && echo "日志不存在: $LOG_FILE" && exit 1
+    tail -f "$LOG_FILE"
+}
+
+case "$1" in
+    start) start ;; stop) stop ;; restart) stop; sleep 1; start ;;
+    status) status ;; logs) logs ;;
+    *) echo "用法: $0 {start|stop|restart|status|logs}" ;;
+esac
--- a/32-WDD-AI服务器/1-GPU服务器/2-nvidia-高性能模式.md
+++ b/32-WDD-AI服务器/1-GPU服务器/2-nvidia-高性能模式.md
--- a/32-WDD-AI服务器/1-GPU服务器/2-vllm安装.md
+++ b/32-WDD-AI服务器/1-GPU服务器/2-vllm安装.md
--- a/32-WDD-AI服务器/1-GPU服务器/3-优化模型启动参数.md
+++ b/32-WDD-AI服务器/1-GPU服务器/3-优化模型启动参数.md
@@ -1,4 +1,4 @@
-CPU为5800X 内存为16GB 3200Mhz Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
+CPU为5800X 内存为48GB 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存

 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0

--- a/32-WDD-AI服务器/1-GPU服务器/4-nvidia-监控.md
+++ b/32-WDD-AI服务器/1-GPU服务器/4-nvidia-监控.md
--- a/32-WDD-AI服务器/1-GPU服务器/5-llama-cpp运行方式.md
+++ b/32-WDD-AI服务器/1-GPU服务器/5-llama-cpp运行方式.md
--- a/32-WDD-AI服务器/1-GPU服务器/6-llama-cpp编译安装.md
+++ b/32-WDD-AI服务器/1-GPU服务器/6-llama-cpp编译安装.md
--- a/32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md
+++ b/32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md
@@ -0,0 +1,95 @@
+
+## 基本信息如下
+1. CPU为5800X
+2. 内存为48GB 
+3. 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
+4. 操作系统为 Ubuntu 22.04.4 LTS
+
+
+
+5. 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0
+6. 安装了最新的mini coda
+7. 使用编译安装的方式安装了 llama.cpp 
+8. 编译方式如下 cmake -B build \
+  -DGGML_CUDA=ON \
+  -DCMAKE_BUILD_TYPE=Release \
+  -DCMAKE_CUDA_ARCHITECTURES="86" \
+  -DGGML_CUDA_F16=ON \
+  -DGGML_CUDA_FA_ALL_QUANTS=ON \
+  -DGGML_NATIVE=ON \
+  -DCMAKE_C_COMPILER=gcc \
+  -DCMAKE_CXX_COMPILER=g++ \
+  -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc
+# 并行编译（5800X 16核全开）
+cmake --build build --config Release -j$(nproc)
+9. 现在启动大模型的方式为
+sudo nvidia-smi -pm 1
+GGML_CUDA_DISABLE_GRAPHS=1 \
+~/llama.cpp/build/bin/llama-server \
+  -m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf \
+  --host 0.0.0.0 \
+  --port 8000 \
+  -ngl 999 \
+  -c 131072 \
+  -t 8 \
+  --flash-attn on \
+  -b 512 \
+  -ub 256 \
+  --mlock \
+  -ctk q4_0 \
+  -ctv q4_0 \
+  --parallel 1 \
+  --temp 0.6 \
+  --top-k 20 \
+  --top-p 0.95 \
+  --jinja \
+  -ot "\.ffn_(up|down|gate)_exps\.=CPU" \
+  --rope-scaling yarn \
+  --rope-scale 4 \
+  --yarn-orig-ctx 32768 \
+  --override-kv qwen3moe.context_length=int:131072 \
+  -a "Qwen3-30B-A3B"
+
+
+10. 现在实际运行大模型时候的情况如下  token输出为 30 token/s
+时间戳        GPU%    显存%  显存用/总MiB  功耗W   温度°C  CPU%    RAM用/总GiB
+2026/06/10 05:45:26.594    |    99% |  29.6% |  4849 /  16384 |  82.04 |    38  |     6% | 19.07 / 46.96
+
+
+你需要实现的内容
+1. 请你判断我的电脑支持运行的最强本地大模型是什么，给出一个列表
+2. 给
+
+
+
+
+
+sudo nvidia-smi -pm 1
+
+GGML_CUDA_DISABLE_GRAPHS=1 \
+~/llama.cpp/build/bin/llama-server \
+  -m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
+  --host 0.0.0.0 \
+  --port 8000 \
+  -ngl 999 \
+  -c 131072 \
+  -t 14 \
+  --flash-attn on \
+  -b 512 \
+  -ub 256 \
+  --no-mmap \
+  --mlock \
+  -ctk q4_0 \
+  -ctv q4_0 \
+  --parallel 1 \
+  --temp 1.0 \
+  --top-k 20 \
+  --top-p 0.95 \
+  --jinja \
+  -ot "\.ffn_(up|down|gate)_exps\.=CPU" \
+  --rope-scaling yarn \
+  --rope-scale 4 \
+  --yarn-orig-ctx 32768 \
+  --override-kv qwen3moe.context_length=int:131072 \
+  --reasoning on \
+  -a "Qwen3.5-122B-A10B"
--- a/32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md
+++ b/32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md
@@ -0,0 +1,50 @@
+基于你的硬件配置（RTX 3070 16GB显存 + 48GB RAM + 5800X），利用 llama.cpp 的 CPU offload 能力，可以覆盖的模型范围远超纯GPU方案。以下是从强到弱的推荐列表。
+
+***
+
+## 硬件能力分析
+
+你的关键优势在于 **16GB VRAM + 48GB RAM 的组合**，可以让大参数模型的非关键层（FFN exps）卸载到CPU，正如你当前启动命令中 `-ot "\.ffn_(up|down|gate)_exps\.=CPU"` 所做的那样  [huggingface](https://huggingface.co/ubergarm/Qwen3-30B-A3B-GGUF)。当前跑 Qwen3-30B-A3B Q4_K_M 只用了约 4.8GB 显存、30 t/s，说明GPU还有大量余量可利用  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)。
+
+***
+
+## 推荐可运行模型列表
+
+以下按**综合实力**排序（全GPU推理 or GPU+CPU混合推理均可）：
+
+### 旗舰级 MoE 模型（CPU卸载必需）
+
+| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
+|------|--------|----------|---------|---------|------|
+| **Qwen3.5-122B-A10B** | 122B/10B激活 | UD-IQ3_XXS (~44.7GB) | ~14.7GB GPU | ~20-22 t/s | 16GB显存最强MoE，质量碾压27B  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **Mistral-Small-4-119B** | 119B MoE | UD-IQ3_XXS (~42.8GB) | ~14.8GB GPU | ~28-30 t/s | 非Qwen系替代，代码能力强  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **Nemotron Super 120B** | 120B | IQ3_XXS (~56.2GB) | ~15GB GPU | ~17 t/s | 需要56GB总内存，你48GB稍紧  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+
+### 高性能 MoE 小参数（当前已运行，可升级）
+
+| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
+|------|--------|----------|---------|---------|------|
+| **Qwen3.6-35B-A3B** | 35B/3B激活 | UD-IQ3_XXS (~13.2GB) | ~14.7GB GPU | ~145 t/s | 速度极快，接近全GPU  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **Qwen3.5-35B-A3B** | 35B/3B激活 | UD-IQ3_S (~13.6GB) | ~14.9GB GPU | ~136 t/s | 可推到100k context不掉速  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **Qwen3-30B-A3B** ✅ | 30B/3B激活 | Q4_K_M（当前） | ~4.8GB GPU | ~30 t/s | 当前方案，可尝试Q6_K_M提质量 |
+
+### 高质量 Dense 模型（全GPU或少量offload）
+
+| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
+|------|--------|----------|---------|---------|------|
+| **Qwen3-14B** | 14B Dense | Q8_0 (~15GB) | ~15GB GPU | ~40-50 t/s | 全GPU，综合质量最佳Dense  [biton.co](https://www.biton.co.jp/blog_71.html) |
+| **Gemma 4-26B-A4B** | 26B MoE | UD-IQ4_XS (~13.4GB) | ~14.7GB GPU | ~120 t/s | Google多模态背景，速度出色  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **GLM-4.7-Flash REAP 23B** | 23B | IQ4_XS (~12.6GB) | ~13.7GB GPU | ~122 t/s | 中文能力强，适合你的使用场景  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **Qwen3-8B** | 8B Dense | Q8_0 (~9GB) | ~9GB GPU | ~80+ t/s | 快速响应场景备用 |
+
+***
+
+## 实际最强推荐
+
+**综合质量最强**（48GB RAM够用）：→ **Qwen3.5-122B-A10B-UD-IQ3_XXS**，模型文件约44.7GB，GPU占约14.7GB，CPU承载其余，实测约20-22 t/s，智力水平远超30B 。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)
+
+**速度质量最佳平衡**：→ **Qwen3.6-35B-A3B-UD-IQ3_XXS**，~145 t/s，全程GPU，13.8GB显存即可搞定，是当前30B方案的直接升级 。 [glukhov](https://www.glukhov.org/llm-performance/benchmarks/best-llm-on-16gb-vram-gpu/)
+
+你目前运行30B时GPU显存仅用了4.8GB/16GB，说明大量FFN被卸载到CPU 。建议优先尝试 Qwen3.6-35B-A3B 的 IQ3_XXS 量化，可将几乎全部层放入GPU实现最高速度。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)
+
+请你给出运行 Qwen3.6-35B-A3B的方式，IQ3_XXS 量化是什么 性能损耗与当前的
--- a/32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md
+++ b/32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md
@@ -0,0 +1,94 @@
+基于你的硬件（RTX 3070 16GB VRAM + 48GB RAM），以下是 Qwen3.5-122B-A10B 在你的机器上的**极限部署完整方案**。
+
+***
+
+## 硬件限制分析
+
+Qwen3.5-122B-A10B 的 3-bit 量化需要约 **60GB 总内存（VRAM+RAM）**，4-bit 需要约 **70GB** 。你的总内存为 16GB VRAM + 48GB RAM = **64GB**，因此： [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5)
+
+- **UD-IQ3_XXS（约44-47GB）**：✅ 可运行，总内存够用，有余量给KV cache
+- **UD-Q4_K_XL（约70GB）**：⚠️ 极限压线，几乎没有剩余空间给KV cache，上下文只能极短
+- **Q4_K_M 以上**：❌ 内存不足
+
+**结论：UD-IQ3_XXS 是你能运行的唯一实用量化版本。**
+
+***
+
+## 模型下载
+
+```bash
+pip install huggingface_hub hf_transfer
+
+# 设置国内镜像加速（中国大陆环境）
+export HF_ENDPOINT=https://hf-mirror.com
+
+hf download unsloth/Qwen3.5-122B-A10B-GGUF \
+    --local-dir /root/models/Qwen3.5-122B-A10B-GGUF \
+    --include "*UD-IQ3_XXS*"
+```
+
+文件总大小约 **44-47GB**，注意磁盘空间 。 [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5)
+
+***
+
+## 极限启动命令
+
+针对你的硬件，核心策略是：**Attention层放GPU，所有FFN expert层卸载CPU** 。 [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196)
+
+```bash
+sudo nvidia-smi -pm 1
+
+GGML_CUDA_DISABLE_GRAPHS=1 \
+~/llama.cpp/build/bin/llama-server \
+  -m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
+  --host 0.0.0.0 \
+  --port 8000 \
+  -ngl 999 \
+  -c 16384 \
+  -t 14 \
+  --flash-attn on \
+  -b 256 \
+  -ub 128 \
+  --no-mmap \
+  --mlock \
+  -ctk q4_0 \
+  -ctv q4_0 \
+  --parallel 1 \
+  --temp 1.0 \
+  --top-k 20 \
+  --top-p 0.95 \
+  --jinja \
+  -ot "\.ffn_(up|down|gate)_exps\.=CPU" \
+  --rope-scaling yarn \
+  --rope-scale 8 \
+  --yarn-orig-ctx 32768 \
+  --override-kv qwen3moe.context_length=int:16384 \
+  --reasoning on \
+  -a "Qwen3.5-122B-A10B"
+```
+
+***
+
+## 关键参数说明
+
+| 参数 | 值 | 原因 |
+|------|-----|------|
+| `-ngl 999` | 全部层尝试上GPU | 配合 `-ot` 让非FFN层留GPU |
+| `-ot "\.ffn_.*_exps\.=CPU"` | FFN专家层卸载CPU | 节省约10GB显存给Attention层 |
+| `-c 16384` | 限制16K上下文 | 64GB总内存限制，避免OOM |
+| `-ctk q4_0 -ctv q4_0` | KV cache 4bit量化 | 进一步压缩KV cache占用 |
+| `-t 14` | 14个CPU线程 | 5800X 8核16线程，留2线程给系统 |
+| `-b 256 -ub 128` | 降低batch size | 减少内存峰值 |
+| `--mlock` | 锁定内存防swap | 避免内存被换出导致速度急剧下降 |
+
+***
+
+## 预期性能
+
+由于 FFN expert 层卸载到 5800X 的 CPU，速度受限于 CPU 内存带宽（约 47GB/s） ： [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196)
+
+- **预期速度：约 5-12 t/s**（远低于当前30B的30 t/s）
+- **显存占用：约 13-15GB**（Attention + 嵌入层）
+- **RAM 占用：约 42-48GB**（FFN expert 权重）
+
+> ⚠️ **关键风险**：`--mlock` 需要确保系统空余RAM **≥ 47GB**，运行前请 `free -h` 确认。若RAM不足，建议关闭其他占内存服务（如 Docmost、Gitea runner等），或将 `-c 16384` 进一步降至 `8192` 来减少KV cache内存占用。
--- a/32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md
+++ b/32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md
@@ -0,0 +1,34 @@
+我现在安装了 ubuntu25.10的desktop
+
+我需要安装小龙虾，我的电脑处于中国大陆境内，需要考虑镜像加速
+
+小龙虾需要配置我使用llama.cpp运行的Qwen3.5-122B-A10B
+
+请你给出完整的安装流程
+
+
+
+cat >> ~/.openclaw/openclaw.json << 'EOF'
+{
+  "models": {
+    "mode": "merge",
+    "providers": {
+      "llamacpp": {
+        "baseUrl": "http://192.168.1.194:8000/v1",
+        "apiKey": "not-needed",
+        "api": "openai-completions",
+        "models": [
+          { "id": "Qwen3.5-122B-A10B" }
+        ]
+      }
+    }
+  },
+  "agents": {
+    "defaults": {
+      "model": {
+        "primary": "llamacpp/Qwen3.5-122B-A10B"
+      }
+    }
+  }
+}
+EOF
--- a/32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md
+++ b/32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md
@@ -0,0 +1,8 @@
+我是一名熟练大模型开发工程师，和linux打交道的非常多
+
+大模型开发工具 codex antigravity对于ubuntu desktop的支持情况如何，在windows开发和linux开发上有什么不同
+
+
+请同时分析
+
+请你给出详细的对比分析
--- a/32-WDD-AI服务器/4-大模型工具/0-prompt.md
+++ b/32-WDD-AI服务器/4-大模型工具/0-prompt.md
@@ -0,0 +1,15 @@
+请帮我分析现在最好的大模型编程工具是那些，请结合我的使用场景，帮我推荐最好的一个
+
+我的主要大模型工具为Codex的PLUS套餐，OpenCode的Go套餐，和官方的DeepSeekAPI调用
+
+1. 我主要在黑苹果机器上使用codex desktop, DeepSeek的Reasonix进行日常的编程任务
+2. 我需要进行持久化任务，能够持续运行的那种
+3. 我是用cc-switch工具进行配置切换
+
+请你分析现在市面上Harness工程最佳的工具是哪些，分析他们的优缺点，以及什么场景下适用s
+1. Codex启动长时间自循环的工作流程
+2. CaudeCode Desktop的驾驭工程水平如何，为何大家都喜欢使用他进行代码开发
+3. Oh My OpenAgent的水平如何
+
+
+请你分析市面上