From 0f6e0d70f5d738cf55e0aad87b89983a459dd5df Mon Sep 17 00:00:00 2001
From: zeaslity <ice@qq.com>
Date: Mon, 15 Jun 2026 14:14:24 +0800
Subject: [PATCH] =?UTF-8?q?=E5=A4=A7=E9=87=8F=E6=9B=B4=E6=96=B0=E5=86=85?=
 =?UTF-8?q?=E5=AE=B9?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 .../3-土耳其AppleID/260613-支付方式.md        | 17 ++++
 .../{ => 1-GPU服务器}/0-AI服务器初始化.md     |  0
 .../{ => 1-GPU服务器}/1-nvidia驱动安装.md     |  0
 32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md    | 85 +++++++++++++++++
 .../{ => 1-GPU服务器}/2-nvidia-高性能模式.md  |  0
 .../{ => 1-GPU服务器}/2-vllm安装.md           |  0
 .../{ => 1-GPU服务器}/3-优化模型启动参数.md   |  2 +-
 .../{ => 1-GPU服务器}/4-nvidia-监控.md        |  0
 .../{ => 1-GPU服务器}/5-llama-cpp运行方式.md  |  0
 .../{ => 1-GPU服务器}/6-llama-cpp编译安装.md  |  0
 .../1-GPU服务器/7-llama-cpp极致优化.md        | 95 +++++++++++++++++++
 .../1-GPU服务器/8-支持运行的大模型列表.md     | 50 ++++++++++
 .../9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md     | 94 ++++++++++++++++++
 .../2-小龙虾部署/dell-lap-部署计划.md         | 34 +++++++
 .../3-转为开发中心/大模型开发支持.md          |  8 ++
 32-WDD-AI服务器/4-大模型工具/0-prompt.md      | 15 +++
 35-黑苹果DELL/0-安装黑苹果-prompt.md          | 18 ++++
 .../1-ubuntu主力电脑可行性-prompt.md          | 16 ++++
 35-黑苹果DELL/2-黑苹果电脑的主体抉择.md       |  9 ++
 35-黑苹果DELL/3-windows的WSL的性能.md         |  3 +
 .../0-发展研究/0-研究指南.md                  |  7 ++
 21 files changed, 452 insertions(+), 1 deletion(-)
 create mode 100644 29-大模型套餐-工具/3-土耳其AppleID/260613-支付方式.md
 rename 32-WDD-AI服务器/{ => 1-GPU服务器}/0-AI服务器初始化.md (100%)
 rename 32-WDD-AI服务器/{ => 1-GPU服务器}/1-nvidia驱动安装.md (100%)
 create mode 100644 32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md
 rename 32-WDD-AI服务器/{ => 1-GPU服务器}/2-nvidia-高性能模式.md (100%)
 rename 32-WDD-AI服务器/{ => 1-GPU服务器}/2-vllm安装.md (100%)
 rename 32-WDD-AI服务器/{ => 1-GPU服务器}/3-优化模型启动参数.md (95%)
 rename 32-WDD-AI服务器/{ => 1-GPU服务器}/4-nvidia-监控.md (100%)
 rename 32-WDD-AI服务器/{ => 1-GPU服务器}/5-llama-cpp运行方式.md (100%)
 rename 32-WDD-AI服务器/{ => 1-GPU服务器}/6-llama-cpp编译安装.md (100%)
 create mode 100644 32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md
 create mode 100644 32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md
 create mode 100644 32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md
 create mode 100644 32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md
 create mode 100644 32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md
 create mode 100644 32-WDD-AI服务器/4-大模型工具/0-prompt.md
 create mode 100644 35-黑苹果DELL/0-安装黑苹果-prompt.md
 create mode 100644 35-黑苹果DELL/1-ubuntu主力电脑可行性-prompt.md
 create mode 100644 35-黑苹果DELL/2-黑苹果电脑的主体抉择.md
 create mode 100644 35-黑苹果DELL/3-windows的WSL的性能.md
 create mode 100644 91-HarnessEngineering/0-发展研究/0-研究指南.md

diff --git a/29-大模型套餐-工具/3-土耳其AppleID/260613-支付方式.md b/29-大模型套餐-工具/3-土耳其AppleID/260613-支付方式.md
new file mode 100644
index 0000000..25e1cc7
--- /dev/null
+++ b/29-大模型套餐-工具/3-土耳其AppleID/260613-支付方式.md
@@ -0,0 +1,17 @@
+我成功注册了土耳其区的账号，并且通过礼品卡购买了土耳其区的gpt plus会员
+
+现在app store强制我绑定支付方式
+
+我尝试了很多非中国地区的信用卡 储蓄卡，都不能成功绑定
+报错为：Your payment method is node valid in this Store. Pleaase enter a new patment method
+
+你觉得我应该怎么办？如何才能继续支付 订阅GPT Plus会员
+
+由于土耳其区的GPT PLUS会员过期了，我没有及时续费
+我通过购买历史（Purchase History）进入GPT PLUS的历史支付，点击里面的续费订阅管理（Manage Subscriptions），进入续费页面，显示 Your payment method was declined. To avoid any interruption in your subscription and purchase, please update your payment method.
+
+补充：我点击此页面的See All Plans可以看到 GPT PLUS的价格还是499里拉
+
+这种情况我可以通过购买礼品卡的方式，实现原价的续费吗？支持自动续费吗？
+
+现在新购买GPT PLUS会员已经涨到了999里拉，不划算了
\ No newline at end of file
diff --git a/32-WDD-AI服务器/0-AI服务器初始化.md b/32-WDD-AI服务器/1-GPU服务器/0-AI服务器初始化.md
similarity index 100%
rename from 32-WDD-AI服务器/0-AI服务器初始化.md
rename to 32-WDD-AI服务器/1-GPU服务器/0-AI服务器初始化.md
diff --git a/32-WDD-AI服务器/1-nvidia驱动安装.md b/32-WDD-AI服务器/1-GPU服务器/1-nvidia驱动安装.md
similarity index 100%
rename from 32-WDD-AI服务器/1-nvidia驱动安装.md
rename to 32-WDD-AI服务器/1-GPU服务器/1-nvidia驱动安装.md
diff --git a/32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md b/32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md
new file mode 100644
index 0000000..470d24a
--- /dev/null
+++ b/32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md
@@ -0,0 +1,85 @@
+#!/bin/bash
+# llama-server 后台启动脚本
+# 使用方法:
+#   启动: ./llama_server.sh start
+#   停止: ./llama_server.sh stop
+#   重启: ./llama_server.sh restart
+#   状态: ./llama_server.sh status
+#   日志: ./llama_server.sh logs
+
+PID_FILE="/var/run/llama-server.pid"
+LOG_FILE="/var/log/llama-server.log"
+SERVICE_NAME="llama-server"
+
+GREEN='\033[0;32m'; RED='\033[0;31m'; YELLOW='\033[1;33m'; NC='\033[0m'
+
+start() {
+    if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
+        echo -e "${YELLOW}[WARN]${NC} $SERVICE_NAME 已在运行 (PID: $(cat "$PID_FILE"))"; exit 1
+    fi
+    echo -e "${GREEN}[INFO]${NC} 启用 GPU 持久化模式..."
+    sudo nvidia-smi -pm 1
+    echo -e "${GREEN}[INFO]${NC} 正在后台启动 $SERVICE_NAME，日志: $LOG_FILE"
+
+    nohup env GGML_CUDA_DISABLE_GRAPHS=1 \
+        ~/llama.cpp/build/bin/llama-server \
+        -m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
+        --host 0.0.0.0 --port 8000 \
+        -ngl 999 -c 131072 -t 14 \
+        --flash-attn on -b 512 -ub 256 \
+        --no-mmap --mlock \
+        -ctk q4_0 -ctv q4_0 \
+        --parallel 1 --temp 1.0 --top-k 20 --top-p 0.95 \
+        --jinja \
+        -ot "\.ffn_(up|down|gate)_exps\.=CPU" \
+        --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768 \
+        --override-kv qwen3moe.context_length=int:131072 \
+        --reasoning on \
+        -a "Qwen3.5-122B-A10B" \
+        >> "$LOG_FILE" 2>&1 &
+
+    echo $! > "$PID_FILE"; sleep 2
+    if kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
+        echo -e "${GREEN}[OK]${NC} 已启动 (PID: $(cat "$PID_FILE"))，API: http://0.0.0.0:8000"
+    else
+        echo -e "${RED}[ERROR]${NC} 启动失败，请查看: $LOG_FILE"; rm -f "$PID_FILE"; exit 1
+    fi
+}
+
+stop() {
+    [ ! -f "$PID_FILE" ] && echo -e "${YELLOW}[WARN]${NC} 未运行" && exit 1
+    PID=$(cat "$PID_FILE")
+    if kill -0 "$PID" 2>/dev/null; then
+        echo -e "${GREEN}[INFO]${NC} 停止 $SERVICE_NAME (PID: $PID)..."
+        kill "$PID"
+        for i in $(seq 1 15); do kill -0 "$PID" 2>/dev/null || break; sleep 1; done
+        kill -0 "$PID" 2>/dev/null && kill -9 "$PID"
+        rm -f "$PID_FILE"; echo -e "${GREEN}[OK]${NC} 已停止"
+    else
+        echo -e "${YELLOW}[WARN]${NC} 进程不存在，清理 PID 文件"; rm -f "$PID_FILE"
+    fi
+}
+
+status() {
+    if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
+        PID=$(cat "$PID_FILE")
+        echo -e "${GREEN}[运行中]${NC} PID: $PID"
+        ps -p "$PID" -o pid,user,%cpu,%mem,etime --no-headers
+        nvidia-smi --query-gpu=name,utilization.gpu,memory.used,memory.total,temperature.gpu \
+            --format=csv,noheader,nounits | \
+            awk -F',' '{printf "GPU:%s 使用率:%s%% 显存:%s/%sMiB 温度:%s°C\n",$1,$2,$3,$4,$5}'
+    else
+        echo -e "${RED}[未运行]${NC} $SERVICE_NAME"; rm -f "$PID_FILE"
+    fi
+}
+
+logs() {
+    [ ! -f "$LOG_FILE" ] && echo "日志不存在: $LOG_FILE" && exit 1
+    tail -f "$LOG_FILE"
+}
+
+case "$1" in
+    start) start ;; stop) stop ;; restart) stop; sleep 1; start ;;
+    status) status ;; logs) logs ;;
+    *) echo "用法: $0 {start|stop|restart|status|logs}" ;;
+esac
\ No newline at end of file
diff --git a/32-WDD-AI服务器/2-nvidia-高性能模式.md b/32-WDD-AI服务器/1-GPU服务器/2-nvidia-高性能模式.md
similarity index 100%
rename from 32-WDD-AI服务器/2-nvidia-高性能模式.md
rename to 32-WDD-AI服务器/1-GPU服务器/2-nvidia-高性能模式.md
diff --git a/32-WDD-AI服务器/2-vllm安装.md b/32-WDD-AI服务器/1-GPU服务器/2-vllm安装.md
similarity index 100%
rename from 32-WDD-AI服务器/2-vllm安装.md
rename to 32-WDD-AI服务器/1-GPU服务器/2-vllm安装.md
diff --git a/32-WDD-AI服务器/3-优化模型启动参数.md b/32-WDD-AI服务器/1-GPU服务器/3-优化模型启动参数.md
similarity index 95%
rename from 32-WDD-AI服务器/3-优化模型启动参数.md
rename to 32-WDD-AI服务器/1-GPU服务器/3-优化模型启动参数.md
index 8f76494..5efc980 100644
--- a/32-WDD-AI服务器/3-优化模型启动参数.md
+++ b/32-WDD-AI服务器/1-GPU服务器/3-优化模型启动参数.md
@@ -1,4 +1,4 @@
-CPU为5800X 内存为16GB 3200Mhz Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
+CPU为5800X 内存为48GB 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
 
 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0
 
diff --git a/32-WDD-AI服务器/4-nvidia-监控.md b/32-WDD-AI服务器/1-GPU服务器/4-nvidia-监控.md
similarity index 100%
rename from 32-WDD-AI服务器/4-nvidia-监控.md
rename to 32-WDD-AI服务器/1-GPU服务器/4-nvidia-监控.md
diff --git a/32-WDD-AI服务器/5-llama-cpp运行方式.md b/32-WDD-AI服务器/1-GPU服务器/5-llama-cpp运行方式.md
similarity index 100%
rename from 32-WDD-AI服务器/5-llama-cpp运行方式.md
rename to 32-WDD-AI服务器/1-GPU服务器/5-llama-cpp运行方式.md
diff --git a/32-WDD-AI服务器/6-llama-cpp编译安装.md b/32-WDD-AI服务器/1-GPU服务器/6-llama-cpp编译安装.md
similarity index 100%
rename from 32-WDD-AI服务器/6-llama-cpp编译安装.md
rename to 32-WDD-AI服务器/1-GPU服务器/6-llama-cpp编译安装.md
diff --git a/32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md b/32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md
new file mode 100644
index 0000000..b6657a9
--- /dev/null
+++ b/32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md
@@ -0,0 +1,95 @@
+
+## 基本信息如下
+1. CPU为5800X
+2. 内存为48GB 
+3. 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
+4. 操作系统为 Ubuntu 22.04.4 LTS
+
+
+
+5. 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0
+6. 安装了最新的mini coda
+7. 使用编译安装的方式安装了 llama.cpp 
+8. 编译方式如下 cmake -B build \
+  -DGGML_CUDA=ON \
+  -DCMAKE_BUILD_TYPE=Release \
+  -DCMAKE_CUDA_ARCHITECTURES="86" \
+  -DGGML_CUDA_F16=ON \
+  -DGGML_CUDA_FA_ALL_QUANTS=ON \
+  -DGGML_NATIVE=ON \
+  -DCMAKE_C_COMPILER=gcc \
+  -DCMAKE_CXX_COMPILER=g++ \
+  -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc
+# 并行编译（5800X 16核全开）
+cmake --build build --config Release -j$(nproc)
+9. 现在启动大模型的方式为
+sudo nvidia-smi -pm 1
+GGML_CUDA_DISABLE_GRAPHS=1 \
+~/llama.cpp/build/bin/llama-server \
+  -m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf \
+  --host 0.0.0.0 \
+  --port 8000 \
+  -ngl 999 \
+  -c 131072 \
+  -t 8 \
+  --flash-attn on \
+  -b 512 \
+  -ub 256 \
+  --mlock \
+  -ctk q4_0 \
+  -ctv q4_0 \
+  --parallel 1 \
+  --temp 0.6 \
+  --top-k 20 \
+  --top-p 0.95 \
+  --jinja \
+  -ot "\.ffn_(up|down|gate)_exps\.=CPU" \
+  --rope-scaling yarn \
+  --rope-scale 4 \
+  --yarn-orig-ctx 32768 \
+  --override-kv qwen3moe.context_length=int:131072 \
+  -a "Qwen3-30B-A3B"
+
+
+10. 现在实际运行大模型时候的情况如下  token输出为 30 token/s
+时间戳        GPU%    显存%  显存用/总MiB  功耗W   温度°C  CPU%    RAM用/总GiB
+2026/06/10 05:45:26.594    |    99% |  29.6% |  4849 /  16384 |  82.04 |    38  |     6% | 19.07 / 46.96
+
+
+你需要实现的内容
+1. 请你判断我的电脑支持运行的最强本地大模型是什么，给出一个列表
+2. 给
+
+
+
+
+
+sudo nvidia-smi -pm 1
+
+GGML_CUDA_DISABLE_GRAPHS=1 \
+~/llama.cpp/build/bin/llama-server \
+  -m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
+  --host 0.0.0.0 \
+  --port 8000 \
+  -ngl 999 \
+  -c 131072 \
+  -t 14 \
+  --flash-attn on \
+  -b 512 \
+  -ub 256 \
+  --no-mmap \
+  --mlock \
+  -ctk q4_0 \
+  -ctv q4_0 \
+  --parallel 1 \
+  --temp 1.0 \
+  --top-k 20 \
+  --top-p 0.95 \
+  --jinja \
+  -ot "\.ffn_(up|down|gate)_exps\.=CPU" \
+  --rope-scaling yarn \
+  --rope-scale 4 \
+  --yarn-orig-ctx 32768 \
+  --override-kv qwen3moe.context_length=int:131072 \
+  --reasoning on \
+  -a "Qwen3.5-122B-A10B"
\ No newline at end of file
diff --git a/32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md b/32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md
new file mode 100644
index 0000000..9616b17
--- /dev/null
+++ b/32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md
@@ -0,0 +1,50 @@
+基于你的硬件配置（RTX 3070 16GB显存 + 48GB RAM + 5800X），利用 llama.cpp 的 CPU offload 能力，可以覆盖的模型范围远超纯GPU方案。以下是从强到弱的推荐列表。
+
+***
+
+## 硬件能力分析
+
+你的关键优势在于 **16GB VRAM + 48GB RAM 的组合**，可以让大参数模型的非关键层（FFN exps）卸载到CPU，正如你当前启动命令中 `-ot "\.ffn_(up|down|gate)_exps\.=CPU"` 所做的那样  [huggingface](https://huggingface.co/ubergarm/Qwen3-30B-A3B-GGUF)。当前跑 Qwen3-30B-A3B Q4_K_M 只用了约 4.8GB 显存、30 t/s，说明GPU还有大量余量可利用  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)。
+
+***
+
+## 推荐可运行模型列表
+
+以下按**综合实力**排序（全GPU推理 or GPU+CPU混合推理均可）：
+
+### 旗舰级 MoE 模型（CPU卸载必需）
+
+| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
+|------|--------|----------|---------|---------|------|
+| **Qwen3.5-122B-A10B** | 122B/10B激活 | UD-IQ3_XXS (~44.7GB) | ~14.7GB GPU | ~20-22 t/s | 16GB显存最强MoE，质量碾压27B  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **Mistral-Small-4-119B** | 119B MoE | UD-IQ3_XXS (~42.8GB) | ~14.8GB GPU | ~28-30 t/s | 非Qwen系替代，代码能力强  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **Nemotron Super 120B** | 120B | IQ3_XXS (~56.2GB) | ~15GB GPU | ~17 t/s | 需要56GB总内存，你48GB稍紧  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+
+### 高性能 MoE 小参数（当前已运行，可升级）
+
+| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
+|------|--------|----------|---------|---------|------|
+| **Qwen3.6-35B-A3B** | 35B/3B激活 | UD-IQ3_XXS (~13.2GB) | ~14.7GB GPU | ~145 t/s | 速度极快，接近全GPU  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **Qwen3.5-35B-A3B** | 35B/3B激活 | UD-IQ3_S (~13.6GB) | ~14.9GB GPU | ~136 t/s | 可推到100k context不掉速  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **Qwen3-30B-A3B** ✅ | 30B/3B激活 | Q4_K_M（当前） | ~4.8GB GPU | ~30 t/s | 当前方案，可尝试Q6_K_M提质量 |
+
+### 高质量 Dense 模型（全GPU或少量offload）
+
+| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
+|------|--------|----------|---------|---------|------|
+| **Qwen3-14B** | 14B Dense | Q8_0 (~15GB) | ~15GB GPU | ~40-50 t/s | 全GPU，综合质量最佳Dense  [biton.co](https://www.biton.co.jp/blog_71.html) |
+| **Gemma 4-26B-A4B** | 26B MoE | UD-IQ4_XS (~13.4GB) | ~14.7GB GPU | ~120 t/s | Google多模态背景，速度出色  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **GLM-4.7-Flash REAP 23B** | 23B | IQ4_XS (~12.6GB) | ~13.7GB GPU | ~122 t/s | 中文能力强，适合你的使用场景  [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
+| **Qwen3-8B** | 8B Dense | Q8_0 (~9GB) | ~9GB GPU | ~80+ t/s | 快速响应场景备用 |
+
+***
+
+## 实际最强推荐
+
+**综合质量最强**（48GB RAM够用）：→ **Qwen3.5-122B-A10B-UD-IQ3_XXS**，模型文件约44.7GB，GPU占约14.7GB，CPU承载其余，实测约20-22 t/s，智力水平远超30B 。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)
+
+**速度质量最佳平衡**：→ **Qwen3.6-35B-A3B-UD-IQ3_XXS**，~145 t/s，全程GPU，13.8GB显存即可搞定，是当前30B方案的直接升级 。 [glukhov](https://www.glukhov.org/llm-performance/benchmarks/best-llm-on-16gb-vram-gpu/)
+
+你目前运行30B时GPU显存仅用了4.8GB/16GB，说明大量FFN被卸载到CPU 。建议优先尝试 Qwen3.6-35B-A3B 的 IQ3_XXS 量化，可将几乎全部层放入GPU实现最高速度。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)
+
+请你给出运行 Qwen3.6-35B-A3B的方式，IQ3_XXS 量化是什么 性能损耗与当前的
\ No newline at end of file
diff --git a/32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md b/32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md
new file mode 100644
index 0000000..be1262b
--- /dev/null
+++ b/32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md
@@ -0,0 +1,94 @@
+基于你的硬件（RTX 3070 16GB VRAM + 48GB RAM），以下是 Qwen3.5-122B-A10B 在你的机器上的**极限部署完整方案**。
+
+***
+
+## 硬件限制分析
+
+Qwen3.5-122B-A10B 的 3-bit 量化需要约 **60GB 总内存（VRAM+RAM）**，4-bit 需要约 **70GB** 。你的总内存为 16GB VRAM + 48GB RAM = **64GB**，因此： [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5)
+
+- **UD-IQ3_XXS（约44-47GB）**：✅ 可运行，总内存够用，有余量给KV cache
+- **UD-Q4_K_XL（约70GB）**：⚠️ 极限压线，几乎没有剩余空间给KV cache，上下文只能极短
+- **Q4_K_M 以上**：❌ 内存不足
+
+**结论：UD-IQ3_XXS 是你能运行的唯一实用量化版本。**
+
+***
+
+## 模型下载
+
+```bash
+pip install huggingface_hub hf_transfer
+
+# 设置国内镜像加速（中国大陆环境）
+export HF_ENDPOINT=https://hf-mirror.com
+
+hf download unsloth/Qwen3.5-122B-A10B-GGUF \
+    --local-dir /root/models/Qwen3.5-122B-A10B-GGUF \
+    --include "*UD-IQ3_XXS*"
+```
+
+文件总大小约 **44-47GB**，注意磁盘空间 。 [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5)
+
+***
+
+## 极限启动命令
+
+针对你的硬件，核心策略是：**Attention层放GPU，所有FFN expert层卸载CPU** 。 [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196)
+
+```bash
+sudo nvidia-smi -pm 1
+
+GGML_CUDA_DISABLE_GRAPHS=1 \
+~/llama.cpp/build/bin/llama-server \
+  -m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
+  --host 0.0.0.0 \
+  --port 8000 \
+  -ngl 999 \
+  -c 16384 \
+  -t 14 \
+  --flash-attn on \
+  -b 256 \
+  -ub 128 \
+  --no-mmap \
+  --mlock \
+  -ctk q4_0 \
+  -ctv q4_0 \
+  --parallel 1 \
+  --temp 1.0 \
+  --top-k 20 \
+  --top-p 0.95 \
+  --jinja \
+  -ot "\.ffn_(up|down|gate)_exps\.=CPU" \
+  --rope-scaling yarn \
+  --rope-scale 8 \
+  --yarn-orig-ctx 32768 \
+  --override-kv qwen3moe.context_length=int:16384 \
+  --reasoning on \
+  -a "Qwen3.5-122B-A10B"
+```
+
+***
+
+## 关键参数说明
+
+| 参数 | 值 | 原因 |
+|------|-----|------|
+| `-ngl 999` | 全部层尝试上GPU | 配合 `-ot` 让非FFN层留GPU |
+| `-ot "\.ffn_.*_exps\.=CPU"` | FFN专家层卸载CPU | 节省约10GB显存给Attention层 |
+| `-c 16384` | 限制16K上下文 | 64GB总内存限制，避免OOM |
+| `-ctk q4_0 -ctv q4_0` | KV cache 4bit量化 | 进一步压缩KV cache占用 |
+| `-t 14` | 14个CPU线程 | 5800X 8核16线程，留2线程给系统 |
+| `-b 256 -ub 128` | 降低batch size | 减少内存峰值 |
+| `--mlock` | 锁定内存防swap | 避免内存被换出导致速度急剧下降 |
+
+***
+
+## 预期性能
+
+由于 FFN expert 层卸载到 5800X 的 CPU，速度受限于 CPU 内存带宽（约 47GB/s） ： [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196)
+
+- **预期速度：约 5-12 t/s**（远低于当前30B的30 t/s）
+- **显存占用：约 13-15GB**（Attention + 嵌入层）
+- **RAM 占用：约 42-48GB**（FFN expert 权重）
+
+> ⚠️ **关键风险**：`--mlock` 需要确保系统空余RAM **≥ 47GB**，运行前请 `free -h` 确认。若RAM不足，建议关闭其他占内存服务（如 Docmost、Gitea runner等），或将 `-c 16384` 进一步降至 `8192` 来减少KV cache内存占用。
\ No newline at end of file
diff --git a/32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md b/32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md
new file mode 100644
index 0000000..065b937
--- /dev/null
+++ b/32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md
@@ -0,0 +1,34 @@
+我现在安装了 ubuntu25.10的desktop
+
+我需要安装小龙虾，我的电脑处于中国大陆境内，需要考虑镜像加速
+
+小龙虾需要配置我使用llama.cpp运行的Qwen3.5-122B-A10B
+
+请你给出完整的安装流程
+
+
+
+cat >> ~/.openclaw/openclaw.json << 'EOF'
+{
+  "models": {
+    "mode": "merge",
+    "providers": {
+      "llamacpp": {
+        "baseUrl": "http://192.168.1.194:8000/v1",
+        "apiKey": "not-needed",
+        "api": "openai-completions",
+        "models": [
+          { "id": "Qwen3.5-122B-A10B" }
+        ]
+      }
+    }
+  },
+  "agents": {
+    "defaults": {
+      "model": {
+        "primary": "llamacpp/Qwen3.5-122B-A10B"
+      }
+    }
+  }
+}
+EOF
\ No newline at end of file
diff --git a/32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md b/32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md
new file mode 100644
index 0000000..6dd873e
--- /dev/null
+++ b/32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md
@@ -0,0 +1,8 @@
+我是一名熟练大模型开发工程师，和linux打交道的非常多
+
+大模型开发工具 codex antigravity对于ubuntu desktop的支持情况如何，在windows开发和linux开发上有什么不同
+
+
+请同时分析
+
+请你给出详细的对比分析
\ No newline at end of file
diff --git a/32-WDD-AI服务器/4-大模型工具/0-prompt.md b/32-WDD-AI服务器/4-大模型工具/0-prompt.md
new file mode 100644
index 0000000..e076804
--- /dev/null
+++ b/32-WDD-AI服务器/4-大模型工具/0-prompt.md
@@ -0,0 +1,15 @@
+请帮我分析现在最好的大模型编程工具是那些，请结合我的使用场景，帮我推荐最好的一个
+
+我的主要大模型工具为Codex的PLUS套餐，OpenCode的Go套餐，和官方的DeepSeekAPI调用
+
+1. 我主要在黑苹果机器上使用codex desktop, DeepSeek的Reasonix进行日常的编程任务
+2. 我需要进行持久化任务，能够持续运行的那种
+3. 我是用cc-switch工具进行配置切换
+
+请你分析现在市面上Harness工程最佳的工具是哪些，分析他们的优缺点，以及什么场景下适用s
+1. Codex启动长时间自循环的工作流程
+2. CaudeCode Desktop的驾驭工程水平如何，为何大家都喜欢使用他进行代码开发
+3. Oh My OpenAgent的水平如何
+
+
+请你分析市面上
\ No newline at end of file
diff --git a/35-黑苹果DELL/0-安装黑苹果-prompt.md b/35-黑苹果DELL/0-安装黑苹果-prompt.md
new file mode 100644
index 0000000..3f68842
--- /dev/null
+++ b/35-黑苹果DELL/0-安装黑苹果-prompt.md
@@ -0,0 +1,18 @@
+我有一台DELL的Latitude 5400 14英寸的笔记本
+CPU为i7-8565U
+内存为16GB
+硬盘为512GB fanxiang S500 Pro
+网卡为 原装的intel网卡
+
+我因为有大模型的开发需求，想给这台电脑安装黑苹果。我的需求如下：
+1. 双系统支持，请保留Windows系统，如果特别麻烦可以不保留
+2. 需要codex app 和claude code desktop支持的最低版本的系统
+3. 使用opencore进行引导
+
+相关信息如下：
+1. 系统镜像的信息为 https://heipg.cn/macos/macos-sequoia-15-7-7-24g720-opencore-108-dev-firpe.html
+2. 开源的EFI参考为 https://github.com/msbence/hackintosh-DellLatitude5400 https://github.com/Dugganclock/Dell-Latitude-5400-Hackintosh-OpenCore
+
+你需要进行详细的查找工作，检查开源的EFI和系统版本之间兼容性的问题，给出解决方案，降级操作系统版本或者如何操作
+
+最终需要给出详细的步骤清单，包括U盘的制作， BIOS的设置，驱动的配置
\ No newline at end of file
diff --git a/35-黑苹果DELL/1-ubuntu主力电脑可行性-prompt.md b/35-黑苹果DELL/1-ubuntu主力电脑可行性-prompt.md
new file mode 100644
index 0000000..eae9200
--- /dev/null
+++ b/35-黑苹果DELL/1-ubuntu主力电脑可行性-prompt.md
@@ -0,0 +1,16 @@
+我现在考虑将ubuntu 26.04 desktop当作主力电脑，我常用的操作如下
+
+1. 需要远程连接windows
+2. 需要进行代码开发操作
+3. 日常通信使用微信
+4. 飞书是否有linux客户端
+5. 视频会议软件腾讯会议，是否有linux客户端
+6. 日常工作需要连接很多的linux服务器，有远程管理的软件
+
+
+其他背景信息
+1. 我有其他的windows电脑 
+2. 有黑苹果的电脑
+3. 有超多的linux主机可以使用
+
+
diff --git a/35-黑苹果DELL/2-黑苹果电脑的主体抉择.md b/35-黑苹果DELL/2-黑苹果电脑的主体抉择.md
new file mode 100644
index 0000000..0ad7ca6
--- /dev/null
+++ b/35-黑苹果DELL/2-黑苹果电脑的主体抉择.md
@@ -0,0 +1,9 @@
+你是一名精通折腾的熟练掌握黑苹果的达人。在硬件配置和操作系统选择上，你可以提供非常专业且有深度的见解。
+
+
+请你分析当下26年黑苹果最佳性价比的方案
+
+由于mac mini m4的出现，2500元即可体验完整的苹果系统，所以对于黑苹果的意义需要重新考虑
+
+当前阶段能够提供最佳性能的intel版本的黑苹果的设备是什么？
+苹果最后的intel产品是哪一代，对应的显卡是什么
\ No newline at end of file
diff --git a/35-黑苹果DELL/3-windows的WSL的性能.md b/35-黑苹果DELL/3-windows的WSL的性能.md
new file mode 100644
index 0000000..69576d3
--- /dev/null
+++ b/35-黑苹果DELL/3-windows的WSL的性能.md
@@ -0,0 +1,3 @@
+windows的WSL2的系统，能否 原生的运行Codex和ClaudeCodeDesktop
+
+WSL2有无原生的桌面，windows可以直接访问操作的那种，类似于两套系统同时运行
\ No newline at end of file
diff --git a/91-HarnessEngineering/0-发展研究/0-研究指南.md b/91-HarnessEngineering/0-发展研究/0-研究指南.md
new file mode 100644
index 0000000..6765d81
--- /dev/null
+++ b/91-HarnessEngineering/0-发展研究/0-研究指南.md
@@ -0,0 +1,7 @@
+你作为一名洞悉大模型发展的高级专家，请你分析大模型的驾驭工程发展历程，分析现在市面上Harness工程最佳的工具是哪些
+
+请结合实际的工程学进行分析，如何从用户的实际需求出发，能够持续不断地自我驱动实现代码的落地，形成完整的闭环
+
+
+
+请以claude code desktop和codex desktop open-code oh-my-openagent为工程学实例，分析现在的Harness工程的进化，他们能够实现的能力
\ No newline at end of file