From 0f6e0d70f5d738cf55e0aad87b89983a459dd5df Mon Sep 17 00:00:00 2001 From: zeaslity Date: Mon, 15 Jun 2026 14:14:24 +0800 Subject: [PATCH] =?UTF-8?q?=E5=A4=A7=E9=87=8F=E6=9B=B4=E6=96=B0=E5=86=85?= =?UTF-8?q?=E5=AE=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../3-土耳其AppleID/260613-支付方式.md | 17 ++++ .../{ => 1-GPU服务器}/0-AI服务器初始化.md | 0 .../{ => 1-GPU服务器}/1-nvidia驱动安装.md | 0 32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md | 85 +++++++++++++++++ .../{ => 1-GPU服务器}/2-nvidia-高性能模式.md | 0 .../{ => 1-GPU服务器}/2-vllm安装.md | 0 .../{ => 1-GPU服务器}/3-优化模型启动参数.md | 2 +- .../{ => 1-GPU服务器}/4-nvidia-监控.md | 0 .../{ => 1-GPU服务器}/5-llama-cpp运行方式.md | 0 .../{ => 1-GPU服务器}/6-llama-cpp编译安装.md | 0 .../1-GPU服务器/7-llama-cpp极致优化.md | 95 +++++++++++++++++++ .../1-GPU服务器/8-支持运行的大模型列表.md | 50 ++++++++++ .../9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md | 94 ++++++++++++++++++ .../2-小龙虾部署/dell-lap-部署计划.md | 34 +++++++ .../3-转为开发中心/大模型开发支持.md | 8 ++ 32-WDD-AI服务器/4-大模型工具/0-prompt.md | 15 +++ 35-黑苹果DELL/0-安装黑苹果-prompt.md | 18 ++++ .../1-ubuntu主力电脑可行性-prompt.md | 16 ++++ 35-黑苹果DELL/2-黑苹果电脑的主体抉择.md | 9 ++ 35-黑苹果DELL/3-windows的WSL的性能.md | 3 + .../0-发展研究/0-研究指南.md | 7 ++ 21 files changed, 452 insertions(+), 1 deletion(-) create mode 100644 29-大模型套餐-工具/3-土耳其AppleID/260613-支付方式.md rename 32-WDD-AI服务器/{ => 1-GPU服务器}/0-AI服务器初始化.md (100%) rename 32-WDD-AI服务器/{ => 1-GPU服务器}/1-nvidia驱动安装.md (100%) create mode 100644 32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md rename 32-WDD-AI服务器/{ => 1-GPU服务器}/2-nvidia-高性能模式.md (100%) rename 32-WDD-AI服务器/{ => 1-GPU服务器}/2-vllm安装.md (100%) rename 32-WDD-AI服务器/{ => 1-GPU服务器}/3-优化模型启动参数.md (95%) rename 32-WDD-AI服务器/{ => 1-GPU服务器}/4-nvidia-监控.md (100%) rename 32-WDD-AI服务器/{ => 1-GPU服务器}/5-llama-cpp运行方式.md (100%) rename 32-WDD-AI服务器/{ => 1-GPU服务器}/6-llama-cpp编译安装.md (100%) create mode 100644 32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md create mode 100644 32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md create mode 100644 32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md create mode 100644 32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md create mode 100644 32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md create mode 100644 32-WDD-AI服务器/4-大模型工具/0-prompt.md create mode 100644 35-黑苹果DELL/0-安装黑苹果-prompt.md create mode 100644 35-黑苹果DELL/1-ubuntu主力电脑可行性-prompt.md create mode 100644 35-黑苹果DELL/2-黑苹果电脑的主体抉择.md create mode 100644 35-黑苹果DELL/3-windows的WSL的性能.md create mode 100644 91-HarnessEngineering/0-发展研究/0-研究指南.md diff --git a/29-大模型套餐-工具/3-土耳其AppleID/260613-支付方式.md b/29-大模型套餐-工具/3-土耳其AppleID/260613-支付方式.md new file mode 100644 index 0000000..25e1cc7 --- /dev/null +++ b/29-大模型套餐-工具/3-土耳其AppleID/260613-支付方式.md @@ -0,0 +1,17 @@ +我成功注册了土耳其区的账号,并且通过礼品卡购买了土耳其区的gpt plus会员 + +现在app store强制我绑定支付方式 + +我尝试了很多非中国地区的信用卡 储蓄卡,都不能成功绑定 +报错为:Your payment method is node valid in this Store. Pleaase enter a new patment method + +你觉得我应该怎么办?如何才能继续支付 订阅GPT Plus会员 + +由于土耳其区的GPT PLUS会员过期了,我没有及时续费 +我通过购买历史(Purchase History)进入GPT PLUS的历史支付,点击里面的续费订阅管理(Manage Subscriptions),进入续费页面,显示 Your payment method was declined. To avoid any interruption in your subscription and purchase, please update your payment method. + +补充:我点击此页面的See All Plans可以看到 GPT PLUS的价格还是499里拉 + +这种情况我可以通过购买礼品卡的方式,实现原价的续费吗?支持自动续费吗? + +现在新购买GPT PLUS会员已经涨到了999里拉,不划算了 \ No newline at end of file diff --git a/32-WDD-AI服务器/0-AI服务器初始化.md b/32-WDD-AI服务器/1-GPU服务器/0-AI服务器初始化.md similarity index 100% rename from 32-WDD-AI服务器/0-AI服务器初始化.md rename to 32-WDD-AI服务器/1-GPU服务器/0-AI服务器初始化.md diff --git a/32-WDD-AI服务器/1-nvidia驱动安装.md b/32-WDD-AI服务器/1-GPU服务器/1-nvidia驱动安装.md similarity index 100% rename from 32-WDD-AI服务器/1-nvidia驱动安装.md rename to 32-WDD-AI服务器/1-GPU服务器/1-nvidia驱动安装.md diff --git a/32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md b/32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md new file mode 100644 index 0000000..470d24a --- /dev/null +++ b/32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md @@ -0,0 +1,85 @@ +#!/bin/bash +# llama-server 后台启动脚本 +# 使用方法: +# 启动: ./llama_server.sh start +# 停止: ./llama_server.sh stop +# 重启: ./llama_server.sh restart +# 状态: ./llama_server.sh status +# 日志: ./llama_server.sh logs + +PID_FILE="/var/run/llama-server.pid" +LOG_FILE="/var/log/llama-server.log" +SERVICE_NAME="llama-server" + +GREEN='\033[0;32m'; RED='\033[0;31m'; YELLOW='\033[1;33m'; NC='\033[0m' + +start() { + if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then + echo -e "${YELLOW}[WARN]${NC} $SERVICE_NAME 已在运行 (PID: $(cat "$PID_FILE"))"; exit 1 + fi + echo -e "${GREEN}[INFO]${NC} 启用 GPU 持久化模式..." + sudo nvidia-smi -pm 1 + echo -e "${GREEN}[INFO]${NC} 正在后台启动 $SERVICE_NAME,日志: $LOG_FILE" + + nohup env GGML_CUDA_DISABLE_GRAPHS=1 \ + ~/llama.cpp/build/bin/llama-server \ + -m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \ + --host 0.0.0.0 --port 8000 \ + -ngl 999 -c 131072 -t 14 \ + --flash-attn on -b 512 -ub 256 \ + --no-mmap --mlock \ + -ctk q4_0 -ctv q4_0 \ + --parallel 1 --temp 1.0 --top-k 20 --top-p 0.95 \ + --jinja \ + -ot "\.ffn_(up|down|gate)_exps\.=CPU" \ + --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768 \ + --override-kv qwen3moe.context_length=int:131072 \ + --reasoning on \ + -a "Qwen3.5-122B-A10B" \ + >> "$LOG_FILE" 2>&1 & + + echo $! > "$PID_FILE"; sleep 2 + if kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then + echo -e "${GREEN}[OK]${NC} 已启动 (PID: $(cat "$PID_FILE")),API: http://0.0.0.0:8000" + else + echo -e "${RED}[ERROR]${NC} 启动失败,请查看: $LOG_FILE"; rm -f "$PID_FILE"; exit 1 + fi +} + +stop() { + [ ! -f "$PID_FILE" ] && echo -e "${YELLOW}[WARN]${NC} 未运行" && exit 1 + PID=$(cat "$PID_FILE") + if kill -0 "$PID" 2>/dev/null; then + echo -e "${GREEN}[INFO]${NC} 停止 $SERVICE_NAME (PID: $PID)..." + kill "$PID" + for i in $(seq 1 15); do kill -0 "$PID" 2>/dev/null || break; sleep 1; done + kill -0 "$PID" 2>/dev/null && kill -9 "$PID" + rm -f "$PID_FILE"; echo -e "${GREEN}[OK]${NC} 已停止" + else + echo -e "${YELLOW}[WARN]${NC} 进程不存在,清理 PID 文件"; rm -f "$PID_FILE" + fi +} + +status() { + if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then + PID=$(cat "$PID_FILE") + echo -e "${GREEN}[运行中]${NC} PID: $PID" + ps -p "$PID" -o pid,user,%cpu,%mem,etime --no-headers + nvidia-smi --query-gpu=name,utilization.gpu,memory.used,memory.total,temperature.gpu \ + --format=csv,noheader,nounits | \ + awk -F',' '{printf "GPU:%s 使用率:%s%% 显存:%s/%sMiB 温度:%s°C\n",$1,$2,$3,$4,$5}' + else + echo -e "${RED}[未运行]${NC} $SERVICE_NAME"; rm -f "$PID_FILE" + fi +} + +logs() { + [ ! -f "$LOG_FILE" ] && echo "日志不存在: $LOG_FILE" && exit 1 + tail -f "$LOG_FILE" +} + +case "$1" in + start) start ;; stop) stop ;; restart) stop; sleep 1; start ;; + status) status ;; logs) logs ;; + *) echo "用法: $0 {start|stop|restart|status|logs}" ;; +esac \ No newline at end of file diff --git a/32-WDD-AI服务器/2-nvidia-高性能模式.md b/32-WDD-AI服务器/1-GPU服务器/2-nvidia-高性能模式.md similarity index 100% rename from 32-WDD-AI服务器/2-nvidia-高性能模式.md rename to 32-WDD-AI服务器/1-GPU服务器/2-nvidia-高性能模式.md diff --git a/32-WDD-AI服务器/2-vllm安装.md b/32-WDD-AI服务器/1-GPU服务器/2-vllm安装.md similarity index 100% rename from 32-WDD-AI服务器/2-vllm安装.md rename to 32-WDD-AI服务器/1-GPU服务器/2-vllm安装.md diff --git a/32-WDD-AI服务器/3-优化模型启动参数.md b/32-WDD-AI服务器/1-GPU服务器/3-优化模型启动参数.md similarity index 95% rename from 32-WDD-AI服务器/3-优化模型启动参数.md rename to 32-WDD-AI服务器/1-GPU服务器/3-优化模型启动参数.md index 8f76494..5efc980 100644 --- a/32-WDD-AI服务器/3-优化模型启动参数.md +++ b/32-WDD-AI服务器/1-GPU服务器/3-优化模型启动参数.md @@ -1,4 +1,4 @@ -CPU为5800X 内存为16GB 3200Mhz Nvidia Geforce RTX 3070 已经被扩容到16GB的显存 +CPU为5800X 内存为48GB 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0 diff --git a/32-WDD-AI服务器/4-nvidia-监控.md b/32-WDD-AI服务器/1-GPU服务器/4-nvidia-监控.md similarity index 100% rename from 32-WDD-AI服务器/4-nvidia-监控.md rename to 32-WDD-AI服务器/1-GPU服务器/4-nvidia-监控.md diff --git a/32-WDD-AI服务器/5-llama-cpp运行方式.md b/32-WDD-AI服务器/1-GPU服务器/5-llama-cpp运行方式.md similarity index 100% rename from 32-WDD-AI服务器/5-llama-cpp运行方式.md rename to 32-WDD-AI服务器/1-GPU服务器/5-llama-cpp运行方式.md diff --git a/32-WDD-AI服务器/6-llama-cpp编译安装.md b/32-WDD-AI服务器/1-GPU服务器/6-llama-cpp编译安装.md similarity index 100% rename from 32-WDD-AI服务器/6-llama-cpp编译安装.md rename to 32-WDD-AI服务器/1-GPU服务器/6-llama-cpp编译安装.md diff --git a/32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md b/32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md new file mode 100644 index 0000000..b6657a9 --- /dev/null +++ b/32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md @@ -0,0 +1,95 @@ + +## 基本信息如下 +1. CPU为5800X +2. 内存为48GB +3. 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存 +4. 操作系统为 Ubuntu 22.04.4 LTS + + + +5. 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0 +6. 安装了最新的mini coda +7. 使用编译安装的方式安装了 llama.cpp +8. 编译方式如下 cmake -B build \ + -DGGML_CUDA=ON \ + -DCMAKE_BUILD_TYPE=Release \ + -DCMAKE_CUDA_ARCHITECTURES="86" \ + -DGGML_CUDA_F16=ON \ + -DGGML_CUDA_FA_ALL_QUANTS=ON \ + -DGGML_NATIVE=ON \ + -DCMAKE_C_COMPILER=gcc \ + -DCMAKE_CXX_COMPILER=g++ \ + -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc +# 并行编译(5800X 16核全开) +cmake --build build --config Release -j$(nproc) +9. 现在启动大模型的方式为 +sudo nvidia-smi -pm 1 +GGML_CUDA_DISABLE_GRAPHS=1 \ +~/llama.cpp/build/bin/llama-server \ + -m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf \ + --host 0.0.0.0 \ + --port 8000 \ + -ngl 999 \ + -c 131072 \ + -t 8 \ + --flash-attn on \ + -b 512 \ + -ub 256 \ + --mlock \ + -ctk q4_0 \ + -ctv q4_0 \ + --parallel 1 \ + --temp 0.6 \ + --top-k 20 \ + --top-p 0.95 \ + --jinja \ + -ot "\.ffn_(up|down|gate)_exps\.=CPU" \ + --rope-scaling yarn \ + --rope-scale 4 \ + --yarn-orig-ctx 32768 \ + --override-kv qwen3moe.context_length=int:131072 \ + -a "Qwen3-30B-A3B" + + +10. 现在实际运行大模型时候的情况如下 token输出为 30 token/s +时间戳 GPU% 显存% 显存用/总MiB 功耗W 温度°C CPU% RAM用/总GiB +2026/06/10 05:45:26.594 | 99% | 29.6% | 4849 / 16384 | 82.04 | 38 | 6% | 19.07 / 46.96 + + +你需要实现的内容 +1. 请你判断我的电脑支持运行的最强本地大模型是什么,给出一个列表 +2. 给 + + + + + +sudo nvidia-smi -pm 1 + +GGML_CUDA_DISABLE_GRAPHS=1 \ +~/llama.cpp/build/bin/llama-server \ + -m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \ + --host 0.0.0.0 \ + --port 8000 \ + -ngl 999 \ + -c 131072 \ + -t 14 \ + --flash-attn on \ + -b 512 \ + -ub 256 \ + --no-mmap \ + --mlock \ + -ctk q4_0 \ + -ctv q4_0 \ + --parallel 1 \ + --temp 1.0 \ + --top-k 20 \ + --top-p 0.95 \ + --jinja \ + -ot "\.ffn_(up|down|gate)_exps\.=CPU" \ + --rope-scaling yarn \ + --rope-scale 4 \ + --yarn-orig-ctx 32768 \ + --override-kv qwen3moe.context_length=int:131072 \ + --reasoning on \ + -a "Qwen3.5-122B-A10B" \ No newline at end of file diff --git a/32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md b/32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md new file mode 100644 index 0000000..9616b17 --- /dev/null +++ b/32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md @@ -0,0 +1,50 @@ +基于你的硬件配置(RTX 3070 16GB显存 + 48GB RAM + 5800X),利用 llama.cpp 的 CPU offload 能力,可以覆盖的模型范围远超纯GPU方案。以下是从强到弱的推荐列表。 + +*** + +## 硬件能力分析 + +你的关键优势在于 **16GB VRAM + 48GB RAM 的组合**,可以让大参数模型的非关键层(FFN exps)卸载到CPU,正如你当前启动命令中 `-ot "\.ffn_(up|down|gate)_exps\.=CPU"` 所做的那样 [huggingface](https://huggingface.co/ubergarm/Qwen3-30B-A3B-GGUF)。当前跑 Qwen3-30B-A3B Q4_K_M 只用了约 4.8GB 显存、30 t/s,说明GPU还有大量余量可利用 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)。 + +*** + +## 推荐可运行模型列表 + +以下按**综合实力**排序(全GPU推理 or GPU+CPU混合推理均可): + +### 旗舰级 MoE 模型(CPU卸载必需) + +| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 | +|------|--------|----------|---------|---------|------| +| **Qwen3.5-122B-A10B** | 122B/10B激活 | UD-IQ3_XXS (~44.7GB) | ~14.7GB GPU | ~20-22 t/s | 16GB显存最强MoE,质量碾压27B [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) | +| **Mistral-Small-4-119B** | 119B MoE | UD-IQ3_XXS (~42.8GB) | ~14.8GB GPU | ~28-30 t/s | 非Qwen系替代,代码能力强 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) | +| **Nemotron Super 120B** | 120B | IQ3_XXS (~56.2GB) | ~15GB GPU | ~17 t/s | 需要56GB总内存,你48GB稍紧 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) | + +### 高性能 MoE 小参数(当前已运行,可升级) + +| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 | +|------|--------|----------|---------|---------|------| +| **Qwen3.6-35B-A3B** | 35B/3B激活 | UD-IQ3_XXS (~13.2GB) | ~14.7GB GPU | ~145 t/s | 速度极快,接近全GPU [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) | +| **Qwen3.5-35B-A3B** | 35B/3B激活 | UD-IQ3_S (~13.6GB) | ~14.9GB GPU | ~136 t/s | 可推到100k context不掉速 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) | +| **Qwen3-30B-A3B** ✅ | 30B/3B激活 | Q4_K_M(当前) | ~4.8GB GPU | ~30 t/s | 当前方案,可尝试Q6_K_M提质量 | + +### 高质量 Dense 模型(全GPU或少量offload) + +| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 | +|------|--------|----------|---------|---------|------| +| **Qwen3-14B** | 14B Dense | Q8_0 (~15GB) | ~15GB GPU | ~40-50 t/s | 全GPU,综合质量最佳Dense [biton.co](https://www.biton.co.jp/blog_71.html) | +| **Gemma 4-26B-A4B** | 26B MoE | UD-IQ4_XS (~13.4GB) | ~14.7GB GPU | ~120 t/s | Google多模态背景,速度出色 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) | +| **GLM-4.7-Flash REAP 23B** | 23B | IQ4_XS (~12.6GB) | ~13.7GB GPU | ~122 t/s | 中文能力强,适合你的使用场景 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) | +| **Qwen3-8B** | 8B Dense | Q8_0 (~9GB) | ~9GB GPU | ~80+ t/s | 快速响应场景备用 | + +*** + +## 实际最强推荐 + +**综合质量最强**(48GB RAM够用):→ **Qwen3.5-122B-A10B-UD-IQ3_XXS**,模型文件约44.7GB,GPU占约14.7GB,CPU承载其余,实测约20-22 t/s,智力水平远超30B 。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) + +**速度质量最佳平衡**:→ **Qwen3.6-35B-A3B-UD-IQ3_XXS**,~145 t/s,全程GPU,13.8GB显存即可搞定,是当前30B方案的直接升级 。 [glukhov](https://www.glukhov.org/llm-performance/benchmarks/best-llm-on-16gb-vram-gpu/) + +你目前运行30B时GPU显存仅用了4.8GB/16GB,说明大量FFN被卸载到CPU 。建议优先尝试 Qwen3.6-35B-A3B 的 IQ3_XXS 量化,可将几乎全部层放入GPU实现最高速度。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) + +请你给出运行 Qwen3.6-35B-A3B的方式,IQ3_XXS 量化是什么 性能损耗与当前的 \ No newline at end of file diff --git a/32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md b/32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md new file mode 100644 index 0000000..be1262b --- /dev/null +++ b/32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md @@ -0,0 +1,94 @@ +基于你的硬件(RTX 3070 16GB VRAM + 48GB RAM),以下是 Qwen3.5-122B-A10B 在你的机器上的**极限部署完整方案**。 + +*** + +## 硬件限制分析 + +Qwen3.5-122B-A10B 的 3-bit 量化需要约 **60GB 总内存(VRAM+RAM)**,4-bit 需要约 **70GB** 。你的总内存为 16GB VRAM + 48GB RAM = **64GB**,因此: [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5) + +- **UD-IQ3_XXS(约44-47GB)**:✅ 可运行,总内存够用,有余量给KV cache +- **UD-Q4_K_XL(约70GB)**:⚠️ 极限压线,几乎没有剩余空间给KV cache,上下文只能极短 +- **Q4_K_M 以上**:❌ 内存不足 + +**结论:UD-IQ3_XXS 是你能运行的唯一实用量化版本。** + +*** + +## 模型下载 + +```bash +pip install huggingface_hub hf_transfer + +# 设置国内镜像加速(中国大陆环境) +export HF_ENDPOINT=https://hf-mirror.com + +hf download unsloth/Qwen3.5-122B-A10B-GGUF \ + --local-dir /root/models/Qwen3.5-122B-A10B-GGUF \ + --include "*UD-IQ3_XXS*" +``` + +文件总大小约 **44-47GB**,注意磁盘空间 。 [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5) + +*** + +## 极限启动命令 + +针对你的硬件,核心策略是:**Attention层放GPU,所有FFN expert层卸载CPU** 。 [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196) + +```bash +sudo nvidia-smi -pm 1 + +GGML_CUDA_DISABLE_GRAPHS=1 \ +~/llama.cpp/build/bin/llama-server \ + -m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \ + --host 0.0.0.0 \ + --port 8000 \ + -ngl 999 \ + -c 16384 \ + -t 14 \ + --flash-attn on \ + -b 256 \ + -ub 128 \ + --no-mmap \ + --mlock \ + -ctk q4_0 \ + -ctv q4_0 \ + --parallel 1 \ + --temp 1.0 \ + --top-k 20 \ + --top-p 0.95 \ + --jinja \ + -ot "\.ffn_(up|down|gate)_exps\.=CPU" \ + --rope-scaling yarn \ + --rope-scale 8 \ + --yarn-orig-ctx 32768 \ + --override-kv qwen3moe.context_length=int:16384 \ + --reasoning on \ + -a "Qwen3.5-122B-A10B" +``` + +*** + +## 关键参数说明 + +| 参数 | 值 | 原因 | +|------|-----|------| +| `-ngl 999` | 全部层尝试上GPU | 配合 `-ot` 让非FFN层留GPU | +| `-ot "\.ffn_.*_exps\.=CPU"` | FFN专家层卸载CPU | 节省约10GB显存给Attention层 | +| `-c 16384` | 限制16K上下文 | 64GB总内存限制,避免OOM | +| `-ctk q4_0 -ctv q4_0` | KV cache 4bit量化 | 进一步压缩KV cache占用 | +| `-t 14` | 14个CPU线程 | 5800X 8核16线程,留2线程给系统 | +| `-b 256 -ub 128` | 降低batch size | 减少内存峰值 | +| `--mlock` | 锁定内存防swap | 避免内存被换出导致速度急剧下降 | + +*** + +## 预期性能 + +由于 FFN expert 层卸载到 5800X 的 CPU,速度受限于 CPU 内存带宽(约 47GB/s) : [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196) + +- **预期速度:约 5-12 t/s**(远低于当前30B的30 t/s) +- **显存占用:约 13-15GB**(Attention + 嵌入层) +- **RAM 占用:约 42-48GB**(FFN expert 权重) + +> ⚠️ **关键风险**:`--mlock` 需要确保系统空余RAM **≥ 47GB**,运行前请 `free -h` 确认。若RAM不足,建议关闭其他占内存服务(如 Docmost、Gitea runner等),或将 `-c 16384` 进一步降至 `8192` 来减少KV cache内存占用。 \ No newline at end of file diff --git a/32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md b/32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md new file mode 100644 index 0000000..065b937 --- /dev/null +++ b/32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md @@ -0,0 +1,34 @@ +我现在安装了 ubuntu25.10的desktop + +我需要安装小龙虾,我的电脑处于中国大陆境内,需要考虑镜像加速 + +小龙虾需要配置我使用llama.cpp运行的Qwen3.5-122B-A10B + +请你给出完整的安装流程 + + + +cat >> ~/.openclaw/openclaw.json << 'EOF' +{ + "models": { + "mode": "merge", + "providers": { + "llamacpp": { + "baseUrl": "http://192.168.1.194:8000/v1", + "apiKey": "not-needed", + "api": "openai-completions", + "models": [ + { "id": "Qwen3.5-122B-A10B" } + ] + } + } + }, + "agents": { + "defaults": { + "model": { + "primary": "llamacpp/Qwen3.5-122B-A10B" + } + } + } +} +EOF \ No newline at end of file diff --git a/32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md b/32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md new file mode 100644 index 0000000..6dd873e --- /dev/null +++ b/32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md @@ -0,0 +1,8 @@ +我是一名熟练大模型开发工程师,和linux打交道的非常多 + +大模型开发工具 codex antigravity对于ubuntu desktop的支持情况如何,在windows开发和linux开发上有什么不同 + + +请同时分析 + +请你给出详细的对比分析 \ No newline at end of file diff --git a/32-WDD-AI服务器/4-大模型工具/0-prompt.md b/32-WDD-AI服务器/4-大模型工具/0-prompt.md new file mode 100644 index 0000000..e076804 --- /dev/null +++ b/32-WDD-AI服务器/4-大模型工具/0-prompt.md @@ -0,0 +1,15 @@ +请帮我分析现在最好的大模型编程工具是那些,请结合我的使用场景,帮我推荐最好的一个 + +我的主要大模型工具为Codex的PLUS套餐,OpenCode的Go套餐,和官方的DeepSeekAPI调用 + +1. 我主要在黑苹果机器上使用codex desktop, DeepSeek的Reasonix进行日常的编程任务 +2. 我需要进行持久化任务,能够持续运行的那种 +3. 我是用cc-switch工具进行配置切换 + +请你分析现在市面上Harness工程最佳的工具是哪些,分析他们的优缺点,以及什么场景下适用s +1. Codex启动长时间自循环的工作流程 +2. CaudeCode Desktop的驾驭工程水平如何,为何大家都喜欢使用他进行代码开发 +3. Oh My OpenAgent的水平如何 + + +请你分析市面上 \ No newline at end of file diff --git a/35-黑苹果DELL/0-安装黑苹果-prompt.md b/35-黑苹果DELL/0-安装黑苹果-prompt.md new file mode 100644 index 0000000..3f68842 --- /dev/null +++ b/35-黑苹果DELL/0-安装黑苹果-prompt.md @@ -0,0 +1,18 @@ +我有一台DELL的Latitude 5400 14英寸的笔记本 +CPU为i7-8565U +内存为16GB +硬盘为512GB fanxiang S500 Pro +网卡为 原装的intel网卡 + +我因为有大模型的开发需求,想给这台电脑安装黑苹果。我的需求如下: +1. 双系统支持,请保留Windows系统,如果特别麻烦可以不保留 +2. 需要codex app 和claude code desktop支持的最低版本的系统 +3. 使用opencore进行引导 + +相关信息如下: +1. 系统镜像的信息为 https://heipg.cn/macos/macos-sequoia-15-7-7-24g720-opencore-108-dev-firpe.html +2. 开源的EFI参考为 https://github.com/msbence/hackintosh-DellLatitude5400 https://github.com/Dugganclock/Dell-Latitude-5400-Hackintosh-OpenCore + +你需要进行详细的查找工作,检查开源的EFI和系统版本之间兼容性的问题,给出解决方案,降级操作系统版本或者如何操作 + +最终需要给出详细的步骤清单,包括U盘的制作, BIOS的设置,驱动的配置 \ No newline at end of file diff --git a/35-黑苹果DELL/1-ubuntu主力电脑可行性-prompt.md b/35-黑苹果DELL/1-ubuntu主力电脑可行性-prompt.md new file mode 100644 index 0000000..eae9200 --- /dev/null +++ b/35-黑苹果DELL/1-ubuntu主力电脑可行性-prompt.md @@ -0,0 +1,16 @@ +我现在考虑将ubuntu 26.04 desktop当作主力电脑,我常用的操作如下 + +1. 需要远程连接windows +2. 需要进行代码开发操作 +3. 日常通信使用微信 +4. 飞书是否有linux客户端 +5. 视频会议软件腾讯会议,是否有linux客户端 +6. 日常工作需要连接很多的linux服务器,有远程管理的软件 + + +其他背景信息 +1. 我有其他的windows电脑 +2. 有黑苹果的电脑 +3. 有超多的linux主机可以使用 + + diff --git a/35-黑苹果DELL/2-黑苹果电脑的主体抉择.md b/35-黑苹果DELL/2-黑苹果电脑的主体抉择.md new file mode 100644 index 0000000..0ad7ca6 --- /dev/null +++ b/35-黑苹果DELL/2-黑苹果电脑的主体抉择.md @@ -0,0 +1,9 @@ +你是一名精通折腾的熟练掌握黑苹果的达人。在硬件配置和操作系统选择上,你可以提供非常专业且有深度的见解。 + + +请你分析当下26年黑苹果最佳性价比的方案 + +由于mac mini m4的出现,2500元即可体验完整的苹果系统,所以对于黑苹果的意义需要重新考虑 + +当前阶段能够提供最佳性能的intel版本的黑苹果的设备是什么? +苹果最后的intel产品是哪一代,对应的显卡是什么 \ No newline at end of file diff --git a/35-黑苹果DELL/3-windows的WSL的性能.md b/35-黑苹果DELL/3-windows的WSL的性能.md new file mode 100644 index 0000000..69576d3 --- /dev/null +++ b/35-黑苹果DELL/3-windows的WSL的性能.md @@ -0,0 +1,3 @@ +windows的WSL2的系统,能否 原生的运行Codex和ClaudeCodeDesktop + +WSL2有无原生的桌面,windows可以直接访问操作的那种,类似于两套系统同时运行 \ No newline at end of file diff --git a/91-HarnessEngineering/0-发展研究/0-研究指南.md b/91-HarnessEngineering/0-发展研究/0-研究指南.md new file mode 100644 index 0000000..6765d81 --- /dev/null +++ b/91-HarnessEngineering/0-发展研究/0-研究指南.md @@ -0,0 +1,7 @@ +你作为一名洞悉大模型发展的高级专家,请你分析大模型的驾驭工程发展历程,分析现在市面上Harness工程最佳的工具是哪些 + +请结合实际的工程学进行分析,如何从用户的实际需求出发,能够持续不断地自我驱动实现代码的落地,形成完整的闭环 + + + +请以claude code desktop和codex desktop open-code oh-my-openagent为工程学实例,分析现在的Harness工程的进化,他们能够实现的能力 \ No newline at end of file