大量更新内容
This commit is contained in:
17
29-大模型套餐-工具/3-土耳其AppleID/260613-支付方式.md
Normal file
17
29-大模型套餐-工具/3-土耳其AppleID/260613-支付方式.md
Normal file
@@ -0,0 +1,17 @@
|
||||
我成功注册了土耳其区的账号,并且通过礼品卡购买了土耳其区的gpt plus会员
|
||||
|
||||
现在app store强制我绑定支付方式
|
||||
|
||||
我尝试了很多非中国地区的信用卡 储蓄卡,都不能成功绑定
|
||||
报错为:Your payment method is node valid in this Store. Pleaase enter a new patment method
|
||||
|
||||
你觉得我应该怎么办?如何才能继续支付 订阅GPT Plus会员
|
||||
|
||||
由于土耳其区的GPT PLUS会员过期了,我没有及时续费
|
||||
我通过购买历史(Purchase History)进入GPT PLUS的历史支付,点击里面的续费订阅管理(Manage Subscriptions),进入续费页面,显示 Your payment method was declined. To avoid any interruption in your subscription and purchase, please update your payment method.
|
||||
|
||||
补充:我点击此页面的See All Plans可以看到 GPT PLUS的价格还是499里拉
|
||||
|
||||
这种情况我可以通过购买礼品卡的方式,实现原价的续费吗?支持自动续费吗?
|
||||
|
||||
现在新购买GPT PLUS会员已经涨到了999里拉,不划算了
|
||||
85
32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md
Normal file
85
32-WDD-AI服务器/1-GPU服务器/10-运行脚本.md
Normal file
@@ -0,0 +1,85 @@
|
||||
#!/bin/bash
|
||||
# llama-server 后台启动脚本
|
||||
# 使用方法:
|
||||
# 启动: ./llama_server.sh start
|
||||
# 停止: ./llama_server.sh stop
|
||||
# 重启: ./llama_server.sh restart
|
||||
# 状态: ./llama_server.sh status
|
||||
# 日志: ./llama_server.sh logs
|
||||
|
||||
PID_FILE="/var/run/llama-server.pid"
|
||||
LOG_FILE="/var/log/llama-server.log"
|
||||
SERVICE_NAME="llama-server"
|
||||
|
||||
GREEN='\033[0;32m'; RED='\033[0;31m'; YELLOW='\033[1;33m'; NC='\033[0m'
|
||||
|
||||
start() {
|
||||
if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
|
||||
echo -e "${YELLOW}[WARN]${NC} $SERVICE_NAME 已在运行 (PID: $(cat "$PID_FILE"))"; exit 1
|
||||
fi
|
||||
echo -e "${GREEN}[INFO]${NC} 启用 GPU 持久化模式..."
|
||||
sudo nvidia-smi -pm 1
|
||||
echo -e "${GREEN}[INFO]${NC} 正在后台启动 $SERVICE_NAME,日志: $LOG_FILE"
|
||||
|
||||
nohup env GGML_CUDA_DISABLE_GRAPHS=1 \
|
||||
~/llama.cpp/build/bin/llama-server \
|
||||
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
|
||||
--host 0.0.0.0 --port 8000 \
|
||||
-ngl 999 -c 131072 -t 14 \
|
||||
--flash-attn on -b 512 -ub 256 \
|
||||
--no-mmap --mlock \
|
||||
-ctk q4_0 -ctv q4_0 \
|
||||
--parallel 1 --temp 1.0 --top-k 20 --top-p 0.95 \
|
||||
--jinja \
|
||||
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
|
||||
--rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768 \
|
||||
--override-kv qwen3moe.context_length=int:131072 \
|
||||
--reasoning on \
|
||||
-a "Qwen3.5-122B-A10B" \
|
||||
>> "$LOG_FILE" 2>&1 &
|
||||
|
||||
echo $! > "$PID_FILE"; sleep 2
|
||||
if kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
|
||||
echo -e "${GREEN}[OK]${NC} 已启动 (PID: $(cat "$PID_FILE")),API: http://0.0.0.0:8000"
|
||||
else
|
||||
echo -e "${RED}[ERROR]${NC} 启动失败,请查看: $LOG_FILE"; rm -f "$PID_FILE"; exit 1
|
||||
fi
|
||||
}
|
||||
|
||||
stop() {
|
||||
[ ! -f "$PID_FILE" ] && echo -e "${YELLOW}[WARN]${NC} 未运行" && exit 1
|
||||
PID=$(cat "$PID_FILE")
|
||||
if kill -0 "$PID" 2>/dev/null; then
|
||||
echo -e "${GREEN}[INFO]${NC} 停止 $SERVICE_NAME (PID: $PID)..."
|
||||
kill "$PID"
|
||||
for i in $(seq 1 15); do kill -0 "$PID" 2>/dev/null || break; sleep 1; done
|
||||
kill -0 "$PID" 2>/dev/null && kill -9 "$PID"
|
||||
rm -f "$PID_FILE"; echo -e "${GREEN}[OK]${NC} 已停止"
|
||||
else
|
||||
echo -e "${YELLOW}[WARN]${NC} 进程不存在,清理 PID 文件"; rm -f "$PID_FILE"
|
||||
fi
|
||||
}
|
||||
|
||||
status() {
|
||||
if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
|
||||
PID=$(cat "$PID_FILE")
|
||||
echo -e "${GREEN}[运行中]${NC} PID: $PID"
|
||||
ps -p "$PID" -o pid,user,%cpu,%mem,etime --no-headers
|
||||
nvidia-smi --query-gpu=name,utilization.gpu,memory.used,memory.total,temperature.gpu \
|
||||
--format=csv,noheader,nounits | \
|
||||
awk -F',' '{printf "GPU:%s 使用率:%s%% 显存:%s/%sMiB 温度:%s°C\n",$1,$2,$3,$4,$5}'
|
||||
else
|
||||
echo -e "${RED}[未运行]${NC} $SERVICE_NAME"; rm -f "$PID_FILE"
|
||||
fi
|
||||
}
|
||||
|
||||
logs() {
|
||||
[ ! -f "$LOG_FILE" ] && echo "日志不存在: $LOG_FILE" && exit 1
|
||||
tail -f "$LOG_FILE"
|
||||
}
|
||||
|
||||
case "$1" in
|
||||
start) start ;; stop) stop ;; restart) stop; sleep 1; start ;;
|
||||
status) status ;; logs) logs ;;
|
||||
*) echo "用法: $0 {start|stop|restart|status|logs}" ;;
|
||||
esac
|
||||
@@ -1,4 +1,4 @@
|
||||
CPU为5800X 内存为16GB 3200Mhz Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
|
||||
CPU为5800X 内存为48GB 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
|
||||
|
||||
现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0
|
||||
|
||||
95
32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md
Normal file
95
32-WDD-AI服务器/1-GPU服务器/7-llama-cpp极致优化.md
Normal file
@@ -0,0 +1,95 @@
|
||||
|
||||
## 基本信息如下
|
||||
1. CPU为5800X
|
||||
2. 内存为48GB
|
||||
3. 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
|
||||
4. 操作系统为 Ubuntu 22.04.4 LTS
|
||||
|
||||
|
||||
|
||||
5. 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0
|
||||
6. 安装了最新的mini coda
|
||||
7. 使用编译安装的方式安装了 llama.cpp
|
||||
8. 编译方式如下 cmake -B build \
|
||||
-DGGML_CUDA=ON \
|
||||
-DCMAKE_BUILD_TYPE=Release \
|
||||
-DCMAKE_CUDA_ARCHITECTURES="86" \
|
||||
-DGGML_CUDA_F16=ON \
|
||||
-DGGML_CUDA_FA_ALL_QUANTS=ON \
|
||||
-DGGML_NATIVE=ON \
|
||||
-DCMAKE_C_COMPILER=gcc \
|
||||
-DCMAKE_CXX_COMPILER=g++ \
|
||||
-DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc
|
||||
# 并行编译(5800X 16核全开)
|
||||
cmake --build build --config Release -j$(nproc)
|
||||
9. 现在启动大模型的方式为
|
||||
sudo nvidia-smi -pm 1
|
||||
GGML_CUDA_DISABLE_GRAPHS=1 \
|
||||
~/llama.cpp/build/bin/llama-server \
|
||||
-m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf \
|
||||
--host 0.0.0.0 \
|
||||
--port 8000 \
|
||||
-ngl 999 \
|
||||
-c 131072 \
|
||||
-t 8 \
|
||||
--flash-attn on \
|
||||
-b 512 \
|
||||
-ub 256 \
|
||||
--mlock \
|
||||
-ctk q4_0 \
|
||||
-ctv q4_0 \
|
||||
--parallel 1 \
|
||||
--temp 0.6 \
|
||||
--top-k 20 \
|
||||
--top-p 0.95 \
|
||||
--jinja \
|
||||
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
|
||||
--rope-scaling yarn \
|
||||
--rope-scale 4 \
|
||||
--yarn-orig-ctx 32768 \
|
||||
--override-kv qwen3moe.context_length=int:131072 \
|
||||
-a "Qwen3-30B-A3B"
|
||||
|
||||
|
||||
10. 现在实际运行大模型时候的情况如下 token输出为 30 token/s
|
||||
时间戳 GPU% 显存% 显存用/总MiB 功耗W 温度°C CPU% RAM用/总GiB
|
||||
2026/06/10 05:45:26.594 | 99% | 29.6% | 4849 / 16384 | 82.04 | 38 | 6% | 19.07 / 46.96
|
||||
|
||||
|
||||
你需要实现的内容
|
||||
1. 请你判断我的电脑支持运行的最强本地大模型是什么,给出一个列表
|
||||
2. 给
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
sudo nvidia-smi -pm 1
|
||||
|
||||
GGML_CUDA_DISABLE_GRAPHS=1 \
|
||||
~/llama.cpp/build/bin/llama-server \
|
||||
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
|
||||
--host 0.0.0.0 \
|
||||
--port 8000 \
|
||||
-ngl 999 \
|
||||
-c 131072 \
|
||||
-t 14 \
|
||||
--flash-attn on \
|
||||
-b 512 \
|
||||
-ub 256 \
|
||||
--no-mmap \
|
||||
--mlock \
|
||||
-ctk q4_0 \
|
||||
-ctv q4_0 \
|
||||
--parallel 1 \
|
||||
--temp 1.0 \
|
||||
--top-k 20 \
|
||||
--top-p 0.95 \
|
||||
--jinja \
|
||||
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
|
||||
--rope-scaling yarn \
|
||||
--rope-scale 4 \
|
||||
--yarn-orig-ctx 32768 \
|
||||
--override-kv qwen3moe.context_length=int:131072 \
|
||||
--reasoning on \
|
||||
-a "Qwen3.5-122B-A10B"
|
||||
50
32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md
Normal file
50
32-WDD-AI服务器/1-GPU服务器/8-支持运行的大模型列表.md
Normal file
@@ -0,0 +1,50 @@
|
||||
基于你的硬件配置(RTX 3070 16GB显存 + 48GB RAM + 5800X),利用 llama.cpp 的 CPU offload 能力,可以覆盖的模型范围远超纯GPU方案。以下是从强到弱的推荐列表。
|
||||
|
||||
***
|
||||
|
||||
## 硬件能力分析
|
||||
|
||||
你的关键优势在于 **16GB VRAM + 48GB RAM 的组合**,可以让大参数模型的非关键层(FFN exps)卸载到CPU,正如你当前启动命令中 `-ot "\.ffn_(up|down|gate)_exps\.=CPU"` 所做的那样 [huggingface](https://huggingface.co/ubergarm/Qwen3-30B-A3B-GGUF)。当前跑 Qwen3-30B-A3B Q4_K_M 只用了约 4.8GB 显存、30 t/s,说明GPU还有大量余量可利用 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)。
|
||||
|
||||
***
|
||||
|
||||
## 推荐可运行模型列表
|
||||
|
||||
以下按**综合实力**排序(全GPU推理 or GPU+CPU混合推理均可):
|
||||
|
||||
### 旗舰级 MoE 模型(CPU卸载必需)
|
||||
|
||||
| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
|
||||
|------|--------|----------|---------|---------|------|
|
||||
| **Qwen3.5-122B-A10B** | 122B/10B激活 | UD-IQ3_XXS (~44.7GB) | ~14.7GB GPU | ~20-22 t/s | 16GB显存最强MoE,质量碾压27B [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
|
||||
| **Mistral-Small-4-119B** | 119B MoE | UD-IQ3_XXS (~42.8GB) | ~14.8GB GPU | ~28-30 t/s | 非Qwen系替代,代码能力强 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
|
||||
| **Nemotron Super 120B** | 120B | IQ3_XXS (~56.2GB) | ~15GB GPU | ~17 t/s | 需要56GB总内存,你48GB稍紧 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
|
||||
|
||||
### 高性能 MoE 小参数(当前已运行,可升级)
|
||||
|
||||
| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
|
||||
|------|--------|----------|---------|---------|------|
|
||||
| **Qwen3.6-35B-A3B** | 35B/3B激活 | UD-IQ3_XXS (~13.2GB) | ~14.7GB GPU | ~145 t/s | 速度极快,接近全GPU [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
|
||||
| **Qwen3.5-35B-A3B** | 35B/3B激活 | UD-IQ3_S (~13.6GB) | ~14.9GB GPU | ~136 t/s | 可推到100k context不掉速 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
|
||||
| **Qwen3-30B-A3B** ✅ | 30B/3B激活 | Q4_K_M(当前) | ~4.8GB GPU | ~30 t/s | 当前方案,可尝试Q6_K_M提质量 |
|
||||
|
||||
### 高质量 Dense 模型(全GPU或少量offload)
|
||||
|
||||
| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
|
||||
|------|--------|----------|---------|---------|------|
|
||||
| **Qwen3-14B** | 14B Dense | Q8_0 (~15GB) | ~15GB GPU | ~40-50 t/s | 全GPU,综合质量最佳Dense [biton.co](https://www.biton.co.jp/blog_71.html) |
|
||||
| **Gemma 4-26B-A4B** | 26B MoE | UD-IQ4_XS (~13.4GB) | ~14.7GB GPU | ~120 t/s | Google多模态背景,速度出色 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
|
||||
| **GLM-4.7-Flash REAP 23B** | 23B | IQ4_XS (~12.6GB) | ~13.7GB GPU | ~122 t/s | 中文能力强,适合你的使用场景 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
|
||||
| **Qwen3-8B** | 8B Dense | Q8_0 (~9GB) | ~9GB GPU | ~80+ t/s | 快速响应场景备用 |
|
||||
|
||||
***
|
||||
|
||||
## 实际最强推荐
|
||||
|
||||
**综合质量最强**(48GB RAM够用):→ **Qwen3.5-122B-A10B-UD-IQ3_XXS**,模型文件约44.7GB,GPU占约14.7GB,CPU承载其余,实测约20-22 t/s,智力水平远超30B 。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)
|
||||
|
||||
**速度质量最佳平衡**:→ **Qwen3.6-35B-A3B-UD-IQ3_XXS**,~145 t/s,全程GPU,13.8GB显存即可搞定,是当前30B方案的直接升级 。 [glukhov](https://www.glukhov.org/llm-performance/benchmarks/best-llm-on-16gb-vram-gpu/)
|
||||
|
||||
你目前运行30B时GPU显存仅用了4.8GB/16GB,说明大量FFN被卸载到CPU 。建议优先尝试 Qwen3.6-35B-A3B 的 IQ3_XXS 量化,可将几乎全部层放入GPU实现最高速度。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)
|
||||
|
||||
请你给出运行 Qwen3.6-35B-A3B的方式,IQ3_XXS 量化是什么 性能损耗与当前的
|
||||
94
32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md
Normal file
94
32-WDD-AI服务器/1-GPU服务器/9-运行Qwen3.5-122B-A10B-UD-IQ3_XXS.md
Normal file
@@ -0,0 +1,94 @@
|
||||
基于你的硬件(RTX 3070 16GB VRAM + 48GB RAM),以下是 Qwen3.5-122B-A10B 在你的机器上的**极限部署完整方案**。
|
||||
|
||||
***
|
||||
|
||||
## 硬件限制分析
|
||||
|
||||
Qwen3.5-122B-A10B 的 3-bit 量化需要约 **60GB 总内存(VRAM+RAM)**,4-bit 需要约 **70GB** 。你的总内存为 16GB VRAM + 48GB RAM = **64GB**,因此: [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5)
|
||||
|
||||
- **UD-IQ3_XXS(约44-47GB)**:✅ 可运行,总内存够用,有余量给KV cache
|
||||
- **UD-Q4_K_XL(约70GB)**:⚠️ 极限压线,几乎没有剩余空间给KV cache,上下文只能极短
|
||||
- **Q4_K_M 以上**:❌ 内存不足
|
||||
|
||||
**结论:UD-IQ3_XXS 是你能运行的唯一实用量化版本。**
|
||||
|
||||
***
|
||||
|
||||
## 模型下载
|
||||
|
||||
```bash
|
||||
pip install huggingface_hub hf_transfer
|
||||
|
||||
# 设置国内镜像加速(中国大陆环境)
|
||||
export HF_ENDPOINT=https://hf-mirror.com
|
||||
|
||||
hf download unsloth/Qwen3.5-122B-A10B-GGUF \
|
||||
--local-dir /root/models/Qwen3.5-122B-A10B-GGUF \
|
||||
--include "*UD-IQ3_XXS*"
|
||||
```
|
||||
|
||||
文件总大小约 **44-47GB**,注意磁盘空间 。 [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5)
|
||||
|
||||
***
|
||||
|
||||
## 极限启动命令
|
||||
|
||||
针对你的硬件,核心策略是:**Attention层放GPU,所有FFN expert层卸载CPU** 。 [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196)
|
||||
|
||||
```bash
|
||||
sudo nvidia-smi -pm 1
|
||||
|
||||
GGML_CUDA_DISABLE_GRAPHS=1 \
|
||||
~/llama.cpp/build/bin/llama-server \
|
||||
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
|
||||
--host 0.0.0.0 \
|
||||
--port 8000 \
|
||||
-ngl 999 \
|
||||
-c 16384 \
|
||||
-t 14 \
|
||||
--flash-attn on \
|
||||
-b 256 \
|
||||
-ub 128 \
|
||||
--no-mmap \
|
||||
--mlock \
|
||||
-ctk q4_0 \
|
||||
-ctv q4_0 \
|
||||
--parallel 1 \
|
||||
--temp 1.0 \
|
||||
--top-k 20 \
|
||||
--top-p 0.95 \
|
||||
--jinja \
|
||||
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
|
||||
--rope-scaling yarn \
|
||||
--rope-scale 8 \
|
||||
--yarn-orig-ctx 32768 \
|
||||
--override-kv qwen3moe.context_length=int:16384 \
|
||||
--reasoning on \
|
||||
-a "Qwen3.5-122B-A10B"
|
||||
```
|
||||
|
||||
***
|
||||
|
||||
## 关键参数说明
|
||||
|
||||
| 参数 | 值 | 原因 |
|
||||
|------|-----|------|
|
||||
| `-ngl 999` | 全部层尝试上GPU | 配合 `-ot` 让非FFN层留GPU |
|
||||
| `-ot "\.ffn_.*_exps\.=CPU"` | FFN专家层卸载CPU | 节省约10GB显存给Attention层 |
|
||||
| `-c 16384` | 限制16K上下文 | 64GB总内存限制,避免OOM |
|
||||
| `-ctk q4_0 -ctv q4_0` | KV cache 4bit量化 | 进一步压缩KV cache占用 |
|
||||
| `-t 14` | 14个CPU线程 | 5800X 8核16线程,留2线程给系统 |
|
||||
| `-b 256 -ub 128` | 降低batch size | 减少内存峰值 |
|
||||
| `--mlock` | 锁定内存防swap | 避免内存被换出导致速度急剧下降 |
|
||||
|
||||
***
|
||||
|
||||
## 预期性能
|
||||
|
||||
由于 FFN expert 层卸载到 5800X 的 CPU,速度受限于 CPU 内存带宽(约 47GB/s) : [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196)
|
||||
|
||||
- **预期速度:约 5-12 t/s**(远低于当前30B的30 t/s)
|
||||
- **显存占用:约 13-15GB**(Attention + 嵌入层)
|
||||
- **RAM 占用:约 42-48GB**(FFN expert 权重)
|
||||
|
||||
> ⚠️ **关键风险**:`--mlock` 需要确保系统空余RAM **≥ 47GB**,运行前请 `free -h` 确认。若RAM不足,建议关闭其他占内存服务(如 Docmost、Gitea runner等),或将 `-c 16384` 进一步降至 `8192` 来减少KV cache内存占用。
|
||||
34
32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md
Normal file
34
32-WDD-AI服务器/2-小龙虾部署/dell-lap-部署计划.md
Normal file
@@ -0,0 +1,34 @@
|
||||
我现在安装了 ubuntu25.10的desktop
|
||||
|
||||
我需要安装小龙虾,我的电脑处于中国大陆境内,需要考虑镜像加速
|
||||
|
||||
小龙虾需要配置我使用llama.cpp运行的Qwen3.5-122B-A10B
|
||||
|
||||
请你给出完整的安装流程
|
||||
|
||||
|
||||
|
||||
cat >> ~/.openclaw/openclaw.json << 'EOF'
|
||||
{
|
||||
"models": {
|
||||
"mode": "merge",
|
||||
"providers": {
|
||||
"llamacpp": {
|
||||
"baseUrl": "http://192.168.1.194:8000/v1",
|
||||
"apiKey": "not-needed",
|
||||
"api": "openai-completions",
|
||||
"models": [
|
||||
{ "id": "Qwen3.5-122B-A10B" }
|
||||
]
|
||||
}
|
||||
}
|
||||
},
|
||||
"agents": {
|
||||
"defaults": {
|
||||
"model": {
|
||||
"primary": "llamacpp/Qwen3.5-122B-A10B"
|
||||
}
|
||||
}
|
||||
}
|
||||
}
|
||||
EOF
|
||||
8
32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md
Normal file
8
32-WDD-AI服务器/3-转为开发中心/大模型开发支持.md
Normal file
@@ -0,0 +1,8 @@
|
||||
我是一名熟练大模型开发工程师,和linux打交道的非常多
|
||||
|
||||
大模型开发工具 codex antigravity对于ubuntu desktop的支持情况如何,在windows开发和linux开发上有什么不同
|
||||
|
||||
|
||||
请同时分析
|
||||
|
||||
请你给出详细的对比分析
|
||||
15
32-WDD-AI服务器/4-大模型工具/0-prompt.md
Normal file
15
32-WDD-AI服务器/4-大模型工具/0-prompt.md
Normal file
@@ -0,0 +1,15 @@
|
||||
请帮我分析现在最好的大模型编程工具是那些,请结合我的使用场景,帮我推荐最好的一个
|
||||
|
||||
我的主要大模型工具为Codex的PLUS套餐,OpenCode的Go套餐,和官方的DeepSeekAPI调用
|
||||
|
||||
1. 我主要在黑苹果机器上使用codex desktop, DeepSeek的Reasonix进行日常的编程任务
|
||||
2. 我需要进行持久化任务,能够持续运行的那种
|
||||
3. 我是用cc-switch工具进行配置切换
|
||||
|
||||
请你分析现在市面上Harness工程最佳的工具是哪些,分析他们的优缺点,以及什么场景下适用s
|
||||
1. Codex启动长时间自循环的工作流程
|
||||
2. CaudeCode Desktop的驾驭工程水平如何,为何大家都喜欢使用他进行代码开发
|
||||
3. Oh My OpenAgent的水平如何
|
||||
|
||||
|
||||
请你分析市面上
|
||||
18
35-黑苹果DELL/0-安装黑苹果-prompt.md
Normal file
18
35-黑苹果DELL/0-安装黑苹果-prompt.md
Normal file
@@ -0,0 +1,18 @@
|
||||
我有一台DELL的Latitude 5400 14英寸的笔记本
|
||||
CPU为i7-8565U
|
||||
内存为16GB
|
||||
硬盘为512GB fanxiang S500 Pro
|
||||
网卡为 原装的intel网卡
|
||||
|
||||
我因为有大模型的开发需求,想给这台电脑安装黑苹果。我的需求如下:
|
||||
1. 双系统支持,请保留Windows系统,如果特别麻烦可以不保留
|
||||
2. 需要codex app 和claude code desktop支持的最低版本的系统
|
||||
3. 使用opencore进行引导
|
||||
|
||||
相关信息如下:
|
||||
1. 系统镜像的信息为 https://heipg.cn/macos/macos-sequoia-15-7-7-24g720-opencore-108-dev-firpe.html
|
||||
2. 开源的EFI参考为 https://github.com/msbence/hackintosh-DellLatitude5400 https://github.com/Dugganclock/Dell-Latitude-5400-Hackintosh-OpenCore
|
||||
|
||||
你需要进行详细的查找工作,检查开源的EFI和系统版本之间兼容性的问题,给出解决方案,降级操作系统版本或者如何操作
|
||||
|
||||
最终需要给出详细的步骤清单,包括U盘的制作, BIOS的设置,驱动的配置
|
||||
16
35-黑苹果DELL/1-ubuntu主力电脑可行性-prompt.md
Normal file
16
35-黑苹果DELL/1-ubuntu主力电脑可行性-prompt.md
Normal file
@@ -0,0 +1,16 @@
|
||||
我现在考虑将ubuntu 26.04 desktop当作主力电脑,我常用的操作如下
|
||||
|
||||
1. 需要远程连接windows
|
||||
2. 需要进行代码开发操作
|
||||
3. 日常通信使用微信
|
||||
4. 飞书是否有linux客户端
|
||||
5. 视频会议软件腾讯会议,是否有linux客户端
|
||||
6. 日常工作需要连接很多的linux服务器,有远程管理的软件
|
||||
|
||||
|
||||
其他背景信息
|
||||
1. 我有其他的windows电脑
|
||||
2. 有黑苹果的电脑
|
||||
3. 有超多的linux主机可以使用
|
||||
|
||||
|
||||
9
35-黑苹果DELL/2-黑苹果电脑的主体抉择.md
Normal file
9
35-黑苹果DELL/2-黑苹果电脑的主体抉择.md
Normal file
@@ -0,0 +1,9 @@
|
||||
你是一名精通折腾的熟练掌握黑苹果的达人。在硬件配置和操作系统选择上,你可以提供非常专业且有深度的见解。
|
||||
|
||||
|
||||
请你分析当下26年黑苹果最佳性价比的方案
|
||||
|
||||
由于mac mini m4的出现,2500元即可体验完整的苹果系统,所以对于黑苹果的意义需要重新考虑
|
||||
|
||||
当前阶段能够提供最佳性能的intel版本的黑苹果的设备是什么?
|
||||
苹果最后的intel产品是哪一代,对应的显卡是什么
|
||||
3
35-黑苹果DELL/3-windows的WSL的性能.md
Normal file
3
35-黑苹果DELL/3-windows的WSL的性能.md
Normal file
@@ -0,0 +1,3 @@
|
||||
windows的WSL2的系统,能否 原生的运行Codex和ClaudeCodeDesktop
|
||||
|
||||
WSL2有无原生的桌面,windows可以直接访问操作的那种,类似于两套系统同时运行
|
||||
7
91-HarnessEngineering/0-发展研究/0-研究指南.md
Normal file
7
91-HarnessEngineering/0-发展研究/0-研究指南.md
Normal file
@@ -0,0 +1,7 @@
|
||||
你作为一名洞悉大模型发展的高级专家,请你分析大模型的驾驭工程发展历程,分析现在市面上Harness工程最佳的工具是哪些
|
||||
|
||||
请结合实际的工程学进行分析,如何从用户的实际需求出发,能够持续不断地自我驱动实现代码的落地,形成完整的闭环
|
||||
|
||||
|
||||
|
||||
请以claude code desktop和codex desktop open-code oh-my-openagent为工程学实例,分析现在的Harness工程的进化,他们能够实现的能力
|
||||
Reference in New Issue
Block a user