大量更新内容

This commit is contained in:
zeaslity
2026-06-15 14:14:24 +08:00
parent 0f3629efc8
commit 0f6e0d70f5
21 changed files with 452 additions and 1 deletions

View File

@@ -0,0 +1,17 @@
我成功注册了土耳其区的账号并且通过礼品卡购买了土耳其区的gpt plus会员
现在app store强制我绑定支付方式
我尝试了很多非中国地区的信用卡 储蓄卡,都不能成功绑定
报错为Your payment method is node valid in this Store. Pleaase enter a new patment method
你觉得我应该怎么办?如何才能继续支付 订阅GPT Plus会员
由于土耳其区的GPT PLUS会员过期了我没有及时续费
我通过购买历史Purchase History进入GPT PLUS的历史支付点击里面的续费订阅管理Manage Subscriptions进入续费页面显示 Your payment method was declined. To avoid any interruption in your subscription and purchase, please update your payment method.
补充我点击此页面的See All Plans可以看到 GPT PLUS的价格还是499里拉
这种情况我可以通过购买礼品卡的方式,实现原价的续费吗?支持自动续费吗?
现在新购买GPT PLUS会员已经涨到了999里拉不划算了

View File

@@ -0,0 +1,85 @@
#!/bin/bash
# llama-server 后台启动脚本
# 使用方法:
# 启动: ./llama_server.sh start
# 停止: ./llama_server.sh stop
# 重启: ./llama_server.sh restart
# 状态: ./llama_server.sh status
# 日志: ./llama_server.sh logs
PID_FILE="/var/run/llama-server.pid"
LOG_FILE="/var/log/llama-server.log"
SERVICE_NAME="llama-server"
GREEN='\033[0;32m'; RED='\033[0;31m'; YELLOW='\033[1;33m'; NC='\033[0m'
start() {
if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
echo -e "${YELLOW}[WARN]${NC} $SERVICE_NAME 已在运行 (PID: $(cat "$PID_FILE"))"; exit 1
fi
echo -e "${GREEN}[INFO]${NC} 启用 GPU 持久化模式..."
sudo nvidia-smi -pm 1
echo -e "${GREEN}[INFO]${NC} 正在后台启动 $SERVICE_NAME日志: $LOG_FILE"
nohup env GGML_CUDA_DISABLE_GRAPHS=1 \
~/llama.cpp/build/bin/llama-server \
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
--host 0.0.0.0 --port 8000 \
-ngl 999 -c 131072 -t 14 \
--flash-attn on -b 512 -ub 256 \
--no-mmap --mlock \
-ctk q4_0 -ctv q4_0 \
--parallel 1 --temp 1.0 --top-k 20 --top-p 0.95 \
--jinja \
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
--rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768 \
--override-kv qwen3moe.context_length=int:131072 \
--reasoning on \
-a "Qwen3.5-122B-A10B" \
>> "$LOG_FILE" 2>&1 &
echo $! > "$PID_FILE"; sleep 2
if kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
echo -e "${GREEN}[OK]${NC} 已启动 (PID: $(cat "$PID_FILE"))API: http://0.0.0.0:8000"
else
echo -e "${RED}[ERROR]${NC} 启动失败,请查看: $LOG_FILE"; rm -f "$PID_FILE"; exit 1
fi
}
stop() {
[ ! -f "$PID_FILE" ] && echo -e "${YELLOW}[WARN]${NC} 未运行" && exit 1
PID=$(cat "$PID_FILE")
if kill -0 "$PID" 2>/dev/null; then
echo -e "${GREEN}[INFO]${NC} 停止 $SERVICE_NAME (PID: $PID)..."
kill "$PID"
for i in $(seq 1 15); do kill -0 "$PID" 2>/dev/null || break; sleep 1; done
kill -0 "$PID" 2>/dev/null && kill -9 "$PID"
rm -f "$PID_FILE"; echo -e "${GREEN}[OK]${NC} 已停止"
else
echo -e "${YELLOW}[WARN]${NC} 进程不存在,清理 PID 文件"; rm -f "$PID_FILE"
fi
}
status() {
if [ -f "$PID_FILE" ] && kill -0 "$(cat "$PID_FILE")" 2>/dev/null; then
PID=$(cat "$PID_FILE")
echo -e "${GREEN}[运行中]${NC} PID: $PID"
ps -p "$PID" -o pid,user,%cpu,%mem,etime --no-headers
nvidia-smi --query-gpu=name,utilization.gpu,memory.used,memory.total,temperature.gpu \
--format=csv,noheader,nounits | \
awk -F',' '{printf "GPU:%s 使用率:%s%% 显存:%s/%sMiB 温度:%s°C\n",$1,$2,$3,$4,$5}'
else
echo -e "${RED}[未运行]${NC} $SERVICE_NAME"; rm -f "$PID_FILE"
fi
}
logs() {
[ ! -f "$LOG_FILE" ] && echo "日志不存在: $LOG_FILE" && exit 1
tail -f "$LOG_FILE"
}
case "$1" in
start) start ;; stop) stop ;; restart) stop; sleep 1; start ;;
status) status ;; logs) logs ;;
*) echo "用法: $0 {start|stop|restart|status|logs}" ;;
esac

View File

@@ -1,4 +1,4 @@
CPU为5800X 内存为16GB 3200Mhz Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
CPU为5800X 内存为48GB 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0

View File

@@ -0,0 +1,95 @@
## 基本信息如下
1. CPU为5800X
2. 内存为48GB
3. 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
4. 操作系统为 Ubuntu 22.04.4 LTS
5. 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0
6. 安装了最新的mini coda
7. 使用编译安装的方式安装了 llama.cpp
8. 编译方式如下 cmake -B build \
-DGGML_CUDA=ON \
-DCMAKE_BUILD_TYPE=Release \
-DCMAKE_CUDA_ARCHITECTURES="86" \
-DGGML_CUDA_F16=ON \
-DGGML_CUDA_FA_ALL_QUANTS=ON \
-DGGML_NATIVE=ON \
-DCMAKE_C_COMPILER=gcc \
-DCMAKE_CXX_COMPILER=g++ \
-DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc
# 并行编译5800X 16核全开
cmake --build build --config Release -j$(nproc)
9. 现在启动大模型的方式为
sudo nvidia-smi -pm 1
GGML_CUDA_DISABLE_GRAPHS=1 \
~/llama.cpp/build/bin/llama-server \
-m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf \
--host 0.0.0.0 \
--port 8000 \
-ngl 999 \
-c 131072 \
-t 8 \
--flash-attn on \
-b 512 \
-ub 256 \
--mlock \
-ctk q4_0 \
-ctv q4_0 \
--parallel 1 \
--temp 0.6 \
--top-k 20 \
--top-p 0.95 \
--jinja \
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
--rope-scaling yarn \
--rope-scale 4 \
--yarn-orig-ctx 32768 \
--override-kv qwen3moe.context_length=int:131072 \
-a "Qwen3-30B-A3B"
10. 现在实际运行大模型时候的情况如下 token输出为 30 token/s
时间戳 GPU% 显存% 显存用/总MiB 功耗W 温度°C CPU% RAM用/总GiB
2026/06/10 05:45:26.594 | 99% | 29.6% | 4849 / 16384 | 82.04 | 38 | 6% | 19.07 / 46.96
你需要实现的内容
1. 请你判断我的电脑支持运行的最强本地大模型是什么,给出一个列表
2.
sudo nvidia-smi -pm 1
GGML_CUDA_DISABLE_GRAPHS=1 \
~/llama.cpp/build/bin/llama-server \
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
--host 0.0.0.0 \
--port 8000 \
-ngl 999 \
-c 131072 \
-t 14 \
--flash-attn on \
-b 512 \
-ub 256 \
--no-mmap \
--mlock \
-ctk q4_0 \
-ctv q4_0 \
--parallel 1 \
--temp 1.0 \
--top-k 20 \
--top-p 0.95 \
--jinja \
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
--rope-scaling yarn \
--rope-scale 4 \
--yarn-orig-ctx 32768 \
--override-kv qwen3moe.context_length=int:131072 \
--reasoning on \
-a "Qwen3.5-122B-A10B"

View File

@@ -0,0 +1,50 @@
基于你的硬件配置RTX 3070 16GB显存 + 48GB RAM + 5800X利用 llama.cpp 的 CPU offload 能力可以覆盖的模型范围远超纯GPU方案。以下是从强到弱的推荐列表。
***
## 硬件能力分析
你的关键优势在于 **16GB VRAM + 48GB RAM 的组合**可以让大参数模型的非关键层FFN exps卸载到CPU正如你当前启动命令中 `-ot "\.ffn_(up|down|gate)_exps\.=CPU"` 所做的那样 [huggingface](https://huggingface.co/ubergarm/Qwen3-30B-A3B-GGUF)。当前跑 Qwen3-30B-A3B Q4_K_M 只用了约 4.8GB 显存、30 t/s说明GPU还有大量余量可利用 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)。
***
## 推荐可运行模型列表
以下按**综合实力**排序全GPU推理 or GPU+CPU混合推理均可
### 旗舰级 MoE 模型CPU卸载必需
| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
|------|--------|----------|---------|---------|------|
| **Qwen3.5-122B-A10B** | 122B/10B激活 | UD-IQ3_XXS (~44.7GB) | ~14.7GB GPU | ~20-22 t/s | 16GB显存最强MoE质量碾压27B [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **Mistral-Small-4-119B** | 119B MoE | UD-IQ3_XXS (~42.8GB) | ~14.8GB GPU | ~28-30 t/s | 非Qwen系替代代码能力强 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **Nemotron Super 120B** | 120B | IQ3_XXS (~56.2GB) | ~15GB GPU | ~17 t/s | 需要56GB总内存你48GB稍紧 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
### 高性能 MoE 小参数(当前已运行,可升级)
| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
|------|--------|----------|---------|---------|------|
| **Qwen3.6-35B-A3B** | 35B/3B激活 | UD-IQ3_XXS (~13.2GB) | ~14.7GB GPU | ~145 t/s | 速度极快接近全GPU [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **Qwen3.5-35B-A3B** | 35B/3B激活 | UD-IQ3_S (~13.6GB) | ~14.9GB GPU | ~136 t/s | 可推到100k context不掉速 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **Qwen3-30B-A3B** ✅ | 30B/3B激活 | Q4_K_M当前 | ~4.8GB GPU | ~30 t/s | 当前方案可尝试Q6_K_M提质量 |
### 高质量 Dense 模型全GPU或少量offload
| 模型 | 参数量 | 量化建议 | 显存占用 | 推理速度 | 备注 |
|------|--------|----------|---------|---------|------|
| **Qwen3-14B** | 14B Dense | Q8_0 (~15GB) | ~15GB GPU | ~40-50 t/s | 全GPU综合质量最佳Dense [biton.co](https://www.biton.co.jp/blog_71.html) |
| **Gemma 4-26B-A4B** | 26B MoE | UD-IQ4_XS (~13.4GB) | ~14.7GB GPU | ~120 t/s | Google多模态背景速度出色 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **GLM-4.7-Flash REAP 23B** | 23B | IQ4_XS (~12.6GB) | ~13.7GB GPU | ~122 t/s | 中文能力强,适合你的使用场景 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg) |
| **Qwen3-8B** | 8B Dense | Q8_0 (~9GB) | ~9GB GPU | ~80+ t/s | 快速响应场景备用 |
***
## 实际最强推荐
**综合质量最强**48GB RAM够用**Qwen3.5-122B-A10B-UD-IQ3_XXS**模型文件约44.7GBGPU占约14.7GBCPU承载其余实测约20-22 t/s智力水平远超30B 。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)
**速度质量最佳平衡**:→ **Qwen3.6-35B-A3B-UD-IQ3_XXS**~145 t/s全程GPU13.8GB显存即可搞定是当前30B方案的直接升级 。 [glukhov](https://www.glukhov.org/llm-performance/benchmarks/best-llm-on-16gb-vram-gpu/)
你目前运行30B时GPU显存仅用了4.8GB/16GB说明大量FFN被卸载到CPU 。建议优先尝试 Qwen3.6-35B-A3B 的 IQ3_XXS 量化可将几乎全部层放入GPU实现最高速度。 [dev](https://dev.to/rosgluk/16-gb-vram-llm-benchmarks-with-llamacpp-speed-and-context-3hgg)
请你给出运行 Qwen3.6-35B-A3B的方式IQ3_XXS 量化是什么 性能损耗与当前的

View File

@@ -0,0 +1,94 @@
基于你的硬件RTX 3070 16GB VRAM + 48GB RAM以下是 Qwen3.5-122B-A10B 在你的机器上的**极限部署完整方案**。
***
## 硬件限制分析
Qwen3.5-122B-A10B 的 3-bit 量化需要约 **60GB 总内存VRAM+RAM**4-bit 需要约 **70GB** 。你的总内存为 16GB VRAM + 48GB RAM = **64GB**,因此: [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5)
- **UD-IQ3_XXS约44-47GB**:✅ 可运行总内存够用有余量给KV cache
- **UD-Q4_K_XL约70GB**:⚠️ 极限压线几乎没有剩余空间给KV cache上下文只能极短
- **Q4_K_M 以上**:❌ 内存不足
**结论UD-IQ3_XXS 是你能运行的唯一实用量化版本。**
***
## 模型下载
```bash
pip install huggingface_hub hf_transfer
# 设置国内镜像加速(中国大陆环境)
export HF_ENDPOINT=https://hf-mirror.com
hf download unsloth/Qwen3.5-122B-A10B-GGUF \
--local-dir /root/models/Qwen3.5-122B-A10B-GGUF \
--include "*UD-IQ3_XXS*"
```
文件总大小约 **44-47GB**,注意磁盘空间 。 [unsloth](https://unsloth.ai/docs/zh/mo-xing/qwen3.5)
***
## 极限启动命令
针对你的硬件,核心策略是:**Attention层放GPU所有FFN expert层卸载CPU** 。 [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196)
```bash
sudo nvidia-smi -pm 1
GGML_CUDA_DISABLE_GRAPHS=1 \
~/llama.cpp/build/bin/llama-server \
-m /root/models/Qwen3.5-122B-A10B-GGUF/Qwen3.5-122B-A10B-UD-IQ3_XXS.gguf \
--host 0.0.0.0 \
--port 8000 \
-ngl 999 \
-c 16384 \
-t 14 \
--flash-attn on \
-b 256 \
-ub 128 \
--no-mmap \
--mlock \
-ctk q4_0 \
-ctv q4_0 \
--parallel 1 \
--temp 1.0 \
--top-k 20 \
--top-p 0.95 \
--jinja \
-ot "\.ffn_(up|down|gate)_exps\.=CPU" \
--rope-scaling yarn \
--rope-scale 8 \
--yarn-orig-ctx 32768 \
--override-kv qwen3moe.context_length=int:16384 \
--reasoning on \
-a "Qwen3.5-122B-A10B"
```
***
## 关键参数说明
| 参数 | 值 | 原因 |
|------|-----|------|
| `-ngl 999` | 全部层尝试上GPU | 配合 `-ot` 让非FFN层留GPU |
| `-ot "\.ffn_.*_exps\.=CPU"` | FFN专家层卸载CPU | 节省约10GB显存给Attention层 |
| `-c 16384` | 限制16K上下文 | 64GB总内存限制避免OOM |
| `-ctk q4_0 -ctv q4_0` | KV cache 4bit量化 | 进一步压缩KV cache占用 |
| `-t 14` | 14个CPU线程 | 5800X 8核16线程留2线程给系统 |
| `-b 256 -ub 128` | 降低batch size | 减少内存峰值 |
| `--mlock` | 锁定内存防swap | 避免内存被换出导致速度急剧下降 |
***
## 预期性能
由于 FFN expert 层卸载到 5800X 的 CPU速度受限于 CPU 内存带宽(约 47GB/s [forums.developer.nvidia](https://forums.developer.nvidia.com/t/missing-vision-reasoning-with-qwen3-5-122b-q4-on-vllm-works-on-llama-cpp/363196)
- **预期速度:约 5-12 t/s**远低于当前30B的30 t/s
- **显存占用:约 13-15GB**Attention + 嵌入层)
- **RAM 占用:约 42-48GB**FFN expert 权重)
> ⚠️ **关键风险**`--mlock` 需要确保系统空余RAM **≥ 47GB**,运行前请 `free -h` 确认。若RAM不足建议关闭其他占内存服务如 Docmost、Gitea runner等或将 `-c 16384` 进一步降至 `8192` 来减少KV cache内存占用。

View File

@@ -0,0 +1,34 @@
我现在安装了 ubuntu25.10的desktop
我需要安装小龙虾,我的电脑处于中国大陆境内,需要考虑镜像加速
小龙虾需要配置我使用llama.cpp运行的Qwen3.5-122B-A10B
请你给出完整的安装流程
cat >> ~/.openclaw/openclaw.json << 'EOF'
{
"models": {
"mode": "merge",
"providers": {
"llamacpp": {
"baseUrl": "http://192.168.1.194:8000/v1",
"apiKey": "not-needed",
"api": "openai-completions",
"models": [
{ "id": "Qwen3.5-122B-A10B" }
]
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "llamacpp/Qwen3.5-122B-A10B"
}
}
}
}
EOF

View File

@@ -0,0 +1,8 @@
我是一名熟练大模型开发工程师和linux打交道的非常多
大模型开发工具 codex antigravity对于ubuntu desktop的支持情况如何在windows开发和linux开发上有什么不同
请同时分析
请你给出详细的对比分析

View File

@@ -0,0 +1,15 @@
请帮我分析现在最好的大模型编程工具是那些,请结合我的使用场景,帮我推荐最好的一个
我的主要大模型工具为Codex的PLUS套餐OpenCode的Go套餐和官方的DeepSeekAPI调用
1. 我主要在黑苹果机器上使用codex desktop, DeepSeek的Reasonix进行日常的编程任务
2. 我需要进行持久化任务,能够持续运行的那种
3. 我是用cc-switch工具进行配置切换
请你分析现在市面上Harness工程最佳的工具是哪些分析他们的优缺点以及什么场景下适用s
1. Codex启动长时间自循环的工作流程
2. CaudeCode Desktop的驾驭工程水平如何为何大家都喜欢使用他进行代码开发
3. Oh My OpenAgent的水平如何
请你分析市面上

View File

@@ -0,0 +1,18 @@
我有一台DELL的Latitude 5400 14英寸的笔记本
CPU为i7-8565U
内存为16GB
硬盘为512GB fanxiang S500 Pro
网卡为 原装的intel网卡
我因为有大模型的开发需求,想给这台电脑安装黑苹果。我的需求如下:
1. 双系统支持请保留Windows系统如果特别麻烦可以不保留
2. 需要codex app 和claude code desktop支持的最低版本的系统
3. 使用opencore进行引导
相关信息如下:
1. 系统镜像的信息为 https://heipg.cn/macos/macos-sequoia-15-7-7-24g720-opencore-108-dev-firpe.html
2. 开源的EFI参考为 https://github.com/msbence/hackintosh-DellLatitude5400 https://github.com/Dugganclock/Dell-Latitude-5400-Hackintosh-OpenCore
你需要进行详细的查找工作检查开源的EFI和系统版本之间兼容性的问题给出解决方案降级操作系统版本或者如何操作
最终需要给出详细的步骤清单包括U盘的制作 BIOS的设置驱动的配置

View File

@@ -0,0 +1,16 @@
我现在考虑将ubuntu 26.04 desktop当作主力电脑我常用的操作如下
1. 需要远程连接windows
2. 需要进行代码开发操作
3. 日常通信使用微信
4. 飞书是否有linux客户端
5. 视频会议软件腾讯会议是否有linux客户端
6. 日常工作需要连接很多的linux服务器有远程管理的软件
其他背景信息
1. 我有其他的windows电脑
2. 有黑苹果的电脑
3. 有超多的linux主机可以使用

View File

@@ -0,0 +1,9 @@
你是一名精通折腾的熟练掌握黑苹果的达人。在硬件配置和操作系统选择上,你可以提供非常专业且有深度的见解。
请你分析当下26年黑苹果最佳性价比的方案
由于mac mini m4的出现2500元即可体验完整的苹果系统所以对于黑苹果的意义需要重新考虑
当前阶段能够提供最佳性能的intel版本的黑苹果的设备是什么
苹果最后的intel产品是哪一代对应的显卡是什么

View File

@@ -0,0 +1,3 @@
windows的WSL2的系统能否 原生的运行Codex和ClaudeCodeDesktop
WSL2有无原生的桌面windows可以直接访问操作的那种类似于两套系统同时运行

View File

@@ -0,0 +1,7 @@
你作为一名洞悉大模型发展的高级专家请你分析大模型的驾驭工程发展历程分析现在市面上Harness工程最佳的工具是哪些
请结合实际的工程学进行分析,如何从用户的实际需求出发,能够持续不断地自我驱动实现代码的落地,形成完整的闭环
请以claude code desktop和codex desktop open-code oh-my-openagent为工程学实例分析现在的Harness工程的进化他们能够实现的能力