Files
ProjectAGiPrompt/32-WDD-AI服务器/3-优化模型启动参数.md
2026-06-08 09:28:55 +08:00

2.5 KiB
Raw Blame History

CPU为5800X 内存为16GB 3200Mhz Nvidia Geforce RTX 3070 已经被扩容到16GB的显存

现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0

运行的模型为 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True VLLM_USE_MODELSCOPE=True swift/Qwen3-30B-A3B-AWQ

已经安装了mini conda

你需要给出针对性编译llama.cpp支持GPU的版本极致的利用主机的资源提升大模型的速度提升大模型的上下文

具体的模型及运行命令如下 ~/llama.cpp/build/bin/llama-server
-m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf
--host 0.0.0.0
--port 8000
-ngl 99
-c 8192
-t 8
--flash-attn
-b 512
--no-mmap

conda activate vllm

1. 检查驱动和 CUDA 版本

nvidia-smi

2. 检查 nvcc 实际指向的版本

nvcc --version

3. 检查 PyTorch 编译时的 CUDA 版本

python -c "import torch; print('PyTorch:', torch.version); print('PyTorch CUDA:', torch.version.cuda); print('GPU可用:', torch.cuda.is_available())"

export CUDA_VISIBLE_DEVICES=0 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True export VLLM_USE_MODELSCOPE=True export VLLM_WORKER_MULTIPROC_METHOD=spawn export VLLM_ATTENTION_BACKEND=FLASHINFER export VLLM_USE_FLASHINFER_MOE_FP16=1 # ← 新增FlashInfer MoE FP16 内核加速 export OMP_NUM_THREADS=8 export TOKENIZERS_PARALLELISM=false

vllm serve swift/Qwen3-30B-A3B-AWQ
--host 0.0.0.0
--port 8000
--dtype float16
--quantization awq_marlin
--gpu-memory-utilization 0.90
--max-model-len 8192
--max-num-seqs 1
--max-num-batched-tokens 1024
--num-gpu-blocks-override 800
--cpu-offload-gb 2
--kv-cache-dtype fp8
--enforce-eager
--disable-log-stats
--served-model-name Qwen3-30B-A3B
--trust-remote-code

sudo nvidia-smi -pm 1

export CUDA_VISIBLE_DEVICES=0 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True export VLLM_USE_MODELSCOPE=True export VLLM_WORKER_MULTIPROC_METHOD=spawn export VLLM_ATTENTION_BACKEND=FLASHINFER export VLLM_CPU_KVCACHE_SPACE=8 # ← 正确方式8GB RAM 作为 CPU KV cache export OMP_NUM_THREADS=8 export TOKENIZERS_PARALLELISM=false

vllm serve swift/Qwen3-30B-A3B-AWQ
--host 0.0.0.0
--port 8000
--dtype float16
--quantization awq_marlin
--gpu-memory-utilization 0.90
--max-model-len 16384
--max-num-seqs 1
--max-num-batched-tokens 512
--num-gpu-blocks-override 300
--cpu-offload-gb 2
--kv-cache-dtype fp8
--enforce-eager
--disable-log-stats
--served-model-name Qwen3-30B-A3B
--trust-remote-code