2.5 KiB
CPU为5800X 内存为16GB 3200Mhz Nvidia Geforce RTX 3070 已经被扩容到16GB的显存
现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0
运行的模型为 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True VLLM_USE_MODELSCOPE=True swift/Qwen3-30B-A3B-AWQ
已经安装了mini conda
你需要给出针对性编译llama.cpp支持GPU的版本,极致的利用主机的资源,提升大模型的速度,提升大模型的上下文
具体的模型及运行命令如下
~/llama.cpp/build/bin/llama-server
-m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf
--host 0.0.0.0
--port 8000
-ngl 99
-c 8192
-t 8
--flash-attn
-b 512
--no-mmap
conda activate vllm
1. 检查驱动和 CUDA 版本
nvidia-smi
2. 检查 nvcc 实际指向的版本
nvcc --version
3. 检查 PyTorch 编译时的 CUDA 版本
python -c "import torch; print('PyTorch:', torch.version); print('PyTorch CUDA:', torch.version.cuda); print('GPU可用:', torch.cuda.is_available())"
export CUDA_VISIBLE_DEVICES=0 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True export VLLM_USE_MODELSCOPE=True export VLLM_WORKER_MULTIPROC_METHOD=spawn export VLLM_ATTENTION_BACKEND=FLASHINFER export VLLM_USE_FLASHINFER_MOE_FP16=1 # ← 新增:FlashInfer MoE FP16 内核加速 export OMP_NUM_THREADS=8 export TOKENIZERS_PARALLELISM=false
vllm serve swift/Qwen3-30B-A3B-AWQ
--host 0.0.0.0
--port 8000
--dtype float16
--quantization awq_marlin
--gpu-memory-utilization 0.90
--max-model-len 8192
--max-num-seqs 1
--max-num-batched-tokens 1024
--num-gpu-blocks-override 800
--cpu-offload-gb 2
--kv-cache-dtype fp8
--enforce-eager
--disable-log-stats
--served-model-name Qwen3-30B-A3B
--trust-remote-code
sudo nvidia-smi -pm 1
export CUDA_VISIBLE_DEVICES=0 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True export VLLM_USE_MODELSCOPE=True export VLLM_WORKER_MULTIPROC_METHOD=spawn export VLLM_ATTENTION_BACKEND=FLASHINFER export VLLM_CPU_KVCACHE_SPACE=8 # ← 正确方式:8GB RAM 作为 CPU KV cache export OMP_NUM_THREADS=8 export TOKENIZERS_PARALLELISM=false
vllm serve swift/Qwen3-30B-A3B-AWQ
--host 0.0.0.0
--port 8000
--dtype float16
--quantization awq_marlin
--gpu-memory-utilization 0.90
--max-model-len 16384
--max-num-seqs 1
--max-num-batched-tokens 512
--num-gpu-blocks-override 300
--cpu-offload-gb 2
--kv-cache-dtype fp8
--enforce-eager
--disable-log-stats
--served-model-name Qwen3-30B-A3B
--trust-remote-code