zeaslity/ProjectAGiPrompt

Fork 0

Files

zeaslity 978135e3a1 雄安工作总结；WDD-AI服务器

2026-06-08 09:28:55 +08:00

2.5 KiB

Raw Blame History

CPU为5800X 内存为16GB 3200Mhz Nvidia Geforce RTX 3070 已经被扩容到16GB的显存

现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0

运行的模型为 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True VLLM_USE_MODELSCOPE=True swift/Qwen3-30B-A3B-AWQ

已经安装了mini conda

你需要给出针对性编译llama.cpp支持GPU的版本，极致的利用主机的资源，提升大模型的速度，提升大模型的上下文

具体的模型及运行命令如下 ~/llama.cpp/build/bin/llama-server
-m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf
--host 0.0.0.0
--port 8000
-ngl 99
-c 8192
-t 8
--flash-attn
-b 512
--no-mmap

conda activate vllm

1. 检查驱动和 CUDA 版本

nvidia-smi

2. 检查 nvcc 实际指向的版本

nvcc --version

3. 检查 PyTorch 编译时的 CUDA 版本

python -c "import torch; print('PyTorch:', torch.version); print('PyTorch CUDA:', torch.version.cuda); print('GPU可用:', torch.cuda.is_available())"

export CUDA_VISIBLE_DEVICES=0 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True export VLLM_USE_MODELSCOPE=True export VLLM_WORKER_MULTIPROC_METHOD=spawn export VLLM_ATTENTION_BACKEND=FLASHINFER export VLLM_USE_FLASHINFER_MOE_FP16=1 # ← 新增：FlashInfer MoE FP16 内核加速 export OMP_NUM_THREADS=8 export TOKENIZERS_PARALLELISM=false

vllm serve swift/Qwen3-30B-A3B-AWQ
--host 0.0.0.0
--port 8000
--dtype float16
--quantization awq_marlin
--gpu-memory-utilization 0.90
--max-model-len 8192
--max-num-seqs 1
--max-num-batched-tokens 1024
--num-gpu-blocks-override 800
--cpu-offload-gb 2
--kv-cache-dtype fp8
--enforce-eager
--disable-log-stats
--served-model-name Qwen3-30B-A3B
--trust-remote-code

sudo nvidia-smi -pm 1

export CUDA_VISIBLE_DEVICES=0 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True export VLLM_USE_MODELSCOPE=True export VLLM_WORKER_MULTIPROC_METHOD=spawn export VLLM_ATTENTION_BACKEND=FLASHINFER export VLLM_CPU_KVCACHE_SPACE=8 # ← 正确方式：8GB RAM 作为 CPU KV cache export OMP_NUM_THREADS=8 export TOKENIZERS_PARALLELISM=false

vllm serve swift/Qwen3-30B-A3B-AWQ
--host 0.0.0.0
--port 8000
--dtype float16
--quantization awq_marlin
--gpu-memory-utilization 0.90
--max-model-len 16384
--max-num-seqs 1
--max-num-batched-tokens 512
--num-gpu-blocks-override 300
--cpu-offload-gb 2
--kv-cache-dtype fp8
--enforce-eager
--disable-log-stats
--served-model-name Qwen3-30B-A3B
--trust-remote-code

2.5 KiB Raw Blame History Unescape Escape

1. 检查驱动和 CUDA 版本

2. 检查 nvcc 实际指向的版本

3. 检查 PyTorch 编译时的 CUDA 版本

2.5 KiB

Raw Blame History