CPU为5800X 内存为48GB 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存 现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0 运行的模型为 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True VLLM_USE_MODELSCOPE=True swift/Qwen3-30B-A3B-AWQ 已经安装了mini conda 你需要给出针对性编译llama.cpp支持GPU的版本,极致的利用主机的资源,提升大模型的速度,提升大模型的上下文 具体的模型及运行命令如下 ~/llama.cpp/build/bin/llama-server \ -m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf \ --host 0.0.0.0 \ --port 8000 \ -ngl 99 \ -c 8192 \ -t 8 \ --flash-attn \ -b 512 \ --no-mmap conda activate vllm # 1. 检查驱动和 CUDA 版本 nvidia-smi # 2. 检查 nvcc 实际指向的版本 nvcc --version # 3. 检查 PyTorch 编译时的 CUDA 版本 python -c "import torch; print('PyTorch:', torch.__version__); print('PyTorch CUDA:', torch.version.cuda); print('GPU可用:', torch.cuda.is_available())" export CUDA_VISIBLE_DEVICES=0 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True export VLLM_USE_MODELSCOPE=True export VLLM_WORKER_MULTIPROC_METHOD=spawn export VLLM_ATTENTION_BACKEND=FLASHINFER export VLLM_USE_FLASHINFER_MOE_FP16=1 # ← 新增:FlashInfer MoE FP16 内核加速 export OMP_NUM_THREADS=8 export TOKENIZERS_PARALLELISM=false vllm serve swift/Qwen3-30B-A3B-AWQ \ --host 0.0.0.0 \ --port 8000 \ --dtype float16 \ --quantization awq_marlin \ --gpu-memory-utilization 0.90 \ --max-model-len 8192 \ --max-num-seqs 1 \ --max-num-batched-tokens 1024 \ --num-gpu-blocks-override 800 \ --cpu-offload-gb 2 \ --kv-cache-dtype fp8 \ --enforce-eager \ --disable-log-stats \ --served-model-name Qwen3-30B-A3B \ --trust-remote-code sudo nvidia-smi -pm 1 export CUDA_VISIBLE_DEVICES=0 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True export VLLM_USE_MODELSCOPE=True export VLLM_WORKER_MULTIPROC_METHOD=spawn export VLLM_ATTENTION_BACKEND=FLASHINFER export VLLM_CPU_KVCACHE_SPACE=8 # ← 正确方式:8GB RAM 作为 CPU KV cache export OMP_NUM_THREADS=8 export TOKENIZERS_PARALLELISM=false vllm serve swift/Qwen3-30B-A3B-AWQ \ --host 0.0.0.0 \ --port 8000 \ --dtype float16 \ --quantization awq_marlin \ --gpu-memory-utilization 0.90 \ --max-model-len 16384 \ --max-num-seqs 1 \ --max-num-batched-tokens 512 \ --num-gpu-blocks-override 300 \ --cpu-offload-gb 2 \ --kv-cache-dtype fp8 \ --enforce-eager \ --disable-log-stats \ --served-model-name Qwen3-30B-A3B \ --trust-remote-code