CPU为5800X 内存为48GB 显卡为 Nvidia Geforce RTX 3070 已经被扩容到16GB的显存

现在已经安装 Nvidia Driver 13.0 CUDA-Tookit 13.0

运行的模型为 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True VLLM_USE_MODELSCOPE=True 
swift/Qwen3-30B-A3B-AWQ

已经安装了mini conda

你需要给出针对性编译llama.cpp支持GPU的版本，极致的利用主机的资源，提升大模型的速度，提升大模型的上下文

具体的模型及运行命令如下
~/llama.cpp/build/bin/llama-server \
  -m /root/models/Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf \
  --host 0.0.0.0 \
  --port 8000 \
  -ngl 99 \
  -c 8192 \
  -t 8 \
  --flash-attn \
  -b 512 \
  --no-mmap


conda activate vllm

# 1. 检查驱动和 CUDA 版本
nvidia-smi

# 2. 检查 nvcc 实际指向的版本
nvcc --version

# 3. 检查 PyTorch 编译时的 CUDA 版本
python -c "import torch; print('PyTorch:', torch.__version__); print('PyTorch CUDA:', torch.version.cuda); print('GPU可用:', torch.cuda.is_available())"


export CUDA_VISIBLE_DEVICES=0
export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
export VLLM_USE_MODELSCOPE=True
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export VLLM_ATTENTION_BACKEND=FLASHINFER
export VLLM_USE_FLASHINFER_MOE_FP16=1          # ← 新增：FlashInfer MoE FP16 内核加速
export OMP_NUM_THREADS=8
export TOKENIZERS_PARALLELISM=false

vllm serve swift/Qwen3-30B-A3B-AWQ \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype float16 \
  --quantization awq_marlin \
  --gpu-memory-utilization 0.90 \
  --max-model-len 8192 \
  --max-num-seqs 1 \
  --max-num-batched-tokens 1024 \
  --num-gpu-blocks-override 800 \
  --cpu-offload-gb 2 \
  --kv-cache-dtype fp8 \
  --enforce-eager \
  --disable-log-stats \
  --served-model-name Qwen3-30B-A3B \
  --trust-remote-code


sudo nvidia-smi -pm 1


export CUDA_VISIBLE_DEVICES=0
export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
export VLLM_USE_MODELSCOPE=True
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export VLLM_ATTENTION_BACKEND=FLASHINFER
export VLLM_CPU_KVCACHE_SPACE=8          # ← 正确方式：8GB RAM 作为 CPU KV cache
export OMP_NUM_THREADS=8
export TOKENIZERS_PARALLELISM=false

vllm serve swift/Qwen3-30B-A3B-AWQ \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype float16 \
  --quantization awq_marlin \
  --gpu-memory-utilization 0.90 \
  --max-model-len 16384 \
  --max-num-seqs 1 \
  --max-num-batched-tokens 512 \
  --num-gpu-blocks-override 300 \
  --cpu-offload-gb 2 \
  --kv-cache-dtype fp8 \
  --enforce-eager \
  --disable-log-stats \
  --served-model-name Qwen3-30B-A3B \
  --trust-remote-code