科学工具
科学工具让世界更美好
让世界更美好

vLLM Kunlun 昆仑 XPU 硬件插件

vLLM Kunlun是一个专为昆仑XPU设计的社区维护硬件插件,让vLLM框架能够在昆仑XPU上无缝高效运行。vLLM Kunlun 通过提供一个可插拔的硬件接口,实现了昆仑XPU与vLLM的解耦集成,让各类主流开源大模型,包括Transformer类、混合专家(MoE)、Embedding以及多模态LLM,均可在此架构上运行。vLLM Kunlun 持Qwen、LLama、GLM等生成式模型及Qianfan-VL、InternVL等多模态模型,提供量化、LoRA和分段昆仑图等关键功能,能在昆仑3 P800硬件环境下实现卓越的高性能计算能力。

vLLM Kunlun 运行前提条件

• 硬件:昆仑芯3 P800

• 操作系统:Ubuntu 22.04

• 软件环境:Python 版本不低于3.10,PyTorch 版本不低于2.5.1,vLLM(需与vllm-kunlun版本保持一致)

支持的模型

生成式模型

模型 支持情况 量化 LoRA 分段昆仑芯图 备注
Qwen2/2.5 - -
Qwen3 - -
Qwen3-Moe/Coder -
QwQ-32B - - -
Llama2/3/3.1 - - -
GLM-4.5/Air -
Qwen3-next ⚠️ - - - 即将支持
GPT OSS ⚠️ - - - 即将支持
DeepSeek-v3/3.2 ⚠️ - - - 即将支持

多模态语言模型

模型 支持情况 量化 LoRA 分段昆仑芯图 备注
Qianfan-VL - - -
Qwen2.5-VL - - -
InternVL2.5/3/3.5 - - -
InternS1 - - -
Qwen2.5-Omni ⚠️ - - - 即将支持
Qwen3-VL ⚠️ - - - 即将支持
GLM-4.5V - - -

性能表现

在昆仑芯3 P800上,不同模型展现出高效的计算能力。测试环境为16路并发,输入/输出尺寸2048,各模型吞吐量数据如下:

• Qwen3-30B-A3B:1927.4

• Qwen3-14B:1781.1

• Qwen3-8B:1779.8

• Qwen2 5 14B linstruct:1592.7

• Qwen3-32B:927.7

• Qwen3-235B-A22B:927.5

• Qwen2.5-32B-instruct:916.5

• Qwen2.5.72B-lnstruct:819.5