vLLM Kunlun是一个专为昆仑XPU设计的社区维护硬件插件,让vLLM框架能够在昆仑XPU上无缝高效运行。vLLM Kunlun 通过提供一个可插拔的硬件接口,实现了昆仑XPU与vLLM的解耦集成,让各类主流开源大模型,包括Transformer类、混合专家(MoE)、Embedding以及多模态LLM,均可在此架构上运行。vLLM Kunlun 持Qwen、LLama、GLM等生成式模型及Qianfan-VL、InternVL等多模态模型,提供量化、LoRA和分段昆仑图等关键功能,能在昆仑3 P800硬件环境下实现卓越的高性能计算能力。
• 硬件:昆仑芯3 P800
• 操作系统:Ubuntu 22.04
• 软件环境:Python 版本不低于3.10,PyTorch 版本不低于2.5.1,vLLM(需与vllm-kunlun版本保持一致)
| 模型 | 支持情况 | 量化 | LoRA | 分段昆仑芯图 | 备注 |
|---|---|---|---|---|---|
| Qwen2/2.5 | ✅ | - | ✅ | ✅ | - |
| Qwen3 | ✅ | - | ✅ | ✅ | - |
| Qwen3-Moe/Coder | ✅ | ✅ | ✅ | ✅ | - |
| QwQ-32B | ✅ | - | - | ✅ | - |
| Llama2/3/3.1 | ✅ | - | - | ✅ | - |
| GLM-4.5/Air | ✅ | ✅ | ✅ | ✅ | - |
| Qwen3-next | ⚠️ | - | - | - | 即将支持 |
| GPT OSS | ⚠️ | - | - | - | 即将支持 |
| DeepSeek-v3/3.2 | ⚠️ | - | - | - | 即将支持 |
| 模型 | 支持情况 | 量化 | LoRA | 分段昆仑芯图 | 备注 |
|---|---|---|---|---|---|
| Qianfan-VL | ✅ | - | - | ✅ | - |
| Qwen2.5-VL | ✅ | - | - | ✅ | - |
| InternVL2.5/3/3.5 | ✅ | - | - | ✅ | - |
| InternS1 | ✅ | - | - | ✅ | - |
| Qwen2.5-Omni | ⚠️ | - | - | - | 即将支持 |
| Qwen3-VL | ⚠️ | - | - | - | 即将支持 |
| GLM-4.5V | ✅ | - | - | ✅ | - |
在昆仑芯3 P800上,不同模型展现出高效的计算能力。测试环境为16路并发,输入/输出尺寸2048,各模型吞吐量数据如下:
• Qwen3-30B-A3B:1927.4
• Qwen3-14B:1781.1
• Qwen3-8B:1779.8
• Qwen2 5 14B linstruct:1592.7
• Qwen3-32B:927.7
• Qwen3-235B-A22B:927.5
• Qwen2.5-32B-instruct:916.5
• Qwen2.5.72B-lnstruct:819.5
PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill
金融 AI 新工具 FinClaw,免费提供1000+ 金融专属Skills
PPT Agent 演示文稿生成框架
端到端自主AI科研引擎 NanoResearch
CitationClaw 学术论文智能引用画像和分析报告
pi-autoresearch:pi自动化实验优化循环
OpenClaw Control Center:为OpenClaw用户(包括团队和个人)提供统一的监控和管理界面
OpenClaw Dashboard 仪表盘:让OpenClaw管理更简单
PaperBanana-CN 学术配图助手
996.ICU:工作 996, 生病 ICU