Zen MCP Server 模型上下文协议服务器将Claude和Gemini、O3、OpenRouter、Ollama等多种AI模型结合,开发者提供一个有代码分析、问题解决和协作开发的工具,让AI在软件开发过程中发挥作用。
Zen MCP Server能实现真正的AI编排,让对话能够跨任务延续。给Claude一个复杂任务,能自动在不同模型间协调,Claude保持控制并执行实际工作的同时从最适合的AI模型获取每个子任务的观点,在对话过程中,Claude可以在不同工具和模型之间切换,上下文能无缝衔接。
Zen MCP Server中一个具体的工作流程示例:
1、Claude进行自我推理
2、使用Gemini Pro深入分析相关代码以获取第二意见
3、切换到O3继续讨论分析结果
4、用Flash评估O3的格式建议
5、吸收所有三方反馈后执行实际工作
6、返回Pro进行提交前审查
整个过程都在一个对话线程中完成,第6步的Gemini Pro知道第3步O3的建议,会将这些上下文和审查意见纳入考虑,以辅助提交前的审查。
• 多个AI视角:让Claude在不同模型间编排,以获得最佳分析
• 自动模型选择:Claude为每个任务选择合适的模型,也可以自行指定
• 资深开发伙伴验证和扩展想法(通过chat工具)
• 复杂架构决策的第二意见:通过Gemini Pro、O3或其他模型的视角增强Claude的思考(通过thinkdeep工具)
• 对整个代码库进行专业代码审查并提供可行反馈(通过codereview工具)
• 用最适合的模型进行提交前验证(通过precommit工具)
• 专家级调试:O3处理逻辑问题,Gemini处理架构问题(通过debug工具)
• 超越Claude限制的扩展上下文窗口:将分析委托给Gemini(100万 tokens)或O3(20万 tokens)来处理整个代码库、大型数据集或全面文档
• 利用模型特定优势:Gemini Pro用于扩展思考,Flash用于快速迭代,O3用于强大推理,Ollama用于本地隐私保护
• 本地模型支持:通过Ollama、vLLM或LM Studio本地运行Llama 3.2等模型,以保护隐私和控制成本
• 动态协作:模型可在分析过程中请求额外上下文并向Claude跟进回复
• 智能文件处理:自动扩展目录,根据模型容量管理token限制
• 绕过MCP的token限制:自动解决MCP 25K的限制问题
• 已安装Docker Desktop
• Git
• Windows用户需要WSL2来使用Claude Code CLI
选项A:OpenRouter(通过一个API访问多个模型)
• 访问OpenRouter获取API密钥
• 可在OpenRouter控制台直接控制模型访问和消费限制
• 在conf/custom_models.json
中配置模型别名
选项B:原生API
Gemini:访问Google AI Studio生成API密钥。要获得Gemini 2.5 Pro的最佳效果,使用付费API密钥,因为免费层对最新模型的访问有限。
OpenAI:访问OpenAI平台获取O3模型的API密钥。
选项C:自定义API端点(如Ollama、vLLM等本地模型)
• 可使用Ollama本地运行Llama 3.2等模型进行免费推理
• vLLM:自托管推理服务器,支持高吞吐量推理
• LM Studio:具有OpenAI兼容API接口的本地模型托管
• 文本生成WebUI:运行模型的流行本地界面
• 任何兼容OpenAI的API:为自有基础设施提供自定义端点
# 克隆到首选位置
git clone https://github.com/BeehiveInnovations/zen-mcp-server.git
cd zen-mcp-server
# 一键设置(包括用于AI对话的Redis)
./setup-docker.sh
# 编辑.env文件添加API密钥(如果环境中尚未设置)
nano .env
# 文件内容如下,至少设置一个:
# GEMINI_API_KEY=你的Gemini API密钥 # 用于Gemini模型
# OPENAI_API_KEY=你的OpenAI API密钥 # 用于O3模型
# OPENROUTER_API_KEY=你的OpenRouter密钥 # 用于OpenRouter(见docs/custom_models.md)
# 对于本地模型(Ollama、vLLM等)- 注意:Docker网络使用host.docker.internal:
# CUSTOM_API_URL=http://host.docker.internal:11434/v1 # Ollama示例(不是localhost!)
# CUSTOM_API_KEY= # Ollama留空
# CUSTOM_MODEL_NAME=llama3.2 # 默认模型
# WORKSPACE_ROOT=/Users/你的用户名 (自动配置)
# 注意:至少需要一个API密钥或自定义URL
为Claude Code设置
# 通过Claude Code CLI直接添加MCP服务器
claude mcp add zen -s user -- docker exec -i zen-mcp-server python server.py
# 列出MCP服务器以验证
claude mcp list
# 需要时移除
claude mcp remove zen -s user
# 重命名后可能需要移除旧版本的MCP:
claude mcp remove gemini -s user
现在在终端运行claude
,将连接到新添加的MCP服务器,如果已经在运行claude代码会话,请退出并启动新会话。
为Claude Desktop设置
打开Claude Desktop,进入设置→开发者→编辑配置,显示claude_desktop_config.json
,更新Docker配置,设置脚本会显示确切的配置,如下所示:
{
"mcpServers": {
"zen": {
"command": "docker",
"args": [
"exec",
"-i",
"zen-mcp-server",
"python",
"server.py"
]
}
}
}
将上述内容粘贴到claude_desktop_config.json
中,如果已列出多个其他MCP服务器,只需在其余部分下方添加,用逗号分隔,完全退出并重新启动Claude Desktop,使更改生效。
只需自然地询问Claude:
• “用zen深入思考这个架构设计”→Claude会选择最佳模型+thinkdeep
• “使用zen对这段代码进行安全问题的代码审查”→Claude可能会选择Gemini Pro+codereview
• “使用zen调试为什么这个测试会失败, bug可能在my_class.swift中”→Claude可能会选择O3+debug
• “用zen分析这些文件以了解数据流”→Claude会选择合适的模型+analyze
• “使用flash根据policy.md中提到的规范建议如何格式化这段代码”→专门使用Gemini Flash
• “深入思考这个问题,并让o3调试我在checkOrders()函数中发现的这个逻辑错误”→专门使用O3
• “与pro一起头脑风暴扩展策略。研究代码,选择你偏好的策略,并与pro辩论以确定两个最佳方法”→专门使用Gemini Pro
• “使用local-llama对这个项目进行本地化并添加缺失的翻译”→通过自定义URL使用本地Llama 3.2
• “首先使用local-llama进行快速本地分析,然后使用opus进行彻底的安全审查”→按顺序使用两个提供程序
• 需要思考伙伴?→chat(头脑风暴想法,获取第二意见,协作验证方法)
• 需要更深入的思考?→thinkdeep(扩展分析,发现边缘情况)
• 代码需要审查?→codereview(发现bug、安全和性能问题)
• 提交前验证?→precommit(提交前验证git更改)
• 遇到问题?→debug(根本原因分析,错误追踪)
• 想了解代码?→analyze(分析架构、模式和依赖关系)
• 服务器信息?→get_version(获取版本和配置详情)
作为思考伙伴,可交流想法、获取第二意见、协作头脑风暴,思考模式默认为medium(8192 tokens),对于快速问题,使用low模式以节省tokens,对于复杂讨论,使用high模式以确保全面性。
示例提示:
与zen聊天并选择最适合此工作的模型。我需要在Redis和Memcached之间选择用于会话存储,并且需要针对我正在进行的项目的专家意见。先了解项目的情况,选择其中一个选项,然后与其他模型比较,给我一个最终结论
获取第二意见以增强Claude的扩展思考,思考模式默认为high(16384 tokens)用于深度分析,Claude会根据复杂度自动选择最佳模式,也可手动选择low进行快速验证,medium处理标准问题,high处理复杂问题(默认),或max处理需要最深分析的极端复杂挑战。
示例提示:
使用pro以max思考模式深入思考我的身份验证设计,并头脑风暴为我的项目提出最佳架构
进行全面的代码分析并提供优先反馈,思考模式默认为medium(8192 tokens),对于安全关键代码,使用high模式(值得额外的tokens),对于快速样式检查,使用low模式(节省约6k tokens)。
示例提示:
使用gemini pro进行代码审查,审查auth.py中的安全问题和潜在漏洞。我需要一个可行的计划,但要将其分解为可以快速实施和测试的小步骤
对多个存储库中已暂存/未暂存的git更改进行全面审查,思考模式默认为medium(8192 tokens),对于关键版本,当彻底验证值得花费tokens时,使用high或max模式。
示例提示:
使用zen进行彻底的提交前检查,确保没有引入新的回归或错误
对复杂问题进行根本原因分析,思考模式默认为medium(8192 tokens),对于棘手的bug,使用high模式(值得投入以找到根本原因),对于简单错误,使用low模式(节省tokens)。
示例提示:
"使用gemini调试这个TypeError: 'NoneType'对象没有'split'属性"
"让gemini调试为什么我的API返回500错误,并附上完整的堆栈跟踪:[粘贴跟踪信息]"
用于通用的代码理解和探索,思考模式默认为medium(8192 tokens),对于架构分析,使用high模式(值得花费以获得全面见解),对于快速文件概览,使用low模式(节省约6k tokens)。
示例提示:
"使用gemini分析main.py以了解其工作原理"
"让gemini对src/目录进行架构分析"
"让zen显示其版本"
Zen MCP Server支持Claude与多个AI模型(Gemini、O3)之间真正的AI协作,可以协调并质疑彼此的方法:
• Gemini可以向Claude提出后续问题以澄清需求或收集更多上下文
• Claude可以用附加信息、文件或细化的指令进行回应
• Claude可以在交流之间独立工作——实现解决方案、收集数据或进行分析
• Claude可以向Gemini返回进度更新和新上下文以进行进一步协作
• 跨工具延续——从一个工具(如analyze)开始,使用相同的对话线程继续使用另一个工具(如codereview)
用户:“辩论SwiftUI vs UIKit——哪个更适合iOS开发?”
Claude(自动模式):“我将在不同模型之间组织一场辩论,以获得多样化的观点。”
Gemini Pro:“从架构角度来看,SwiftUI的声明式范式和状态管理使其在可维护的现代应用程序方面更为优越。”
O3:“逻辑分析权衡:UIKit提供了15年以上的稳定性、完全控制和经过验证的可扩展性。SwiftUI只有不到5年的成熟度,且不断有突破性更改。”
Claude:“让我获取Flash对开发者体验的快速看法...”
Gemini Flash:“SwiftUI = 开发更快、代码更少、预览更好。UIKit = 控制更多、调试更好、API更稳定。”
Claude的总结:“基于多模型分析:对于优先考虑开发速度的新项目,使用SwiftUI;对于需要精细控制或支持较旧iOS版本的应用,使用UIKit。”
1、Claude:“分析/src/auth.py中的安全问题”
→ 自动模式:Claude选择Gemini Pro进行深度安全分析
→ Pro分析并发现漏洞,提供continuation_id
2、Claude:“彻底审查身份验证逻辑”
→ 使用相同的continuation_id,但Claude选择O3进行逻辑分析
→ O3查看之前的Pro分析并提供专注于逻辑的审查
3、Claude:“调试身份验证测试失败”
→ 相同的continuation_id,Claude继续使用O3进行调试
→ O3提供带有来自前两次分析的完整上下文的有针对性调试
4、Claude:“提交前快速样式检查”
→ 同一线程,但Claude切换到Flash以提高速度
→ Flash快速验证格式,并了解所有先前的修复
在.env文件中设置DEFAULT_MODEL=auto
,Claude将为每个任务智能选择最佳模型。
# .env文件
DEFAULT_MODEL=auto # Claude自动选择最佳模型
# API密钥(至少需要一个)
GEMINI_API_KEY=你的Gemini密钥 # 启用Gemini Pro和Flash
OPENAI_API_KEY=你的OpenAI密钥 # 启用O3、O3-mini
• pro
(Gemini 2.5 Pro):扩展思考,深度分析
• flash
(Gemini 2.0 Flash):超快速响应
• o3
:强大的逻辑推理
• o3-mini
:平衡速度和质量
• 自定义模型:通过OpenRouter或本地API(Ollama、vLLM等)
Zen MCP Server通过Claude与多种AI模型的协作,为开发者提供一个强大的开发辅助工具,从代码审查、问题调试到架构设计,能协调不同模型的优势,帮助开发者更加高效地完成工作。如果你是一名开发者,不妨尝试一下这个工具,看看它如何为你的开发流程带来根本性的改变。