Hermes协调DeepSeek+MiniMax双AI协作写代码:从零完成项目实测

多AI模型协作编程实验:Hermes协调DeepSeek和MiniMax完成实际开发任务
实验让Hermes智能体作为协调者,指挥DeepSeek V4和MiniMax 2.7两个模型协同完成编程任务。在两个测试中,9分钟完成Markdown编辑器PDF导出功能,并用小众Nim语言从零构建RSS聚合服务(编译仅700KB)。结果表明多模型协作已能在极少人工干预下完成实际开发,但细节bug和UI设计仍需人工介入。
实验背景:让多个AI模型协同开发
当我们谈论AI编程时,通常是一个模型对应一个任务。但如果让多个AI模型像团队一样协作,由一个"项目经理"协调分工,效果会怎样?B站UP主进行了一次大胆实验:用Hermes智能体作为协调者,让DeepSeek V4和MiniMax 2.7两个模型协同完成实际的软件开发任务。
Hermes智能体属于近年来兴起的"AI Agent"范式。与传统的单次问答式AI不同,Agent具备自主规划、工具调用、记忆管理和任务分解等能力。它可以将一个复杂目标拆解为多个子任务,依次执行并根据中间结果调整策略。在多Agent系统中,不同Agent承担不同角色(如规划者、执行者、审查者),通过消息传递协议进行通信,这与微服务架构中的服务编排思想异曲同工。业界类似的框架还有AutoGen、CrewAI和LangGraph等,它们都在探索如何让多个AI实体协同完成复杂任务。
整个实验的核心问题是:多模型协作能否在几乎零人工干预的情况下,独立完成有实际价值的编程项目?
实验环境搭建:硬件与模型配置
硬件与架构设计
实验采用了一个有趣的架构:以ZimaBoard 2单板计算机作为运行载体,24小时不间断运行Hermes智能体。ZimaBoard是一款基于x86架构的单板服务器,与树莓派等ARM架构单板机不同,它可以直接运行标准的Linux发行版和x86应用程序,无需交叉编译。ZimaBoard 2通常配备Intel处理器、板载eMMC存储和SATA接口,功耗仅为6-10W左右,非常适合作为24/7运行的轻量级服务器。在本实验中,它充当的是Agent的运行宿主而非推理计算节点——实际的大模型推理仍然通过API调用云端完成,ZimaBoard只需要运行Agent的调度逻辑和网络通信。
选择单板机而非笔记本电脑有两个关键原因:
- 工作连续性:不会因为合上笔记本盖子而中断任务
- 环境隔离:智能体无法访问个人电脑内容,主机的重启、关机也不会影响智能体运行

模型角色分配
- Hermes智能体:运行在ZimaBoard上,负责任务规划、分配和验证
- DeepSeek V4:作为Hermes的主力推理模型
- MiniMax 2.7:通过OpenCode接入,负责实际代码编写
DeepSeek V4是深度求索公司推出的大规模语言模型,以其强大的推理能力和代码生成能力著称,在多个编程基准测试中表现优异。它采用混合专家(MoE)架构,能够在保持高性能的同时控制推理成本。MiniMax 2.7则是MiniMax公司发布的模型,在长上下文处理和代码生成方面具有独特优势。将两者搭配使用的策略是:利用DeepSeek V4的强推理能力进行任务分析和规划,利用MiniMax 2.7的代码生成能力进行实际编码,这种互补配置可以最大化整体系统的输出质量。
这种架构的精妙之处在于:Hermes负责"思考"和"管理",而MiniMax负责"执行",形成了一个完整的AI开发团队。
任务一:为Markdown编辑器添加PDF导出功能
任务描述与执行过程
第一个任务是在一个已有的Markdown编辑器项目中添加PDF和HTML导出功能。这个编辑器的后端使用Rust编写,前端渲染Markdown文件。
实验者只给出了一个简单的需求描述,然后指示Hermes:
- 先创建实现计划
- 逐一将任务分配给MiniMax模型
- 验证每个任务的完成情况

整个过程中,Hermes展现了不错的自主性——它甚至在分析项目时发现ZimaBoard上没有安装Rust环境,主动报告了这个问题。这体现了Agent的一个重要能力:环境感知与异常处理。当Agent在执行任务时遇到预期之外的障碍,它能够识别问题、评估影响,并决定是自行解决还是上报给人类操作者。
执行结果
整个任务从开始到完成大约耗时9分钟。Hermes协调MiniMax逐步完成了所有子任务,并在最后进行了统一验证。

实际测试结果:
- ✅ 应用编译无错误
- ✅ Markdown渲染正常
- ✅ 导出菜单正确显示三种格式选项
- ✅ PDF导出成功,文本、格式和颜色完美保留
- ✅ HTML导出效果与编辑器内显示完全一致
- ⚠️ PDF中图片未能正确导出(小瑕疵)
HTML导出的效果被评价为"absolutely perfect",与编辑器内的显示完全一致。这个结果相当令人印象深刻。
任务二:用Nim语言从零构建RSS聚合服务
为什么选择Nim语言作为压力测试?
第二个任务的难度大幅升级:用Nim编程语言从零开始构建一个RSS文章聚合Web服务。
Nim是一门静态类型的系统编程语言,由Andreas Rumpf于2008年开始开发。它的设计哲学是结合Python的可读性、C的性能和Lisp的元编程能力。Nim代码会被编译为C、C++或JavaScript,因此能够生成极其精简的原生二进制文件,这解释了为什么实验中完整的Web服务编译后仅有不到700KB。然而,Nim的社区规模远小于主流语言,GitHub上的Nim项目数量仅为Python的百分之一左右,这意味着大模型在训练时接触到的Nim代码样本极为有限。
选择Nim语言有两个目的:
- Nim是一门相对小众的语言,训练数据远少于Python或JavaScript,这对模型是一个严峻的压力测试
- 实验者本人喜欢Nim,想看看AI能否胜任
配置调整:delegate task机制
对于第二个任务,实验者调整了Hermes的配置方式。不再通过OpenCode间接调用MiniMax,而是让Hermes通过其内置的delegate task机制直接调用外部模型。
Delegate Task是Agent框架中常见的任务委派模式。在这种机制下,主Agent(Hermes)不直接生成最终代码,而是将具体的编码任务封装为结构化的指令,通过API调用传递给专门的执行模型。这种设计的优势在于:主Agent可以保持较短的上下文窗口专注于高层规划,而执行模型则获得完整的任务上下文来生成代码。与通过OpenCode这样的中间工具间接调用相比,直接delegate减少了一层抽象,降低了信息传递中的损耗,也减少了额外的token消耗和延迟。

配置步骤:
- 在Delegation部分添加额外provider的描述
- 更新Hermes系统提示词,指定使用Delegate Task工具来编写代码
执行过程与最终结果
实验者提供了一个详细的需求prompt,Hermes据此生成了一份"相当大且详细"的实现计划,然后自主执行。
一个RSS聚合服务的核心组件包括:RSS/Atom格式解析器、定时抓取调度器、文章去重与存储引擎、以及Web前端展示层。在本实验中,AI需要理解HTTP服务器搭建、XML解析、数据库操作、前端模板渲染等多个技术领域的知识,并将它们整合为一个完整的应用——这对AI的系统设计能力是一个综合性考验。
有趣的是,在实现完成后,Hermes主动进行了一次技术审计,发现了4个bug。这种"自我审查"行为是Agent系统中一个值得关注的特性:它表明协调Agent不仅能分配任务,还能对产出质量进行评估,形成了一个内置的质量保障闭环。
最终测试结果:
- ✅ 项目无错误启动,Web服务运行在5000端口
- ✅ 页面正常显示,主要功能区域齐全
- ✅ RSS源添加成功
- ✅ 启动时自动同步文章
- ⚠️ 文章标题点击无响应(需后续修复)
- ⚠️ 界面设计较为简陋(未在prompt中指定UI要求)
最令人惊叹的数据:整个功能完备的Web服务编译后仅为一个不到700KB的二进制文件。这既展示了Nim语言编译为C后生成精简二进制的天然优势,也说明AI生成的代码并没有引入不必要的臃肿依赖。作为对比,一个类似功能的Node.js项目仅node_modules目录就可能超过100MB。
关键发现:多模型协作的优势与局限
多模型协作的核心优势
- 角色分工明确:Hermes负责规划和验证,MiniMax负责代码实现,各司其职。这种分工模式借鉴了软件工程中"架构师+开发者"的经典团队结构
- 自主性较高:除了安装Rust环境需要人工介入外,整个编码过程几乎无需人工参与
- 质量保障机制:Hermes在每个子任务完成后进行验证,最终还会做整体审计,形成了类似代码审查(Code Review)的质量把关流程
当前存在的局限性
- 小bug仍需人工修复:如PDF图片导出失败、文章链接不可点击等
- 审计发现的bug未自动修复:Hermes在第二个任务中发现4个bug后等待人工确认,而非自动修复。这可能是出于安全考虑的设计——在没有人类明确授权的情况下,Agent不应自行修改已完成的代码
- UI设计能力有限:在没有明确设计要求时,生成的界面较为粗糙。这反映了当前语言模型在视觉设计领域的短板——它们擅长逻辑实现但缺乏审美判断
实用性评估
从实验结果来看,多AI协作模式已经能够完成从"给现有项目添加功能"到"从零构建新项目"的跨度任务。9分钟完成PDF导出功能的效率,对于人类开发者来说也是相当有竞争力的——一个熟练的开发者完成同样的功能(包括查阅文档、编写代码、调试测试)通常需要1-3小时。虽然产出的代码还不能直接投入生产环境,但作为快速原型开发工具,这种模式已经展现出了巨大的实用价值。
总结:AI编程从单模型走向多模型协作
这次实验证明了一个重要趋势:AI编程正在从"单模型对话"走向"多模型协作"。通过Hermes这样的协调智能体,不同模型可以发挥各自优势,形成类似人类开发团队的工作模式。这种演进路径与软件工程本身的发展历程相似——从单人开发到团队协作,从瀑布流程到敏捷迭代。
虽然目前还无法完全替代人类开发者,但在快速原型开发、功能迭代等场景中,这种模式已经具备了相当的实战能力。未来随着Agent框架的成熟和模型能力的持续提升,我们可能会看到更复杂的多Agent开发团队出现——包含专门的测试Agent、安全审计Agent、文档编写Agent等,形成一个完整的AI软件工厂。
核心要点
- Hermes智能体可协调DeepSeek和MiniMax两个模型进行分工协作,实现规划-执行-验证的完整开发流程
- 第一个任务(Markdown编辑器PDF导出)仅用9分钟完成,HTML导出效果完美,PDF导出存在图片缺失的小瑕疵
- 第二个任务使用小众的Nim语言从零构建RSS聚合服务,最终编译产物不到700KB,展示了AI处理冷门语言的能力
- 多模型协作模式下人工干预极少,主要限于环境配置和最终bug确认
- 当前局限在于细节bug仍需人工修复,且AI在没有明确设计要求时UI产出质量有限
相关推荐
教程攻略Cursor+Codex双IDE协同:开源项目二开实战方法论
基于实战经验总结的开源项目二次开发完整方法论,详解Cursor+Codex双IDE协同工作流,涵盖二开七环节、MVP验证、AI读源码技巧,帮助开发者三天跑通项目、两周完成业务集成。
教程攻略Cursor多Agent实战:50分钟搭建Next.js全栈博客
使用Cursor IDE多Agent协作模式,50分钟内从零搭建全栈博客。涵盖Next.js、Clerk认证、Supabase数据库集成,详解4个AI Agent分阶段开发流程与关键避坑经验。
教程攻略从零搭建AI软件工厂:Cursor工程师的多Agent协作实战经验
Cursor工程师Eric分享AI软件工厂构建实战:从自动化六层级、护栏设计、并行Agent管理到规模化扩展,详解如何用多Agent协作实现7×24小时高效软件开发。