Hermes协调DeepSeek+MiniMax双AI协作写代码：从零完成项目实测

实验背景：让多个AI模型协同开发

当我们谈论AI编程时，通常是一个模型对应一个任务。但如果让多个AI模型像团队一样协作，由一个"项目经理"协调分工，效果会怎样？B站UP主进行了一次大胆实验：用Hermes智能体作为协调者，让DeepSeek V4和MiniMax 2.7两个模型协同完成实际的软件开发任务。

Hermes智能体属于近年来兴起的"AI Agent"范式。与传统的单次问答式AI不同，Agent具备自主规划、工具调用、记忆管理和任务分解等能力。它可以将一个复杂目标拆解为多个子任务，依次执行并根据中间结果调整策略。在多Agent系统中，不同Agent承担不同角色（如规划者、执行者、审查者），通过消息传递协议进行通信，这与微服务架构中的服务编排思想异曲同工。业界类似的框架还有AutoGen、CrewAI和LangGraph等，它们都在探索如何让多个AI实体协同完成复杂任务。

整个实验的核心问题是：多模型协作能否在几乎零人工干预的情况下，独立完成有实际价值的编程项目？

实验环境搭建：硬件与模型配置

硬件与架构设计

实验采用了一个有趣的架构：以ZimaBoard 2单板计算机作为运行载体，24小时不间断运行Hermes智能体。ZimaBoard是一款基于x86架构的单板服务器，与树莓派等ARM架构单板机不同，它可以直接运行标准的Linux发行版和x86应用程序，无需交叉编译。ZimaBoard 2通常配备Intel处理器、板载eMMC存储和SATA接口，功耗仅为6-10W左右，非常适合作为24/7运行的轻量级服务器。在本实验中，它充当的是Agent的运行宿主而非推理计算节点——实际的大模型推理仍然通过API调用云端完成，ZimaBoard只需要运行Agent的调度逻辑和网络通信。

选择单板机而非笔记本电脑有两个关键原因：

工作连续性：不会因为合上笔记本盖子而中断任务
环境隔离：智能体无法访问个人电脑内容，主机的重启、关机也不会影响智能体运行

通过SSH连接ZimaBoard

模型角色分配

Hermes智能体：运行在ZimaBoard上，负责任务规划、分配和验证
DeepSeek V4：作为Hermes的主力推理模型
MiniMax 2.7：通过OpenCode接入，负责实际代码编写

DeepSeek V4是深度求索公司推出的大规模语言模型，以其强大的推理能力和代码生成能力著称，在多个编程基准测试中表现优异。它采用混合专家（MoE）架构，能够在保持高性能的同时控制推理成本。MiniMax 2.7则是MiniMax公司发布的模型，在长上下文处理和代码生成方面具有独特优势。将两者搭配使用的策略是：利用DeepSeek V4的强推理能力进行任务分析和规划，利用MiniMax 2.7的代码生成能力进行实际编码，这种互补配置可以最大化整体系统的输出质量。

这种架构的精妙之处在于：Hermes负责"思考"和"管理"，而MiniMax负责"执行"，形成了一个完整的AI开发团队。

任务一：为Markdown编辑器添加PDF导出功能

任务描述与执行过程

第一个任务是在一个已有的Markdown编辑器项目中添加PDF和HTML导出功能。这个编辑器的后端使用Rust编写，前端渲染Markdown文件。

实验者只给出了一个简单的需求描述，然后指示Hermes：

先创建实现计划
逐一将任务分配给MiniMax模型
验证每个任务的完成情况

Hermes创建实现计划并分配任务

整个过程中，Hermes展现了不错的自主性——它甚至在分析项目时发现ZimaBoard上没有安装Rust环境，主动报告了这个问题。这体现了Agent的一个重要能力：环境感知与异常处理。当Agent在执行任务时遇到预期之外的障碍，它能够识别问题、评估影响，并决定是自行解决还是上报给人类操作者。

执行结果

整个任务从开始到完成大约耗时9分钟。Hermes协调MiniMax逐步完成了所有子任务，并在最后进行了统一验证。

任务完成报告

实际测试结果：

✅ 应用编译无错误
✅ Markdown渲染正常
✅ 导出菜单正确显示三种格式选项
✅ PDF导出成功，文本、格式和颜色完美保留
✅ HTML导出效果与编辑器内显示完全一致
⚠️ PDF中图片未能正确导出（小瑕疵）

HTML导出的效果被评价为"absolutely perfect"，与编辑器内的显示完全一致。这个结果相当令人印象深刻。

任务二：用Nim语言从零构建RSS聚合服务

为什么选择Nim语言作为压力测试？

第二个任务的难度大幅升级：用Nim编程语言从零开始构建一个RSS文章聚合Web服务。

Nim是一门静态类型的系统编程语言，由Andreas Rumpf于2008年开始开发。它的设计哲学是结合Python的可读性、C的性能和Lisp的元编程能力。Nim代码会被编译为C、C++或JavaScript，因此能够生成极其精简的原生二进制文件，这解释了为什么实验中完整的Web服务编译后仅有不到700KB。然而，Nim的社区规模远小于主流语言，GitHub上的Nim项目数量仅为Python的百分之一左右，这意味着大模型在训练时接触到的Nim代码样本极为有限。

选择Nim语言有两个目的：

Nim是一门相对小众的语言，训练数据远少于Python或JavaScript，这对模型是一个严峻的压力测试
实验者本人喜欢Nim，想看看AI能否胜任

配置调整：delegate task机制

对于第二个任务，实验者调整了Hermes的配置方式。不再通过OpenCode间接调用MiniMax，而是让Hermes通过其内置的delegate task机制直接调用外部模型。

Delegate Task是Agent框架中常见的任务委派模式。在这种机制下，主Agent（Hermes）不直接生成最终代码，而是将具体的编码任务封装为结构化的指令，通过API调用传递给专门的执行模型。这种设计的优势在于：主Agent可以保持较短的上下文窗口专注于高层规划，而执行模型则获得完整的任务上下文来生成代码。与通过OpenCode这样的中间工具间接调用相比，直接delegate减少了一层抽象，降低了信息传递中的损耗，也减少了额外的token消耗和延迟。

Hermes通过delegate task机制直接调用外部模型

配置步骤：

在Delegation部分添加额外provider的描述
更新Hermes系统提示词，指定使用Delegate Task工具来编写代码

执行过程与最终结果

实验者提供了一个详细的需求prompt，Hermes据此生成了一份"相当大且详细"的实现计划，然后自主执行。

一个RSS聚合服务的核心组件包括：RSS/Atom格式解析器、定时抓取调度器、文章去重与存储引擎、以及Web前端展示层。在本实验中，AI需要理解HTTP服务器搭建、XML解析、数据库操作、前端模板渲染等多个技术领域的知识，并将它们整合为一个完整的应用——这对AI的系统设计能力是一个综合性考验。

有趣的是，在实现完成后，Hermes主动进行了一次技术审计，发现了4个bug。这种"自我审查"行为是Agent系统中一个值得关注的特性：它表明协调Agent不仅能分配任务，还能对产出质量进行评估，形成了一个内置的质量保障闭环。

最终测试结果：

✅ 项目无错误启动，Web服务运行在5000端口
✅ 页面正常显示，主要功能区域齐全
✅ RSS源添加成功
✅ 启动时自动同步文章
⚠️ 文章标题点击无响应（需后续修复）
⚠️ 界面设计较为简陋（未在prompt中指定UI要求）

最令人惊叹的数据：整个功能完备的Web服务编译后仅为一个不到700KB的二进制文件。这既展示了Nim语言编译为C后生成精简二进制的天然优势，也说明AI生成的代码并没有引入不必要的臃肿依赖。作为对比，一个类似功能的Node.js项目仅node_modules目录就可能超过100MB。

关键发现：多模型协作的优势与局限

多模型协作的核心优势

角色分工明确：Hermes负责规划和验证，MiniMax负责代码实现，各司其职。这种分工模式借鉴了软件工程中"架构师+开发者"的经典团队结构
自主性较高：除了安装Rust环境需要人工介入外，整个编码过程几乎无需人工参与
质量保障机制：Hermes在每个子任务完成后进行验证，最终还会做整体审计，形成了类似代码审查（Code Review）的质量把关流程

当前存在的局限性

小bug仍需人工修复：如PDF图片导出失败、文章链接不可点击等
审计发现的bug未自动修复：Hermes在第二个任务中发现4个bug后等待人工确认，而非自动修复。这可能是出于安全考虑的设计——在没有人类明确授权的情况下，Agent不应自行修改已完成的代码
UI设计能力有限：在没有明确设计要求时，生成的界面较为粗糙。这反映了当前语言模型在视觉设计领域的短板——它们擅长逻辑实现但缺乏审美判断

实用性评估

从实验结果来看，多AI协作模式已经能够完成从"给现有项目添加功能"到"从零构建新项目"的跨度任务。9分钟完成PDF导出功能的效率，对于人类开发者来说也是相当有竞争力的——一个熟练的开发者完成同样的功能（包括查阅文档、编写代码、调试测试）通常需要1-3小时。虽然产出的代码还不能直接投入生产环境，但作为快速原型开发工具，这种模式已经展现出了巨大的实用价值。

总结：AI编程从单模型走向多模型协作

这次实验证明了一个重要趋势：AI编程正在从"单模型对话"走向"多模型协作"。通过Hermes这样的协调智能体，不同模型可以发挥各自优势，形成类似人类开发团队的工作模式。这种演进路径与软件工程本身的发展历程相似——从单人开发到团队协作，从瀑布流程到敏捷迭代。

虽然目前还无法完全替代人类开发者，但在快速原型开发、功能迭代等场景中，这种模式已经具备了相当的实战能力。未来随着Agent框架的成熟和模型能力的持续提升，我们可能会看到更复杂的多Agent开发团队出现——包含专门的测试Agent、安全审计Agent、文档编写Agent等，形成一个完整的AI软件工厂。

核心要点

Hermes智能体可协调DeepSeek和MiniMax两个模型进行分工协作，实现规划-执行-验证的完整开发流程
第一个任务（Markdown编辑器PDF导出）仅用9分钟完成，HTML导出效果完美，PDF导出存在图片缺失的小瑕疵
第二个任务使用小众的Nim语言从零构建RSS聚合服务，最终编译产物不到700KB，展示了AI处理冷门语言的能力
多模型协作模式下人工干预极少，主要限于环境配置和最终bug确认
当前局限在于细节bug仍需人工修复，且AI在没有明确设计要求时UI产出质量有限