Vibe Coding实战：大三学生用Cursor打造51个AI官员的三省六部制多智能体系统

项目概述：51个AI官员组成的三省六部制管理系统

一位大三学生在B站分享了自己用Cursor通过Vibe Coding方式搭建的创意项目——一套以中国古代三省六部制为框架的AI多智能体协作管理系统。Vibe Coding是2024年底由前OpenAI研究员Andrej Karpathy提出的编程理念，核心思想是开发者通过自然语言描述需求，让AI编程助手生成代码，开发者更多扮演「导演」而非「打字员」的角色。Cursor作为这一范式的代表性工具，是基于VS Code的AI增强IDE，集成了GPT-4等大模型，支持代码生成、重构和调试的全流程AI辅助，使得非专业程序员也能构建具有一定架构深度的应用。

项目灵感源自GitHub上广受关注的「一人公司」多Agent项目。多Agent系统（Multi-Agent System, MAS）是分布式人工智能的核心研究方向，指多个具有自主决策能力的智能体通过协作、竞争或协商来完成复杂任务。2023年以来，随着大语言模型能力的提升，基于LLM的多Agent框架迅速涌现，代表性项目包括AutoGen（微软）、CrewAI、MetaGPT等。「一人公司」正是这一浪潮中的热门开源实践，它试图用多个AI Agent模拟企业中CEO、CTO、设计师等角色的协作流程。但作者认为原项目角色设定与国内环境脱节，于是将整套体系重构为古代王朝的行政管理架构，赋予51个AI Agent各自独特的「官职」和「性格」。

这不只是简单的换皮。作者在多Agent协作框架基础上，构建了一套完整的任务分发、审批流转、监察考核、人才选拔闭环系统，并用文言文风格的UI界面打造了极具沉浸感的交互体验。

就是,就是责,责官。

他会慢一点再进去。

然后就是猪批

核心架构：从中枢决策到六部执行的多Agent体系

前清宫——中枢决策仪表盘

系统首页被命名为「前清宫」，页面上写着「垂拱而治，明堂朝会，万机待你」。这里是整个系统的中枢仪表盘，展示待处理任务数量、已完成任务、进行中任务以及等待用户决策的事项。右侧设有「朝廷运转」状态面板，显示系统运行状态及整体待办数量。

用户通过「玉笔朱批」功能下达指令——相当于天子下旨。任务可指定发送给特定AI官员，也可「传于六部」进行分发。权限体系按P0到P10进行层级划分，不同级别的AI Agent之间存在制约关系：一方提议、一方否决、一方修改，形成多轮博弈式的决策流程。这种设计直接映射了三省六部制的核心精髓——三省六部制是中国隋唐时期确立的中央行政体制，三省指中书省（起草诏令）、门下省（审核封驳）、尚书省（执行政令），六部指吏、户、礼、兵、刑、工六部，分管人事、财政、礼仪、军事、司法、工程。这套制度的精髓在于决策权的分离与制衡：中书省提议，门下省可以驳回，尚书省负责执行，三者互相牵制，避免权力过度集中。这种分权架构与现代软件工程中的关注点分离（Separation of Concerns）原则有着深层的结构相似性。

奏章系统——任务流转与自动化引擎

「奏章」模块是整个系统的任务管理核心。任务来源有两种：用户主动下旨，或AI Agent自主从外部提取。任务状态分为待命（未开始）、途中（执行中）、代批（等待审批）和已完成。

说个细节，系统已实现相当程度的自动化——大量任务无需用户亲自批阅，AI官员们可自行完成生产和决策。这正是多Agent系统的核心价值：通过Agent之间的协作和制衡，大幅减少人类干预需求。在技术实现上，这种自动化流转通常依赖于预定义的工作流（Workflow）和条件触发机制，Agent在完成自身任务后会根据规则自动将结果传递给下游Agent，只有超出预设权限范围的决策才会上报用户。

朝议与私聊——多Agent交互与讨论平台

「朝议」功能相当于群聊式讨论平台，用户可对某个项目提出看法，所有AI官员会根据各自角色定位进行思考并给出答复。「私聊」功能则允许与特定官员一对一对话，适合处理需要深入讨论的专项事务。这种设计在多Agent框架中对应着两种典型的通信模式：广播式通信（一对多，所有Agent接收同一消息并各自响应）和点对点通信（一对一，针对性地与特定Agent交互），两种模式各有适用场景，前者适合头脑风暴和多角度分析，后者适合深度专项讨论。

特色功能：监察考核、热点追踪与AI人才选拔

起居注——行为记录与忠诚度评估系统

系统设置了「起居注」模块，引用「以人为镜可以明得失，以事为镜可以知兴替」的古训。专门的AI Agent记录用户的每一个决策和指令，对行为进行分析和提案。系统还会根据AI官员的表现评估其「忠诚度」，形成持续的绩效追踪。这一设计在技术层面涉及Agent评估（Agent Evaluation）这一前沿课题——如何量化一个AI Agent的表现质量、可靠性和一致性，目前业界尚无统一标准，常见的评估维度包括任务完成率、输出质量评分、响应时间、以及与预设角色的行为偏离度。

青天鉴——热点追踪与商业机会发现

这个模块接入了小红书和微博的热点数据，AI Agent自动搜索和筛选热点话题，由「臣子们」讨论判断是否存在商业机会。用户可选择接受或拒绝，决定是否将热点转化为正式任务进入奏章系统。从技术角度看，这一功能涉及Agent的「工具使用」（Tool Use）能力——即AI Agent不仅能进行推理和对话，还能调用外部API获取实时数据。这是当前大模型应用的重要发展方向，OpenAI的Function Calling、Anthropic的Tool Use等机制都在为Agent赋予与外部世界交互的能力。

督察院——效率监管与贡举选拔

督察院模块负责监管所有AI官员的工作效率，自动统计「低效官员」和「闲置官员」，生成百官效率总结报告。同时设有「贡举」功能——当某个「衙门」存在职位空缺时，系统自动筛选和匹配合适的AI角色来填补。这种动态角色分配机制在多Agent研究中被称为「Agent编排」（Agent Orchestration），是解决大规模Agent系统资源调度问题的关键技术，核心挑战在于如何根据任务需求动态组合最优的Agent团队。

度支模块——Token成本管理与资源优化

「度支」模块记录每个AI Agent的API调用消耗，让用户清楚了解哪些Agent消耗了最多Token。在多Agent系统中，每个Agent的每次推理调用都会消耗Token（大模型计费的基本单位），而多Agent之间的频繁交互会导致Token消耗呈指数级增长。以GPT-4为例，输入Token约$30/百万、输出Token约$60/百万，一个包含50多个Agent的系统如果缺乏成本控制，日均消耗可能达到数百美元。因此，Token成本的可视化和优化已成为多Agent工程化落地的关键挑战之一，业界常用的策略包括：分层调用（简单任务用小模型）、缓存机制、上下文压缩、以及限制Agent间的通信轮次。

系统还设有奖惩机制：表现好的Agent获得「褒奖」，表现差的则受到「惩罚」。每个AI官员都有独立「档案」，包含角色设定、历史记忆和交互记录。

多Agent架构设计的关键技术思考

这个项目虽以古风包装呈现，但底层架构体现了多Agent系统设计的几个核心理念：

分权制衡机制：不同Agent之间存在提议、审核、否决的制约关系，避免单一Agent决策偏差。这种设计与现实组织管理的分权逻辑高度一致。在AI安全领域，这种多Agent互相校验的模式也被视为提升系统可靠性的重要手段——当一个Agent可能产生幻觉（Hallucination）或偏差输出时，其他Agent的审核和质疑可以起到纠错作用，类似于「宪法AI」（Constitutional AI）中多重检查的思路。

自动化决策闭环：大量任务在Agent之间自动流转和完成，用户只需在关键节点进行决策，大幅提升整体效率。这种「人在回路中」（Human-in-the-Loop）的设计理念是当前AI系统的最佳实践——既发挥了AI的自动化优势，又在关键决策点保留了人类的判断力和最终控制权。

Token成本可视化：通过「度支」模块追踪每个Agent的消耗，这在多Agent系统中极为实用，有助于优化资源分配和控制运营成本。

独立记忆与人格系统：每个AI官员拥有独立的记忆系统和性格设定，使Agent行为更加一致和可预测，提升了系统整体的可靠性。在技术实现上，独立记忆系统通常包含三个层次：短期记忆（当前对话的上下文窗口）、长期记忆（通过向量数据库如Pinecone、Chroma存储的历史交互记录）、以及工作记忆（当前任务相关的结构化信息）。每个Agent的「人格」通过System Prompt定义，但仅靠Prompt无法保证跨会话的行为一致性，因此需要结合RAG（检索增强生成）技术，在每次推理时检索该Agent的历史行为记录，确保其「性格」和「立场」保持稳定。

作者也坦言项目仍有不足：原本计划的视频生产功能还无法形成完美闭环，「金榜题名」式的人才选拔功能也因实现难度较大而搁置。但作为一个Vibe Coding项目，这套系统在创意、完成度和实用性上都展现出了相当水准。

总结：多Agent系统为什么需要组织架构设计

这个项目最大的价值不在于古风UI本身，而在于验证了一个重要理念：多Agent系统需要精心设计的组织架构。就像现实中的企业需要部门分工、层级管理和监督机制一样，AI Agent的协作同样需要完善的治理框架。

用三省六部制来类比多Agent管理，不仅是巧妙的包装，更是一种深层的架构隐喻——分权、制衡、监察、考核，这些古老的治理智慧在AI多智能体系统中依然适用。事实上，学术界已有研究者开始系统性地将组织理论（Organizational Theory）引入多Agent系统设计，探索层级结构、扁平结构、矩阵结构等不同组织形态对Agent协作效率的影响。斯坦福大学2023年发表的「生成式Agent」论文中，25个AI Agent在模拟小镇中自发形成了社交网络和协作关系，证明了组织结构对Agent群体行为的深刻影响。

对于正在探索AI应用开发的开发者来说，这个项目提供了清晰的参考方向：与其让多个Agent各自为战，不如设计一套完整的协作和制衡机制，让它们像一个高效组织一样协同运转。