Vibe Coding实战:大三学生用Cursor打造51个AI官员的三省六部制多智能体系统

项目概述:51个AI官员组成的三省六部制管理系统
一位大三学生在B站分享了自己用Cursor通过Vibe Coding方式搭建的创意项目——一套以中国古代三省六部制为框架的AI多智能体协作管理系统。Vibe Coding是2024年底由前OpenAI研究员Andrej Karpathy提出的编程理念,核心思想是开发者通过自然语言描述需求,让AI编程助手生成代码,开发者更多扮演「导演」而非「打字员」的角色。Cursor作为这一范式的代表性工具,是基于VS Code的AI增强IDE,集成了GPT-4等大模型,支持代码生成、重构和调试的全流程AI辅助,使得非专业程序员也能构建具有一定架构深度的应用。
项目灵感源自GitHub上广受关注的「一人公司」多Agent项目。多Agent系统(Multi-Agent System, MAS)是分布式人工智能的核心研究方向,指多个具有自主决策能力的智能体通过协作、竞争或协商来完成复杂任务。2023年以来,随着大语言模型能力的提升,基于LLM的多Agent框架迅速涌现,代表性项目包括AutoGen(微软)、CrewAI、MetaGPT等。「一人公司」正是这一浪潮中的热门开源实践,它试图用多个AI Agent模拟企业中CEO、CTO、设计师等角色的协作流程。但作者认为原项目角色设定与国内环境脱节,于是将整套体系重构为古代王朝的行政管理架构,赋予51个AI Agent各自独特的「官职」和「性格」。
这不只是简单的换皮。作者在多Agent协作框架基础上,构建了一套完整的任务分发、审批流转、监察考核、人才选拔闭环系统,并用文言文风格的UI界面打造了极具沉浸感的交互体验。



核心架构:从中枢决策到六部执行的多Agent体系
前清宫——中枢决策仪表盘
系统首页被命名为「前清宫」,页面上写着「垂拱而治,明堂朝会,万机待你」。这里是整个系统的中枢仪表盘,展示待处理任务数量、已完成任务、进行中任务以及等待用户决策的事项。右侧设有「朝廷运转」状态面板,显示系统运行状态及整体待办数量。
用户通过「玉笔朱批」功能下达指令——相当于天子下旨。任务可指定发送给特定AI官员,也可「传于六部」进行分发。权限体系按P0到P10进行层级划分,不同级别的AI Agent之间存在制约关系:一方提议、一方否决、一方修改,形成多轮博弈式的决策流程。这种设计直接映射了三省六部制的核心精髓——三省六部制是中国隋唐时期确立的中央行政体制,三省指中书省(起草诏令)、门下省(审核封驳)、尚书省(执行政令),六部指吏、户、礼、兵、刑、工六部,分管人事、财政、礼仪、军事、司法、工程。这套制度的精髓在于决策权的分离与制衡:中书省提议,门下省可以驳回,尚书省负责执行,三者互相牵制,避免权力过度集中。这种分权架构与现代软件工程中的关注点分离(Separation of Concerns)原则有着深层的结构相似性。
奏章系统——任务流转与自动化引擎
「奏章」模块是整个系统的任务管理核心。任务来源有两种:用户主动下旨,或AI Agent自主从外部提取。任务状态分为待命(未开始)、途中(执行中)、代批(等待审批)和已完成。
说个细节,系统已实现相当程度的自动化——大量任务无需用户亲自批阅,AI官员们可自行完成生产和决策。这正是多Agent系统的核心价值:通过Agent之间的协作和制衡,大幅减少人类干预需求。在技术实现上,这种自动化流转通常依赖于预定义的工作流(Workflow)和条件触发机制,Agent在完成自身任务后会根据规则自动将结果传递给下游Agent,只有超出预设权限范围的决策才会上报用户。
朝议与私聊——多Agent交互与讨论平台
「朝议」功能相当于群聊式讨论平台,用户可对某个项目提出看法,所有AI官员会根据各自角色定位进行思考并给出答复。「私聊」功能则允许与特定官员一对一对话,适合处理需要深入讨论的专项事务。这种设计在多Agent框架中对应着两种典型的通信模式:广播式通信(一对多,所有Agent接收同一消息并各自响应)和点对点通信(一对一,针对性地与特定Agent交互),两种模式各有适用场景,前者适合头脑风暴和多角度分析,后者适合深度专项讨论。
特色功能:监察考核、热点追踪与AI人才选拔
起居注——行为记录与忠诚度评估系统
系统设置了「起居注」模块,引用「以人为镜可以明得失,以事为镜可以知兴替」的古训。专门的AI Agent记录用户的每一个决策和指令,对行为进行分析和提案。系统还会根据AI官员的表现评估其「忠诚度」,形成持续的绩效追踪。这一设计在技术层面涉及Agent评估(Agent Evaluation)这一前沿课题——如何量化一个AI Agent的表现质量、可靠性和一致性,目前业界尚无统一标准,常见的评估维度包括任务完成率、输出质量评分、响应时间、以及与预设角色的行为偏离度。
青天鉴——热点追踪与商业机会发现
这个模块接入了小红书和微博的热点数据,AI Agent自动搜索和筛选热点话题,由「臣子们」讨论判断是否存在商业机会。用户可选择接受或拒绝,决定是否将热点转化为正式任务进入奏章系统。从技术角度看,这一功能涉及Agent的「工具使用」(Tool Use)能力——即AI Agent不仅能进行推理和对话,还能调用外部API获取实时数据。这是当前大模型应用的重要发展方向,OpenAI的Function Calling、Anthropic的Tool Use等机制都在为Agent赋予与外部世界交互的能力。
督察院——效率监管与贡举选拔
督察院模块负责监管所有AI官员的工作效率,自动统计「低效官员」和「闲置官员」,生成百官效率总结报告。同时设有「贡举」功能——当某个「衙门」存在职位空缺时,系统自动筛选和匹配合适的AI角色来填补。这种动态角色分配机制在多Agent研究中被称为「Agent编排」(Agent Orchestration),是解决大规模Agent系统资源调度问题的关键技术,核心挑战在于如何根据任务需求动态组合最优的Agent团队。
度支模块——Token成本管理与资源优化
「度支」模块记录每个AI Agent的API调用消耗,让用户清楚了解哪些Agent消耗了最多Token。在多Agent系统中,每个Agent的每次推理调用都会消耗Token(大模型计费的基本单位),而多Agent之间的频繁交互会导致Token消耗呈指数级增长。以GPT-4为例,输入Token约$30/百万、输出Token约$60/百万,一个包含50多个Agent的系统如果缺乏成本控制,日均消耗可能达到数百美元。因此,Token成本的可视化和优化已成为多Agent工程化落地的关键挑战之一,业界常用的策略包括:分层调用(简单任务用小模型)、缓存机制、上下文压缩、以及限制Agent间的通信轮次。
系统还设有奖惩机制:表现好的Agent获得「褒奖」,表现差的则受到「惩罚」。每个AI官员都有独立「档案」,包含角色设定、历史记忆和交互记录。
多Agent架构设计的关键技术思考
这个项目虽以古风包装呈现,但底层架构体现了多Agent系统设计的几个核心理念:
分权制衡机制:不同Agent之间存在提议、审核、否决的制约关系,避免单一Agent决策偏差。这种设计与现实组织管理的分权逻辑高度一致。在AI安全领域,这种多Agent互相校验的模式也被视为提升系统可靠性的重要手段——当一个Agent可能产生幻觉(Hallucination)或偏差输出时,其他Agent的审核和质疑可以起到纠错作用,类似于「宪法AI」(Constitutional AI)中多重检查的思路。
自动化决策闭环:大量任务在Agent之间自动流转和完成,用户只需在关键节点进行决策,大幅提升整体效率。这种「人在回路中」(Human-in-the-Loop)的设计理念是当前AI系统的最佳实践——既发挥了AI的自动化优势,又在关键决策点保留了人类的判断力和最终控制权。
Token成本可视化:通过「度支」模块追踪每个Agent的消耗,这在多Agent系统中极为实用,有助于优化资源分配和控制运营成本。
独立记忆与人格系统:每个AI官员拥有独立的记忆系统和性格设定,使Agent行为更加一致和可预测,提升了系统整体的可靠性。在技术实现上,独立记忆系统通常包含三个层次:短期记忆(当前对话的上下文窗口)、长期记忆(通过向量数据库如Pinecone、Chroma存储的历史交互记录)、以及工作记忆(当前任务相关的结构化信息)。每个Agent的「人格」通过System Prompt定义,但仅靠Prompt无法保证跨会话的行为一致性,因此需要结合RAG(检索增强生成)技术,在每次推理时检索该Agent的历史行为记录,确保其「性格」和「立场」保持稳定。
作者也坦言项目仍有不足:原本计划的视频生产功能还无法形成完美闭环,「金榜题名」式的人才选拔功能也因实现难度较大而搁置。但作为一个Vibe Coding项目,这套系统在创意、完成度和实用性上都展现出了相当水准。
总结:多Agent系统为什么需要组织架构设计
这个项目最大的价值不在于古风UI本身,而在于验证了一个重要理念:多Agent系统需要精心设计的组织架构。就像现实中的企业需要部门分工、层级管理和监督机制一样,AI Agent的协作同样需要完善的治理框架。
用三省六部制来类比多Agent管理,不仅是巧妙的包装,更是一种深层的架构隐喻——分权、制衡、监察、考核,这些古老的治理智慧在AI多智能体系统中依然适用。事实上,学术界已有研究者开始系统性地将组织理论(Organizational Theory)引入多Agent系统设计,探索层级结构、扁平结构、矩阵结构等不同组织形态对Agent协作效率的影响。斯坦福大学2023年发表的「生成式Agent」论文中,25个AI Agent在模拟小镇中自发形成了社交网络和协作关系,证明了组织结构对Agent群体行为的深刻影响。
对于正在探索AI应用开发的开发者来说,这个项目提供了清晰的参考方向:与其让多个Agent各自为战,不如设计一套完整的协作和制衡机制,让它们像一个高效组织一样协同运转。
核心要点
相关推荐

Claude Code 桌面状态胶囊:实时监控AI编程工作状态的开源小工具
一款开源桌面状态胶囊工具,可实时监控Claude Code的空闲、工作中、完成三种状态,还支持多对话管理、备忘录和音乐控制,帮助开发者在AI编程时减少窗口切换,提升工作效率。

GPT-5.2 Codex实测对比Opus 4.5:编程能力、速度与体验全面评测
通过前端生成、物理模拟、3D场景、代码重构等多维度实测,全面对比GPT-5.2 Codex与Opus 4.5的编程能力差异,分析各自优劣势并给出选型建议。
AI编程三大框架精讲:规范驱动开发的正确打开方式
AI编程三大框架精讲:规范驱动开发的正确打开方式
深入解析AI编程规范驱动开发(SDD)的三大框架:蓝图阶段、施工流程、变更记录,帮助开发者解决AI写代码失控问题,实现高效协作编程。