AI代理工程完整技术栈：实现100倍开发效率的实战指南

从聊天框到代理框架的范式转变

交付速度快100倍的开发者，不是在聊天框里输入提示词，而是在并行运行多个代理框架。这是一位95%代码由AI生成的资深开发者Mickey在David Andre播客中分享的核心观点。

他坦言："模型还不够完美，但已经到了能带来巨大生产力提升的阶段。特别是当你理解自己所在的垂直领域时，一点脑力加AI就能帮你走很远。"

这套工作流并不依赖独特工具，完全可复制。关键在于理解模型、框架、上下文工程三者之间的关系，并建立有效的反馈循环。

框架与模型：理解AI开发的基础架构

模型不思考，框架赋予能力

一个常见误解是把模型等同于AI的全部能力。实际上，模型只是一个"下一个文本预测器"——你给它英语，它转换成Token，映射到图上预测下一个Token，再转换回英语。模型本身什么也做不了。

这里有必要理解Token的本质。Token是大语言模型处理文本的基本单位，模型不直接理解人类语言，而是将输入文本拆分为Token——可能是一个完整单词、一个子词片段，甚至一个字符。例如，"understanding"可能被拆分为"under"和"standing"两个Token。模型在训练阶段通过海量文本学习Token之间的统计关系，推理时则根据已有Token序列预测下一个最可能出现的Token。这种自回归（autoregressive）机制意味着模型本质上是一个极其复杂的条件概率计算器，而非真正的"思考者"。理解这一点对于正确使用AI至关重要——模型的输出质量高度依赖输入的质量和结构。

框架才是关键。框架是模型的包装层，包含API工具、特定系统提示词、Agents MD文件等。这些组件引导模型去执行或专注于特定任务。当你在Cursor或任何代理中看到"读取了这个文件"、"搜索了这个东西"，那些就是框架赋予模型的工具调用能力。

工具调用（Tool Use/Function Calling）是现代AI代理架构的核心能力之一。传统的大语言模型只能生成文本，但通过框架层的工具调用机制，模型可以在推理过程中"决定"调用外部工具——如读取文件、执行搜索、调用API、运行代码等。技术实现上，框架会在系统提示词中定义可用工具的名称、参数格式和功能描述，模型在生成响应时如果判断需要外部信息，会输出一个结构化的工具调用请求，框架捕获该请求并执行对应操作，再将结果注入上下文供模型继续推理。这种"推理-行动-观察"的循环（即ReAct模式）是从简单聊天机器人到智能代理的关键跃迁。

模型选择策略

Mickey的模型选择非常明确：

GPT 5.5 Extra High：主力模型，特别擅长理解大型、复杂代码库
OPUS 4.7 Max版本：专门用于UI和前端修改
Gemini 3：长上下文、大批量、大型代码库场景

Agents MD是它自己的东西

他强调："如果有人问我能用免费模型吗？不行。你必须用最好的模型，差别是白天和黑夜。"

Cursor为何是最佳代理框架

基准测试数据显示，Cursor在模型表现上优于Cloud Code和Codex。虽然Cursor不像竞品那样补贴用户，但它允许在模型之间灵活切换，新的代理视图也非常出色。

上下文工程：代理表现的决定性因素

上下文工程是决定AI代理表现好坏的核心环节。代理表现不佳的问题，往往不是模型能力不足，而是上下文不够充分。

Open Source工具：给代理完整的代码上下文

Open Source（由Verso开发的仓库工具）的作用是获取你正在使用的任何包或库的源代码，转储到你的代码库里。这样代理在执行任务时就有了完整上下文。

关键技巧：

将下载的源代码放在类似/open_source的文件夹中
用.gitignore排除这些文件，不上传到仓库
放一个指令文件告诉代理："如有疑问，参考open_source文件夹里的代码"

Repo Prompt：从GitHub链接构建上下文

Repo Prompt接收GitHub链接，帮你构建结构化的提示词。它能快速将开源项目的代码结构转化为代理可理解的上下文信息。

Yak：代码库知识图谱

Yak将代码库分块成知识图谱，扫描整个代码库的树状结构，给出文件集摘要和关键依赖关系，帮助模型做出更好的决策。

上下文工程的核心原则

保持上下文高度相关，只包含需要的内容。 很多人觉得更多上下文是好事，但实际上过多的上下文就是噪声。给模型一个简短描述即可，不需要描述每个变量是什么。好的框架会对查询进行多个搜索、做排名和重排序，本质上是一个小型RAG管道。

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将外部知识库与大语言模型结合的技术架构。标准RAG管道的工作流程是：首先将文档库分块并通过嵌入模型转化为向量存储在向量数据库中；当用户提出查询时，系统将查询同样转化为向量，通过相似度搜索找到最相关的文档片段；最后将这些片段作为上下文注入到模型的提示词中，让模型基于检索到的信息生成回答。文中提到的"对查询进行多个搜索、做排名和重排序"正是高级RAG管道的典型特征——通过多路召回和交叉编码器重排序来提升检索精度，确保注入模型的上下文高度相关而非冗余噪声。

Agents MD：给代理做入职培训

Agents MD是放在代码库根目录的文件，每次代理打开新对话时都会读取。Mickey在里面放：

关键设计模式
使用的语言
文件结构和在哪里找东西
架构决策

"就像给一个新人开发者入职，你是在给代理做入职。"

建议按主题拆分：一个针对后端模式，一个针对前端，一个针对特定包依赖。这样便于维护，代理从中学习的效果也完全不同。

自动化审查循环：构建质量保障闭环

CI代理Hermes

Mickey使用Hermes作为CI代理，通过GitHub Action在创建PR时自动触发审查。Hermes不会合并PR，但会设置标签和做初始审查，相当于不需要真人的PR审查助手。

CI（持续集成）是软件工程中的核心实践，指开发者频繁地将代码变更合并到主分支，每次合并都通过自动化构建和测试来验证。GitHub Action是GitHub提供的CI/CD自动化平台，允许开发者定义在特定事件（如创建PR、推送代码）触发时自动执行的工作流。传统的PR（Pull Request）审查需要团队成员人工阅读代码变更、检查逻辑错误和风格问题，这往往是开发流程中的瓶颈。将AI代理引入CI流程意味着每次代码提交都能获得即时的自动化审查反馈，大幅缩短了从提交到合并的周期，同时保持了代码质量的一致性。

他正在推动Hermes不仅做PR审查，还要检查测试是否需要更新、是否有破损引用、安全问题等。

GrapLoop：自动修复循环

GrapTile提供代码审查的信心评分（5分制）。GrapLoop的工作方式是：

代理读取PR和审查反馈
修复问题
等待新的审查结果
如果未达到5/5，继续修复
直到满分才停止

干净的代码结构

"我有过持续20-30分钟的情况，代理在Cursor里告诉我犯了错误，GrapTile捕获到了，修复、推送到GitHub，新审查到5/5时自动停下。"

代码结构化：服务层与持续重构

为什么结构化至关重要

代理的一个常见问题是：它不会复用已有函数，而是重新写一个新的。这导致代码库越来越大，太多活动部件，代理自己都难以调试。

解决方案是服务层——创建可反复复用的函数。服务层（Service Layer）是软件架构中的一种经典设计模式，源自领域驱动设计（DDD）思想。它在业务逻辑和表现层之间建立一个明确的边界层，将可复用的业务操作封装为独立的服务函数。例如，"创建用户"、"发送通知"、"处理支付"等操作各自封装在对应的服务模块中，任何需要该功能的地方都调用同一个函数，而非重复实现。这种模式对AI代理开发尤为重要，因为当前的大语言模型在生成代码时倾向于"就地解决问题"——即在当前上下文中重新实现功能，而非搜索并复用已有实现。服务层通过提供清晰的函数目录，降低了代理产生重复代码的概率。

工作流程：

先用GPT 5.5 + Cursor构建功能
本地测试通过
运行结构化技能，找出重复代码并重构

"当代码结构更干净时，代理更容易在新会话中继续工作。如果人类都觉得难，代理大概率也觉得难。"

技术栈选择的逻辑

前端用Svelte而非React：Svelte贴近HTML和TypeScript核心原则，代理更擅长处理。React是目前前端开发中市场份额最大的UI框架，采用虚拟DOM和JSX语法，通过声明式组件模型构建用户界面。Svelte则采用了截然不同的编译时方案——它在构建阶段将组件编译为高效的原生JavaScript，运行时不需要虚拟DOM的diff算法。Svelte的语法更接近原生HTML、CSS和JavaScript，组件文件结构直观，状态管理通过简单的变量赋值即可触发更新。这种"所见即所得"的特性使得AI代理更容易理解和生成Svelte代码，因为模型不需要处理React中的hooks规则、闭包陷阱、useEffect依赖数组等容易出错的抽象概念。对于AI辅助开发而言，框架的认知复杂度直接影响代理的代码生成质量。
后端用Convex：一切都是代码，代理对后端有完整上下文，不需要截Dashboard的图。Convex是一个全栈后端平台，其核心设计理念是"一切皆代码"（everything as code）。与传统后端服务不同，Convex将数据库schema定义、服务器函数、权限规则、定时任务等全部用TypeScript代码表达，而非通过Web控制台或配置文件管理。这意味着代理可以通过阅读代码文件完整理解后端的数据模型、API端点和业务逻辑，无需依赖截图或文档描述。Convex还提供实时数据同步、ACID事务和自动缓存等特性。这种"代码即基础设施"的理念与AI代理的工作方式高度契合——代理擅长处理结构化的代码文本，而非解析非结构化的文档或GUI截图。
代码就是最好的上下文：文档是最差的上下文来源

投资与心态：代理工程的隐性门槛

不交那200美元

金钱投入是必要的

Mickey直言："这将是金钱的游戏。我们现在被补贴着，但总有一天补贴会结束。" 200美元/月的订阅看似昂贵，但他用AI审查合同拿到了原定报酬的三倍，用Cloud Code两小时完成了本需花费五六千美元的会计工作。

黑客松思维

每个工程师都应该参加黑客松，原因是：

强迫你在48小时内交付
训练优先级排序能力
在低风险项目上积累AI使用直觉

发布优先于完美

"竞争者会快速行动，消耗更多token，应用可能没你的好，但他们会赢。" 旧金山的创业者有一种近乎妄想的信念——产品勉强能用就发布、造势、融资，然后迭代改进。过度思考一个简单功能而不发布，是最大的陷阱。

安全意识：代理时代的必修课

在大量使用AI代理的同时，安全防护不能忽视：

二次验证是必须的，千万别用短信验证
告诉代理不要安装发布时间少于14天的包
家里设置暗号防范AI声音克隆诈骗
用密码管理器，密钥分给信任的家人保管
发现安全漏洞时，把信息粘贴到代理让它分析是否被暴露

代理工程的完整公式

将上述所有环节串联起来，就是一套完整的AI代理工程工作流：

Cursor做框架 + 最好的模型（GPT 5.5 / OPUS 4.7）
Open Source下载包/库源代码给代理完整上下文
每个功能之后做结构化，保持代码干净
创建PR后跑GrapLoop，自动修复到满分
给代理刚好够用的工具和上下文，让它在循环中工作

代理工程的本质不是让代理替你思考，而是给它足够的信息、护栏和反馈循环。人类审批、人类思考仍然非常重要。正如Mickey所说："关心很重要，深思熟虑很重要，花时间很重要。"