AI代理工程完整技术栈:实现100倍开发效率的实战指南

从聊天框到代理框架的范式转变
交付速度快100倍的开发者,不是在聊天框里输入提示词,而是在并行运行多个代理框架。这是一位95%代码由AI生成的资深开发者Mickey在David Andre播客中分享的核心观点。
他坦言:"模型还不够完美,但已经到了能带来巨大生产力提升的阶段。特别是当你理解自己所在的垂直领域时,一点脑力加AI就能帮你走很远。"
这套工作流并不依赖独特工具,完全可复制。关键在于理解模型、框架、上下文工程三者之间的关系,并建立有效的反馈循环。
框架与模型:理解AI开发的基础架构
模型不思考,框架赋予能力
一个常见误解是把模型等同于AI的全部能力。实际上,模型只是一个"下一个文本预测器"——你给它英语,它转换成Token,映射到图上预测下一个Token,再转换回英语。模型本身什么也做不了。
这里有必要理解Token的本质。Token是大语言模型处理文本的基本单位,模型不直接理解人类语言,而是将输入文本拆分为Token——可能是一个完整单词、一个子词片段,甚至一个字符。例如,"understanding"可能被拆分为"under"和"standing"两个Token。模型在训练阶段通过海量文本学习Token之间的统计关系,推理时则根据已有Token序列预测下一个最可能出现的Token。这种自回归(autoregressive)机制意味着模型本质上是一个极其复杂的条件概率计算器,而非真正的"思考者"。理解这一点对于正确使用AI至关重要——模型的输出质量高度依赖输入的质量和结构。
框架才是关键。框架是模型的包装层,包含API工具、特定系统提示词、Agents MD文件等。这些组件引导模型去执行或专注于特定任务。当你在Cursor或任何代理中看到"读取了这个文件"、"搜索了这个东西",那些就是框架赋予模型的工具调用能力。
工具调用(Tool Use/Function Calling)是现代AI代理架构的核心能力之一。传统的大语言模型只能生成文本,但通过框架层的工具调用机制,模型可以在推理过程中"决定"调用外部工具——如读取文件、执行搜索、调用API、运行代码等。技术实现上,框架会在系统提示词中定义可用工具的名称、参数格式和功能描述,模型在生成响应时如果判断需要外部信息,会输出一个结构化的工具调用请求,框架捕获该请求并执行对应操作,再将结果注入上下文供模型继续推理。这种"推理-行动-观察"的循环(即ReAct模式)是从简单聊天机器人到智能代理的关键跃迁。
模型选择策略
Mickey的模型选择非常明确:
- GPT 5.5 Extra High:主力模型,特别擅长理解大型、复杂代码库
- OPUS 4.7 Max版本:专门用于UI和前端修改
- Gemini 3:长上下文、大批量、大型代码库场景

他强调:"如果有人问我能用免费模型吗?不行。你必须用最好的模型,差别是白天和黑夜。"
Cursor为何是最佳代理框架
基准测试数据显示,Cursor在模型表现上优于Cloud Code和Codex。虽然Cursor不像竞品那样补贴用户,但它允许在模型之间灵活切换,新的代理视图也非常出色。
上下文工程:代理表现的决定性因素
上下文工程是决定AI代理表现好坏的核心环节。代理表现不佳的问题,往往不是模型能力不足,而是上下文不够充分。
Open Source工具:给代理完整的代码上下文
Open Source(由Verso开发的仓库工具)的作用是获取你正在使用的任何包或库的源代码,转储到你的代码库里。这样代理在执行任务时就有了完整上下文。
关键技巧:
- 将下载的源代码放在类似
/open_source的文件夹中 - 用
.gitignore排除这些文件,不上传到仓库 - 放一个指令文件告诉代理:"如有疑问,参考open_source文件夹里的代码"
Repo Prompt:从GitHub链接构建上下文
Repo Prompt接收GitHub链接,帮你构建结构化的提示词。它能快速将开源项目的代码结构转化为代理可理解的上下文信息。
Yak:代码库知识图谱
Yak将代码库分块成知识图谱,扫描整个代码库的树状结构,给出文件集摘要和关键依赖关系,帮助模型做出更好的决策。
上下文工程的核心原则
保持上下文高度相关,只包含需要的内容。 很多人觉得更多上下文是好事,但实际上过多的上下文就是噪声。给模型一个简短描述即可,不需要描述每个变量是什么。好的框架会对查询进行多个搜索、做排名和重排序,本质上是一个小型RAG管道。
RAG(Retrieval-Augmented Generation,检索增强生成)是一种将外部知识库与大语言模型结合的技术架构。标准RAG管道的工作流程是:首先将文档库分块并通过嵌入模型转化为向量存储在向量数据库中;当用户提出查询时,系统将查询同样转化为向量,通过相似度搜索找到最相关的文档片段;最后将这些片段作为上下文注入到模型的提示词中,让模型基于检索到的信息生成回答。文中提到的"对查询进行多个搜索、做排名和重排序"正是高级RAG管道的典型特征——通过多路召回和交叉编码器重排序来提升检索精度,确保注入模型的上下文高度相关而非冗余噪声。
Agents MD:给代理做入职培训
Agents MD是放在代码库根目录的文件,每次代理打开新对话时都会读取。Mickey在里面放:
- 关键设计模式
- 使用的语言
- 文件结构和在哪里找东西
- 架构决策
"就像给一个新人开发者入职,你是在给代理做入职。"
建议按主题拆分:一个针对后端模式,一个针对前端,一个针对特定包依赖。这样便于维护,代理从中学习的效果也完全不同。
自动化审查循环:构建质量保障闭环
CI代理Hermes
Mickey使用Hermes作为CI代理,通过GitHub Action在创建PR时自动触发审查。Hermes不会合并PR,但会设置标签和做初始审查,相当于不需要真人的PR审查助手。
CI(持续集成)是软件工程中的核心实践,指开发者频繁地将代码变更合并到主分支,每次合并都通过自动化构建和测试来验证。GitHub Action是GitHub提供的CI/CD自动化平台,允许开发者定义在特定事件(如创建PR、推送代码)触发时自动执行的工作流。传统的PR(Pull Request)审查需要团队成员人工阅读代码变更、检查逻辑错误和风格问题,这往往是开发流程中的瓶颈。将AI代理引入CI流程意味着每次代码提交都能获得即时的自动化审查反馈,大幅缩短了从提交到合并的周期,同时保持了代码质量的一致性。
他正在推动Hermes不仅做PR审查,还要检查测试是否需要更新、是否有破损引用、安全问题等。
GrapLoop:自动修复循环
GrapTile提供代码审查的信心评分(5分制)。GrapLoop的工作方式是:
- 代理读取PR和审查反馈
- 修复问题
- 等待新的审查结果
- 如果未达到5/5,继续修复
- 直到满分才停止

"我有过持续20-30分钟的情况,代理在Cursor里告诉我犯了错误,GrapTile捕获到了,修复、推送到GitHub,新审查到5/5时自动停下。"
代码结构化:服务层与持续重构
为什么结构化至关重要
代理的一个常见问题是:它不会复用已有函数,而是重新写一个新的。这导致代码库越来越大,太多活动部件,代理自己都难以调试。
解决方案是服务层——创建可反复复用的函数。服务层(Service Layer)是软件架构中的一种经典设计模式,源自领域驱动设计(DDD)思想。它在业务逻辑和表现层之间建立一个明确的边界层,将可复用的业务操作封装为独立的服务函数。例如,"创建用户"、"发送通知"、"处理支付"等操作各自封装在对应的服务模块中,任何需要该功能的地方都调用同一个函数,而非重复实现。这种模式对AI代理开发尤为重要,因为当前的大语言模型在生成代码时倾向于"就地解决问题"——即在当前上下文中重新实现功能,而非搜索并复用已有实现。服务层通过提供清晰的函数目录,降低了代理产生重复代码的概率。
工作流程:
- 先用GPT 5.5 + Cursor构建功能
- 本地测试通过
- 运行结构化技能,找出重复代码并重构
"当代码结构更干净时,代理更容易在新会话中继续工作。如果人类都觉得难,代理大概率也觉得难。"
技术栈选择的逻辑
-
前端用Svelte而非React:Svelte贴近HTML和TypeScript核心原则,代理更擅长处理。React是目前前端开发中市场份额最大的UI框架,采用虚拟DOM和JSX语法,通过声明式组件模型构建用户界面。Svelte则采用了截然不同的编译时方案——它在构建阶段将组件编译为高效的原生JavaScript,运行时不需要虚拟DOM的diff算法。Svelte的语法更接近原生HTML、CSS和JavaScript,组件文件结构直观,状态管理通过简单的变量赋值即可触发更新。这种"所见即所得"的特性使得AI代理更容易理解和生成Svelte代码,因为模型不需要处理React中的hooks规则、闭包陷阱、useEffect依赖数组等容易出错的抽象概念。对于AI辅助开发而言,框架的认知复杂度直接影响代理的代码生成质量。
-
后端用Convex:一切都是代码,代理对后端有完整上下文,不需要截Dashboard的图。Convex是一个全栈后端平台,其核心设计理念是"一切皆代码"(everything as code)。与传统后端服务不同,Convex将数据库schema定义、服务器函数、权限规则、定时任务等全部用TypeScript代码表达,而非通过Web控制台或配置文件管理。这意味着代理可以通过阅读代码文件完整理解后端的数据模型、API端点和业务逻辑,无需依赖截图或文档描述。Convex还提供实时数据同步、ACID事务和自动缓存等特性。这种"代码即基础设施"的理念与AI代理的工作方式高度契合——代理擅长处理结构化的代码文本,而非解析非结构化的文档或GUI截图。
-
代码就是最好的上下文:文档是最差的上下文来源
投资与心态:代理工程的隐性门槛

金钱投入是必要的
Mickey直言:"这将是金钱的游戏。我们现在被补贴着,但总有一天补贴会结束。" 200美元/月的订阅看似昂贵,但他用AI审查合同拿到了原定报酬的三倍,用Cloud Code两小时完成了本需花费五六千美元的会计工作。
黑客松思维
每个工程师都应该参加黑客松,原因是:
- 强迫你在48小时内交付
- 训练优先级排序能力
- 在低风险项目上积累AI使用直觉
发布优先于完美
"竞争者会快速行动,消耗更多token,应用可能没你的好,但他们会赢。" 旧金山的创业者有一种近乎妄想的信念——产品勉强能用就发布、造势、融资,然后迭代改进。过度思考一个简单功能而不发布,是最大的陷阱。
安全意识:代理时代的必修课
在大量使用AI代理的同时,安全防护不能忽视:
- 二次验证是必须的,千万别用短信验证
- 告诉代理不要安装发布时间少于14天的包
- 家里设置暗号防范AI声音克隆诈骗
- 用密码管理器,密钥分给信任的家人保管
- 发现安全漏洞时,把信息粘贴到代理让它分析是否被暴露
代理工程的完整公式
将上述所有环节串联起来,就是一套完整的AI代理工程工作流:
- Cursor做框架 + 最好的模型(GPT 5.5 / OPUS 4.7)
- Open Source下载包/库源代码给代理完整上下文
- 每个功能之后做结构化,保持代码干净
- 创建PR后跑GrapLoop,自动修复到满分
- 给代理刚好够用的工具和上下文,让它在循环中工作
代理工程的本质不是让代理替你思考,而是给它足够的信息、护栏和反馈循环。人类审批、人类思考仍然非常重要。正如Mickey所说:"关心很重要,深思熟虑很重要,花时间很重要。"
核心要点
相关推荐

AI零代码复刻《杀戮尖塔》:从架构到美术的完整实践
B站UP主使用Godot引擎和AI工具链,全程零代码复刻经典卡牌肉鸽游戏《杀戮尖塔》。详解架构文档先行、AI迭代编程、美术素材批量生成的完整工作流,项目已开源。

Claude一句话生成10款网页游戏:零代码AI编程实战
用Claude Code一句自然语言提示词生成2048、五子棋、俄罗斯方块等10款网页游戏,全程零代码开发并部署上线。详解AI编程实战流程、工具选择与核心认知转变。

克隆成功App月入3.5万美元:独立开发者验证式创业方法论
前验光师零基础自学编程,通过克隆已验证的成功应用,运营三款产品月入3.5万美元。详解他的四步筛选法、数据驱动验证流程和递进式获客策略。