Matt Pocock的AI编程工作流：从构思到交付的完整方法论

Matt Pocock是一位知名的TypeScript教育者，近期他将重心转向AI辅助编程领域。在一场长达两小时的实战演示中，他系统性地展示了如何高效利用AI进行软件开发——从最初的需求构思到最终的代码交付。本文梳理了他分享的核心方法论和实践技巧。

LLM的两个关键特性

Smart Zone与Dumb Zone

Matt首先指出了LLM的一个核心特性：它们存在"智能区"（Smart Zone）和"愚钝区"（Dumb Zone）。当你开始一个新对话时，LLM处于最佳状态。但随着上下文窗口中token的累积，模型的表现会逐渐下降。

他认为，即使模型声称支持100万token的上下文窗口，真正的Smart Zone大约在10万token以内。超过这个范围后，模型在做复杂决策时会变得越来越不可靠。

这一现象在学术界被称为"Lost in the Middle"问题。2023年斯坦福大学的研究表明，当关键信息位于长上下文的中间位置时，模型的检索准确率会显著下降。这与Transformer架构中注意力机制的工作方式有关——自注意力需要计算所有token之间的关系，随着序列长度增加，计算复杂度呈二次方增长，模型在分配注意力权重时会出现"稀释效应"。虽然各厂商通过稀疏注意力、滑动窗口等技术缓解了这一问题，但在实际应用中，模型在长上下文末端的推理质量仍然不如短上下文场景。

这意味着我们需要将任务设计得足够小，让AI始终在Smart Zone内工作。

Memento式记忆

LLM的第二个特性是它们像电影《记忆碎片》中的主角一样——每次清除上下文后，它们会回到起点，忘记之前的一切。

AI工具实战演示

这引出了"压缩"（Compaction）的概念：当一个会话积累了太多内容时，你可以将其压缩为一份简洁的摘要，然后开始新的会话。Compaction本质上是一种信息论中的有损压缩策略——在AI编程工具中，这通常表现为让模型对当前会话生成一份结构化摘要，保留关键决策、代码变更和未完成事项，然后丢弃原始的冗长对话历史。Claude Code、Cursor等工具已内置了类似机制。这种做法的理论基础是：对话中大量内容是探索性的、重复的或已被后续决策覆盖的，真正需要保留的"有效信息密度"远低于原始token数量。

Matt建议关注每个会话的token使用量，推荐使用AI Hero等工具来监控这一指标。

完整工作流的四个阶段

第一阶段：Grill Me——通过问答建立共识

Matt开发了一个名为"Grill Me"的自定义技能（Custom Skill），其核心理念来自Frederick P. Brooks的《设计之设计》中提到的"设计概念"——团队成员之间需要建立共享的心智模型。

Frederick P. Brooks是计算机科学史上的重要人物，因领导IBM System/360项目和撰写《人月神话》而闻名。他在2010年出版的《设计之设计》（The Design of Design）中提出，优秀设计的核心在于团队成员共享一个"概念完整性"（Conceptual Integrity）——即所有参与者对系统应该是什么样子持有一致的心智模型。Brooks认为，设计失败的根本原因往往不是技术能力不足，而是团队成员对问题和解决方案的理解存在分歧。Matt将这一理念延伸到人与AI的协作中：在让AI执行任何任务之前，必须先确保人和AI对目标有相同的理解。

Grill Me的工作方式是让AI逐一向你提问，深入了解你的需求和约束。它不是让AI直接生成计划，而是通过问答建立双方的共识。Matt强调：

"我不需要一个资产，不需要一个计划，我需要和AI处于同一频率上。"

这个过程可能涉及20到100个问题，看似耗时，但它确保了后续执行的准确性。这是一个"人必须在键盘前"的环节，无法自动化。

第二阶段：生成PRD产品需求文档

在Grill Me会话建立共识后，Matt使用另一个技能将对话内容转化为产品需求文档（PRD）。PRD包含：

问题陈述和解决方案
用户故事（User Stories）
实施决策
测试决策
模块划分

关键点在于：Matt不会仔细阅读生成的PRD。他的逻辑是——既然他已经通过Grill Me与LLM建立了共识，而LLM擅长将共识转化为文字，那么他只需要信任这个过程。

工作流中的Tracer Bullet概念

第三阶段：Kanban Board与Tracer Bullets垂直切片

PRD生成后，Matt将其分解为Kanban Board上的任务卡片。这里他引入了一个关键概念——Tracer Bullets（追踪弹），源自Andrew Hunt和David Thomas的经典著作《程序员修炼之道》（The Pragmatic Programmer）。

在军事中，追踪弹是一种发光弹药，射手可以实时看到弹道轨迹并调整瞄准方向。在软件工程中，这个隐喻指的是快速构建一个贯穿系统所有层级的最小可工作路径——从用户界面到数据库的完整链路。与原型（Prototype）不同，Tracer Bullet代码是真实的、可保留的生产代码，只是功能最小化。这种方法的核心价值在于尽早暴露集成风险和架构假设中的错误。

传统AI倾向于水平编码：先完成所有数据库工作，再完成所有API工作，最后完成前端。但这种方式的问题是——直到最后一层完成，你都无法验证整个系统是否工作。

Tracer Bullet的垂直切片方法

正确的做法是垂直切片：每个任务应该贯穿所有层级（数据库→API→前端），这样在第一个任务完成时就能获得端到端的反馈。

第四阶段：AFK自动执行与QA审查

Matt将实际编码称为"AFK"（Away From Keyboard）任务——这是唯一可以让AI独立完成的环节。他构建了一个名为"Ralph"的循环脚本，让Claude Code在Docker沙箱中自动执行任务。

执行流程：

从Kanban Board获取下一个任务
使用TDD（测试驱动开发）方式编码
运行反馈循环（类型检查、测试）
生成commit

测试驱动开发（TDD）由Kent Beck在2003年系统化提出，其核心循环是"红-绿-重构"：先写一个失败的测试，再写最少的代码让测试通过，最后重构代码。在AI编程场景中，TDD获得了新的战略意义——测试充当了AI代码生成的"验证器"和"约束条件"。当AI在Docker沙箱中自动编码时，预先编写的测试套件提供了客观的、可自动化的质量反馈信号，使得AI能够自主判断代码是否满足需求，而无需人类实时介入。这本质上将软件质量从主观判断转化为可计算的布尔值。

完成后，人类进行QA审查——这是将个人判断注入系统的关键时刻。

代码架构：Deep Modules为何对AI编程至关重要

模块化架构对AI编码的影响

Matt引用了John Ousterhout《软件设计哲学》（A Philosophy of Software Design，2018年出版）中的概念，强调Deep Modules（深模块）对AI编程的重要性。

Ousterhout认为模块的"深度"等于其功能复杂度与接口复杂度的比值。一个深模块对外暴露简单的接口，但内部封装了大量复杂逻辑——Unix的文件I/O系统就是经典案例，仅通过open/read/write/close几个调用就封装了文件系统、缓存、权限管理等复杂实现。相反，浅模块（如Java中常见的getter/setter类）接口复杂度几乎等于实现复杂度，增加了系统的认知负担而没有提供真正的抽象价值。Ousterhout的这一观点与当时流行的"小类小方法"教条形成了鲜明对比。

具体到AI编程场景：

浅模块（Shallow Modules）：大量小文件，复杂的依赖关系，难以测试，AI表现差
深模块（Deep Modules）：少量大模块，简单的接口，丰富的内部实现，易于测试

深模块架构让AI能够：

在单个模块内理解完整上下文
编写有意义的测试
获得更好的反馈循环

Matt开发了一个"Improve Codebase Architecture"技能，可以扫描现有代码库并识别可以合并为深模块的机会。

代码审查与团队协作策略

Matt坦承，随着AI生成更多代码，代码审查的工作量确实在增加。他的应对策略是：

使用Opus模型进行代码审查（需要更高智能）
使用Sonnet模型进行代码实现（性价比更高）
在审查者的prompt中注入编码标准
通过"推送"（Push）而非"拉取"（Pull）的方式传递标准

Anthropic的Claude模型家族按能力分为不同层级：Opus是最强大的推理模型，擅长复杂分析和判断；Sonnet是中等能力模型，在速度和质量之间取得平衡；Haiku则是最快速轻量的选项。Matt将代码审查分配给Opus、将代码实现分配给Sonnet的策略，反映了一个重要的工程经济学原则：不同任务对智能水平的需求不同。代码实现是相对确定性的任务（有测试约束），而代码审查需要理解设计意图、识别潜在问题、评估可维护性——这些都是更高阶的认知活动。这种分层使用策略可以在控制成本的同时最大化整体输出质量。

对于团队协作，他强调从构思到PRD的整个过程都应该是团队活动，只有执行阶段可以委托给AI。

核心理念：经典软件工程实践在AI时代更加重要

Matt反复强调一个观点：AI不是全新的范式，好的软件工程实践在AI时代依然有效。无论是TDD、垂直切片、模块化设计还是增量交付，这些经典方法论在AI辅助编程中反而变得更加重要。

他推荐的经典书籍包括：《程序员修炼之道》、《重构》、《软件设计哲学》和《设计之设计》。这些经过时间验证的软件工程智慧，正是让AI编程真正高效的关键所在。

核心要点

LLM存在Smart Zone（约10万token内）和Dumb Zone，任务设计需保持在智能区内工作
Grill Me技能通过逐一提问建立人与AI的共识，是高质量输出的前提
采用Tracer Bullets垂直切片方法分解任务，确保每个迭代都能获得端到端反馈
Deep Modules架构（少量大模块+简单接口）比Shallow Modules更适合AI编程和测试
完整工作流为：Grill Me建立共识→生成PRD→Kanban分解任务→AFK自动执行→人工QA审查