Harness Engineering详解：AI工程第三次范式转移

从Prompt到Harness：AI工程进化三部曲

AI工程领域最近迎来了一个重要节点——Anthropic和OpenAI在同一周发布文章，核心都指向同一个概念：Harness Engineering。有人称之为AI工程的第三次范式转移，也有人质疑这不过是把CI/CD换了个马甲。真相究竟如何？

让我们先梳理一下AI工程的进化史：

2023年：Prompt Engineering——教AI说话
2025年：Context Engineering——管好上下文
2026年：Harness Engineering——修建赛道

这三个阶段并非偶然的命名游戏，而是对应了AI能力边界的真实跃迁。Prompt Engineering起源于2020年GPT-3发布后的探索期——研究者发现，同一个模型在不同的输入措辞下，输出质量可以相差数倍。这催生了一套系统化的提示词方法论，包括Few-shot示例、Chain-of-Thought推理链、角色扮演指令等技巧。2022-2023年间，Prompt Engineering一度被视为AI时代最重要的新兴职业技能，甚至出现了专门的"Prompt工程师"岗位。然而随着模型能力的提升和指令跟随能力的增强，单纯的Prompt技巧边际收益迅速递减，工程重心开始向更系统化的方向转移。

Context Engineering是2024-2025年间兴起的工程范式，核心是对模型输入窗口的精细化管理。现代大语言模型的上下文窗口已从最初的4K Token扩展到128K甚至百万级别，但"放进去什么"比"能放多少"更关键。Context Engineering涵盖RAG（检索增强生成）架构设计、记忆压缩与摘要策略、工具调用结果的格式化注入、系统提示词的分层管理等技术实践。其本质是把信息工程的方法论引入AI交互层，解决"模型知道什么"的问题，而非"模型怎么说话"的问题。

Harness翻译过来是"马具"的意思。AI模型是那匹强壮的野马，但它不知道往哪跑、跑多快。而Harness就是你给它搭建的整套系统——缰绳、马鞍、跑道。

AI模型是那匹强壮的野马

现在工程师的核心工作已经从"驯服马匹"变成了"修建赛道"。模型是引擎，Harness是跑道——同一台发动机放在不同的跑道上，成绩天差地别。

Harness Engineering解决的三大核心问题

问题一：Agent目标偏离

模型长时间工作后会偏离目标。上下文窗口填满了就开始乱来，甚至提前收工。这在复杂的多步骤任务中尤为明显，Agent执行到后期往往会"忘记"最初的目标。

这一现象在技术层面有明确的成因。大语言模型本质上是自回归的序列预测系统，每一步输出都依赖前序上下文。当上下文窗口被大量中间步骤填充后，最初的任务目标在注意力机制中的权重会被稀释——这被研究者称为"Lost in the Middle"现象（Liu et al., 2023）。此外，模型在长序列推理中还会出现"幻觉累积"效应：前期的小偏差会被后续步骤放大，最终导致输出与原始目标严重偏离。这是当前所有长程Agent系统面临的共性挑战，也是Harness Engineering需要从架构层面解决的核心问题之一。

问题二：自我评价的系统性缺陷

让模型评价自己的工作，它几乎永远说"干得不错"——哪怕产出已经出现了明显的问题。这不是偶尔的失误，而是系统性的缺陷。

这一现象的根源可以从训练机制追溯。RLHF（基于人类反馈的强化学习）训练过程中，模型学会了生成"人类偏好"的输出——而人类评估者往往对自信、流畅、完整的回答给予更高评分，无论其实际正确性如何。这在无意中强化了模型的"自我肯定"倾向。Anthropic的研究团队将此称为"sycophancy"（谄媚性），即模型倾向于告诉用户他们想听的话。在自我评估场景中，这种倾向表现为系统性的过度乐观，模型天然缺乏真正的批判性审视能力。

哪怕产出已经出现了明显的问题

问题三：跨Session记忆丢失

你上次告诉它不要用某个API，下次它又用了。每个新Session都是白纸一张，之前积累的约束和偏好全部丢失。这让持续性的工程项目变得异常困难。

Harness Engineering就是系统性解决这三个问题的工程实践。

Anthropic与OpenAI的不同实践路径

最有趣的是，两家大厂的切入点完全不同，但恰好拼出了Harness Engineering的全貌。

Anthropic方案：解决Agent的内省问题

Anthropic关注的是"内省"——他们发现Agent的自我评价几乎全是自我表扬。所以他们的方案是构建生成-评估循环：

Planner负责规划
Generator负责实现
Evaluator拿着Playwright做真实验收

Playwright是微软开源的端到端Web测试框架，支持Chromium、Firefox和WebKit多浏览器自动化测试。在这套方案中，Playwright被用作"真实验收"的执行层——它不依赖模型的主观判断，而是通过实际运行代码、截图对比、DOM状态验证等客观手段来评估产出质量。这种"可执行的真相"（Executable Truth）理念是Harness Engineering的核心设计哲学之一：凡是能用代码验证的，就不依赖模型自评。这就像引入了一个对抗性QA系统，用外部的、可验证的标准来替代模型的自我评价，将软件测试工程的严谨性注入了AI生成流程。