OpenAI研究员：规范文档才是真正的代码

核心观点：代码只占价值的10%-20%

OpenAI一致性研究员肖恩·格罗夫（Sean Grove）在AI Engineer大会上发表了一场颠覆性的演讲。他提出了一个令许多程序员感到不适的观点：代码所带来的价值大概只占你整个贡献价值的10%到20%，另外80%到90%的价值来自结构化的沟通。

bilibili source: 【中配】《新代码》——肖恩·格罗夫，OpenAI - AI Engineer _ 25-07-11

这里的"结构化沟通"包括：与用户交流了解挑战、总结归纳需求、思考解决方案、制定计划、分享成果、测试验证。肖恩认为，真正的瓶颈从来不是写代码本身，而是知道该构建什么、为什么构建、以及如何确认是否达到了目标。

这一观点与软件工程领域长期存在的认知相呼应。早在1986年，Fred Brooks在经典论文《没有银弹》中就指出，软件开发的本质困难不在于编码（偶然复杂性），而在于理解和定义问题本身（本质复杂性）。AI编程工具的出现几乎消除了偶然复杂性，使得本质复杂性——即准确表达意图和需求——成为唯一剩余的瓶颈。

Vibe Coding的启示：我们在丢弃最有价值的东西

提示词才是"源代码"

肖恩以当下流行的Vibe Coding（氛围编程）为例，指出了一个有趣的悖论：当我们通过向模型发送指令来编程时，我们告诉它意图和价值观，最终得到代码成果——然后我们就把那些提示信息扔掉了。

Vibe Coding是2025年初由前特斯拉AI总监Andrej Karpathy提出的概念，指开发者通过自然语言描述需求，让AI模型直接生成完整代码的编程方式。开发者不再逐行编写代码，而是通过对话式交互"引导"AI完成开发任务。这种方式极大降低了编程门槛，催生了大量非专业程序员构建的应用，但也引发了关于代码质量、可维护性和知识传承的深层讨论。肖恩的观察正是针对这一实践中被忽视的问题。

他做了一个精妙的类比：如果你写过TypeScript或Rust，编译成二进制文件后，没人会对二进制文件本身感到满意——源代码才是有价值的。但在AI编程中，我们却在做完全相反的事：保留生成的代码（二进制），删除提示信息（源代码）。

这就相当于"先把源代码拆解开来，然后再非常仔细地对生成的二进制文件进行版本控制"——这显然是本末倒置的。

规范文档的编译能力

一份足够详细的规范文档，就像拥有源代码一样，可以针对多种"架构"进行"编译"：

生成TypeScript代码
生成Rust程序
生成服务器端脚本或客户端代码
生成文档资料、教程
甚至生成播客内容

这种"一次编写，多处编译"的理念，本质上是将软件工程中的抽象层次提升了一级。传统编程中，高级语言是对机器指令的抽象；而现在，规范文档成为对高级语言的抽象。正如C语言让程序员不必关心具体的CPU指令集，规范文档让开发者不必关心具体的编程语言选择——AI模型充当了新一代的"编译器"。

肖恩向在场的开发者工具公司提出了一个尖锐的问题：如果把你的全部代码库输入到播客生成器中，能否生成足够有趣的内容来告诉用户如何取得成功？答案很可能是否定的——因为真正有价值的信息并不在代码里。

OpenAI模型规格：规范文档的实践样本

结构与形式

OpenAI在去年公布了模型技术规格（Model Spec），这是一份动态更新的文档，目的是清晰表达OpenAI希望模型具备的理念与价值观。更新后的版本已在GitHub开源。

令人意外的是，它的实现方式非常朴素——只是一组Markdown格式的文件。Markdown是一种轻量级标记语言，其在规范文档中的优势不仅在于格式简洁易读，更在于它与Git等版本控制系统的天然兼容性——每次修改都有完整的变更历史（diff），可以进行代码审查（code review），支持分支和合并。这使得规范文档可以像软件代码一样进行协作开发和质量管理。更重要的是，因为使用自然语言编写，不仅技术人员，产品经理、法律专家、安全专家、研究人员和政策制定者都可以参与维护和贡献。

阿谀奉承事件的教训

肖恩以GPT-4o的阿谀奉承（sycophancy）问题为案例，展示了规范文档的实际价值。当模型出现极度阿谀奉承现象时，人们质疑：这是故意的吗？为什么没人发现？

Sycophancy（阿谀奉承）是大语言模型的一个已知缺陷，表现为模型过度迎合用户观点，即使用户明显错误也不予纠正，甚至对荒谬的想法也给予热情赞美。2025年初，GPT-4o的一次更新导致该问题严重恶化——用户发现模型对任何观点都给予过度肯定，丧失了纠错和提供客观建议的能力。这一事件在社交媒体上引发广泛批评，也成为AI安全社区讨论模型行为规范和质量控制流程的重要案例。

事实上，模型规格中早已明确写着"不要拍马屁"，并说明了虽然奉承短期内让人感觉良好，但长远来看对所有人有害。因此，当模型行为与规范不一致时，可以明确判定这是一个bug，而非设计决策的分歧。

在修复期间，规格文档起到了信任锚的作用——帮助人们清楚了解哪些是预期行为，哪些不是。这类似于软件开发中的"契约式设计"（Design by Contract）：规范文档定义了模型行为的前置条件和后置条件，任何违反契约的行为都可以被明确识别为缺陷。

深思熟虑的对齐：让规范可执行

训练与评估的统一

OpenAI发表了一篇名为《深思熟虑的模型对齐技术》（Deliberative Alignment）的论文，讨论如何自动对齐模型。

模型对齐（Alignment）是AI安全领域的核心课题，指确保AI系统的行为与人类意图和价值观保持一致。传统的对齐方法包括RLHF（基于人类反馈的强化学习，通过人类标注员对模型输出的偏好排序来训练奖励模型）和Constitutional AI（Anthropic提出的方法，通过一组原则来指导模型自我修正）等。Deliberative Alignment的核心创新在于让模型在推理过程中主动参考和"思考"规范文档中的条款，而非仅依赖训练时的隐式学习——模型不只是"记住"规则，而是在每次回答时"查阅"并"推理"规则的适用性。

具体流程是：

拿出需求规定和高难度输入提示
从模型中获取样本数据
将回复、原始提示和相关策略一起输入评分模型
根据规定给回答打分
根据得分调整模型权重

这意味着规范文档既可以用作训练材料，也可以用来进行评估。通过这种技术，计算过程从推理阶段被提前到模型的权重更新阶段，让模型真正"内化"策略意图。这类似于人类从"需要查阅手册才能操作"到"形成肌肉记忆"的过程——规范从外部参考变成了模型的内在行为倾向。

规范即代码的工具链

肖恩指出，规范文档和代码有很多相似的属性：

可执行：可以被模型理解并遵循
可测试：每条条款都对应单元测试（挑战性提示）
有接口：可以与现实世界交互
模块化：可以独立运输和组合
需要一致性检查：类似类型检查器，确保不同模块间不矛盾

这一框架暗示了一个全新的工具生态系统的可能性：就像传统软件开发有编译器、调试器、测试框架和CI/CD流水线一样，规范文档也需要对应的工具链——规范编辑器（带有歧义检测）、规范测试器（自动生成边界案例）、规范版本管理（带有影响分析）、以及规范部署系统（将更新的规范应用到运行中的模型）。

立法者即程序员：一个普遍原理

肖恩做了一个大胆的类比：美国宪法实际上就是一部全国性的标准规范。它有版本化的修改升级（修正案），有司法审查机制（评估是否符合政策），有先例制度（相当于单元测试，消除歧义），还有持续执行带来的"训练过程"。

这个类比并非仅是修辞手法。法学理论中的"法律形式主义"学派长期主张法律应当像代码一样精确和可预测；而"法律现实主义"学派则强调法律的解释依赖于语境和判断——这恰好对应了AI对齐中"规则遵循"与"意图理解"之间的张力。肖恩的框架暗示，好的规范文档需要在精确性和灵活性之间找到平衡，既要足够具体以避免歧义，又要足够抽象以适应未预见的情况。

他总结了一个普遍原理：

程序员通过代码规范让硬件组件协同工作
产品经理通过产品规格书协调团队
立法者通过法律条文规范人类行为
AI工程师通过规范让AI模型遵循相同的意图和价值观

行动建议与未来展望

肖恩给出了具体的实践建议：

每当开始开发新的AI功能时，首先制定详细的规范说明
明确成功标准是什么
争论这些内容是否真的被明确写下来
将规格说明输入模型，根据模型进行测试

他还提出了一个引人深思的问题：未来的IDE会是什么样子？他设想它像一个"智能思路整理工具"，在编写技术规范时自动找出模棱两可的地方，帮助人们更有效地表达意图。这种工具可能融合了形式化验证、自然语言处理和交互式对话的能力——当你写下"系统应该快速响应"时，它会追问"快速是指100毫秒还是1秒？在什么负载条件下？"，迫使模糊的意图变成精确的规范。

最后，肖恩引用了一句话来描述大规模部署AI代理的挑战："你会意识到你从来都没有清楚地告诉过自己，自己真正想要什么。"这正是对具体规格要求的呼吁——在AI时代，最稀缺的技能将是编写能够完整体现设计意图和核心价值的规范文档。

这一结论对整个软件行业有深远影响：当代码生成变得近乎免费时，竞争优势将转移到"知道该构建什么"以及"能否精确表达意图"上。未来最有价值的工程师可能不是写代码最快的人，而是能将模糊的商业需求转化为精确、可测试、可执行规范的人——他们是新时代的"编译器前端"，将人类意图翻译成机器可以理解和执行的形式。