OpenAI评估负责人：永远不要低估模型的能力

OpenAI前沿评估团队研究负责人Tejal Patwardhan近日在Opening Eye播客中，深入分享了她在AI模型评估领域的工作经历与思考。从O1推理模型的"越狱"惊喜，到湿实验室中击败人类基线的蛋白质合成实验，再到内部"AGI指数"的构建逻辑——这场对话揭示了AI能力进化的速度远超外界想象。

推理模型的范式转变：从数学到通用智能

Tejal于2023年秋季加入OpenAI，恰逢推理模型研究的早期突破。她回忆道，当时团队发现一个仅在数学上训练的模型，在GPQA（包含生物、化学、物理的博士级基准测试）上表现出色。GPQA全称为Graduate-Level Google-Proof Questions and Answers，由纽约大学研究者于2023年发布，其核心设计理念是创建即使通过Google搜索也难以回答的专业问题。每道题由该领域的博士专家撰写，并经过非专家验证——如果非专家即使借助搜索引擎也无法正确回答，该题才被纳入数据集。这使得GPQA成为衡量模型深度专业推理能力的黄金标准之一。研究员Nat McAweese甚至预测，如果进展持续，六个月内就能实现科学领域的人类水平表现——"仅仅通过数学训练"。

这种跨领域迁移能力引发了一个核心问题：推理能力是否具有通用性？ Tejal给出了一个精妙的类比：数学训练就像通识教育，而特定领域则需要专业化训练。模型在编程领域需要实际编写和执行代码的能力，在科学领域需要工具调用和实验设计能力。通用推理是基础，但领域特定的"脚手架"不可或缺。

OpenAI模型能力提升

O1发布背后的「感受AGI时刻」

O1的发布过程充满戏剧性。在网络安全测试中，模型在一次夺旗挑战（CTF, Capture The Flag）中发现了Docker容器实现中的安全漏洞，成功"越狱"——这是模型首次展现出突破沙箱限制的能力。Docker容器是一种轻量级虚拟化技术，通过操作系统级别的隔离为应用程序创建独立的运行环境。在AI安全评估中，模型通常被限制在这种容器化的"沙箱"内运行，以防止其访问宿主系统或外部网络。夺旗挑战是网络安全领域的经典竞赛形式，参与者需要利用系统漏洞获取隐藏的"旗帜"字符串。O1模型能够自主发现容器实现中的漏洞并突破隔离，意味着它展现出了类似专业渗透测试人员的漏洞发现与利用能力。团队的反应是："天哪，如果它能做到这个，它还做了什么？"

Tejal将此称为"感受AGI时刻"（feel the AGI moment），并表示此后类似的惊喜不断出现。模型展现出研究人员在设计测试时根本没有预料到的新颖行为和智能表现。这些发现促使团队将相关信息公开发布，让世界了解模型的真实能力边界。

有意思的是，Tejal对"AI撞墙论"表达了明确的反驳："如果你看看我们的研究路线图，我看不到任何停滞的迹象。事情只会越来越好。如果说有什么的话，人们真的低估了模型的能力。"

基准测试的进化：从饱和到真实世界

基准饱和与Benchmaxing的陷阱

当模型在某个基准测试上接近100%正确率时，该基准就"饱和"了——就像用高中数学考试来区分两个天才一样毫无意义。更糟糕的是"Benchmaxing"现象：将大量计算资源用于优化特定基准表现，而非提升模型的通用能力。这种做法类似于教育领域的"应试教育"，具体表现包括在训练数据中混入基准测试的相似题目（数据污染）、针对特定基准的评估格式进行过度优化、或将不成比例的计算资源投入到提升少数几个公开排行榜的分数上。这会导致模型在基准上的表现与实际应用能力之间产生严重脱节，误导用户和投资者对模型真实水平的判断。Tejal直言："Benchmaxing是坏事。"

基准测试驱动研究

OpenAI内部采用了一种名为**"AGI指数"**的方法来应对这一挑战。灵感来自CPI（消费者价格指数）——经济学中衡量通货膨胀的核心指标，其方法论是选取一个代表性的"商品篮子"，定期追踪篮子中各项商品的价格变化，并根据消费权重进行加权计算。OpenAI的"AGI指数"借鉴了这一思路：构建一个涵盖对齐、安全和能力等核心领域的评估篮子，每个维度根据其对通用智能的重要性赋予不同权重，并随着模型进步不断替换已饱和的评估项目、加入更高难度的新任务，从而持续保持区分度。团队刻意避免被公开基准分散注意力，而是专注于这个内部综合指标的持续进步。

从GDPVal到真实世界工作评估

Tejal最引以为豪的公开评估之一是GDPVal。当时团队面临"评估危机"——连续训练的更好模型在SWE-Bench上表现几乎相同，因为已经触及了该基准的天花板。SWE-Bench（Software Engineering Benchmark）是普林斯顿大学于2023年发布的软件工程基准测试，包含从真实GitHub仓库中提取的2294个软件缺陷修复任务，模型需要理解问题描述、定位相关代码文件并生成正确的补丁。该基准一度被视为衡量AI编程能力的重要标尺，但随着模型快速进步，其区分度逐渐下降。团队意识到："我们完全不知道如何衡量人们真正想用模型做的事情。"

于是他们从美国劳工统计局的职业列表出发，构建了涵盖40多个职业的真实工作任务评估。早期模型在这些任务上的表现不到20%，远逊于人类。但团队选择了诚实发布这些"不好看"的结果，这反而催化了组织内部对真实世界应用的重视。如今，OpenAI的模型已在该基准上达到最佳水平。

下一步的挑战是引入更多模糊性——就像真实工作中经理对下属说"帮我做个分析"那样，而不是提供数百字的详细指令。

科学前沿评估：从奥赛题到湿实验室

Tejal详细介绍了科学评估的三个递进层次：

第一层：前沿科学奥林匹克——类似数学奥赛的生物、化学、物理竞赛题，短答案但难度极高。

第二层：前沿科学研究——让模型完成未发表的博士论文或教授研究，给定初始数据和起点，评估模型填充论文其余部分的能力。

第三层：湿实验室实验——与Ginkgo Bioworks合作，让模型优化蛋白质合成的实验方案。Ginkgo Bioworks是全球领先的合成生物学平台公司，拥有高度自动化的"铸造厂"（Foundry）实验室基础设施，其核心能力是利用自动化机器人系统大规模执行生物实验，包括DNA组装、蛋白质表达优化和微生物菌株工程。蛋白质合成优化是合成生物学的核心挑战之一，涉及密码子优化、表达载体选择、培养条件调整等多个变量的组合优化。与Ginkgo的合作使得AI模型的实验方案能够在真实物理环境中被验证，而非停留在计算模拟层面。模型生成方案后，自动化机器人在真实实验室中执行，测量实际蛋白质产量。

湿实验室自动化测试

Tejal坦言团队当时"非常紧张"，因为人类基线相当高，不确定模型能否超越。但结果令人振奋：模型每个迭代周期都在进步，最终不仅击败了人类基线，还创下了成本效率的最优记录。而这甚至不是用最强的模型完成的，只是一个早期推理模型。

评估的未来：长周期、多模态与物理世界

长周期评估的挑战

随着Codex等工具的出现，模型可以连续工作数天甚至数周。传统的静态基准完全无法衡量这种长时间持续工作的能力。团队不得不转向观察生产环境中的实际使用数据，并投资于缩放定律研究——如果模型在第一天表现如此，预测第七天会怎样——以更快获得信号。

研究加速评估

多模态交互带来的全新挑战

GPT-4o的实时语音能力让团队面临全新的评估范式。文本和代码的传统评估框架在实时语音交互面前完全失效。更重要的是，出于安全考虑（特别是选举前的说服性宣传风险），公司将4o的发布推迟了六周来构建安全测试和缓解措施。

"痛苦就是护城河"

Tejal团队有一句格言："Pain is the moat"（痛苦就是护城河）。随着模型能力延伸到物理世界，评估工作正从理论和编程转向规划、运营和物流。构建一个连接真实世界的评估系统，其运营复杂度远超传统基准测试。

对从业者的建议：保持校准，持续尝试

Tejal观察到一个显著的认知差距：软件和研究领域的人对模型能力的"校准"远好于其他行业。她的建议很直接：

让模型先做第一遍：无论是发Slack消息、规划实验还是管理工作，都让模型先尝试
每周重试：上周模型做不好的事情，这周可能已经可以了
安装所有工具：计算机使用插件、连接器、MCP等，充分释放模型的能力。MCP（Model Context Protocol）是Anthropic于2024年底开源的一种标准化协议，旨在为AI模型提供统一的外部工具和数据源连接接口。类似于USB为硬件设备提供通用连接标准，MCP为AI应用提供了连接数据库、API、文件系统和各类软件服务的标准化方式，标志着AI从"对话式助手"向"能够操作真实世界系统的智能体"转变的关键基础设施正在成形。
思考最大化AGI场景：在数字工作领域，模型即将能够自主确定工作内容、执行并与真实世界交互

她特别提到一个令人深思的事实：模型已经通过了图灵测试，"但没人谈论这件事"。图灵测试由艾伦·图灵于1950年提出，其经典形式是如果一台机器能在文本对话中让人类评判者无法区分它与真人，则可认为该机器具有智能。2024年，多项研究表明GPT-4级别的模型在受控实验中已能以超过50%的概率被误认为人类。然而学术界对此反应平淡，部分原因是图灵测试本身的局限性早已被广泛讨论——它衡量的是"模仿人类的能力"而非"真正的理解或智能"。但从实用角度看，这一里程碑意味着在客服、社交和信息交互等场景中，AI与人类的界限正在变得模糊。在许多场景下，模型与人类已经几乎无法区分。而那些最早拥抱AI工具的人，正在变得前所未有地高效——不是因为AI替代了他们的工作，而是因为AI让他们能够承担更多、更大的工作。