GPT-5.5实测3周：编程能力碾压Opus 4.7？

概述：GPT-5.5的真实表现

OpenAI正式发布了GPT-5.5，而EVERY团队已经内部测试了大约三周时间。从编程到写作再到知识工作，他们进行了全方位的评测。结论是：这个模型在很多能力上确实实现了质的飞跃，但也有明显的短板。

bilibili source: GPT-5.5实测3周：真的能打败Claude Opus 4.7了吗？| 中文配音

本文将基于EVERY团队的详细"感觉评测"，从编程、写作、知识工作三个维度深入分析GPT-5.5的实际表现，以及它与Claude Opus 4.7之间的真实差距。

编程能力：SABench高级工程师基准测试的突破

SABench基准测试详解

EVERY团队发明了一个名为SABench（Senior Engineer Benchmark）的基准测试。测试方法是：给模型一个质量较差的代码库，要求它从头进行干净、概念清晰的重写——就像一个真正的高级工程师会做的那样。黄金标准是两位真人高级工程师各自重写的版本，他们通常能稳定拿到80-90分。

这是我发明的基准测试

核心数据对比：

GPT-5.5（使用Opus 4.7计划）：62.5分
GPT-5.5（自己写计划）：50-55分
GPT-5.5（无计划）：40分出头
Claude Opus 4.7：约33分
人类高级工程师：80-90分

这意味着GPT-5.5与Opus 4.7之间差了整整30分，但有一个关键前提——GPT-5.5的最佳表现是在使用Opus 4.7编写的计划下跑出来的。

为什么Opus 4.7的计划能让GPT-5.5更强？

在超高推理模式下

这个发现非常有意思，揭示了两个模型各自的"性格"：

GPT-5.5的核心优势：

能识别代码库里的核心原则和不变量
不会被现有代码带偏，不陷入"打补丁模式"
有魄力直接删掉大量文件从头开始
能将想法从头到尾贯彻执行数小时
在超高推理模式下具备真正的执行冲击力

Opus 4.7的核心优势：

计划编写能力更强，概念清晰
像"合同"一样精确，包含验收标准
会指定具体细节，如"这个大文件只写100行"

Opus 4.7的明显弱点：

给它自己写的漂亮计划，它反而会说"太费劲了"
倾向于只挑一小块修修补补
不愿按要求进行完整重写

这形成了一个有趣的最佳实践：用Opus 4.7做规划，用GPT-5.5做执行。

不同编程场景下的表现差异

在LF基准测试中

并非所有编程场景GPT-5.5都占优。EVERY团队的多位负责人从不同角度进行了测试：

产品端工程任务（LSD基准）： Opus 4.7上限更高，尤其在设计导向的任务上，审美感比GPT-5.5更强。涉及大量前端设计和产品思维的功能开发，Opus仍然领先。

氛围编码（从零构建新应用）： 当计划不明确时，GPT-5.5不如Opus 4.7能贯穿整个任务。Opus在模糊需求下的自主规划能力更强。

编程语言偏好： GPT-5.5特别擅长TypeScript和Swift，但Ruby表现不佳。如果你在做Rails项目，可能对生成的Ruby代码质量不满意。

实际项目验证： EVERY的总经理Navin用GPT-5.5构建了一个名为Dayline的原生iOS/Mac待办事项应用，对其按计划批量处理功能的能力印象深刻。他认为这是"最爱的全能模型"，没有它根本赶不上产品发布截止日期。

写作能力：商务写作场景的新选择

在写作方面，GPT-5.5比Opus少了一些"个性"，尤其对比Opus 4-6那种老版本。但在商业写作领域表现出色：

投资者更新邮件基本一次就能搞定，接近可直接发送的程度
语音复制能力出色，模仿风格到位又不过度
风格更克制、更细腻，适合商务场景

EVERY的专职作家Katy Perrott用Claude模型写作近两年，这是很久以来第一个让她开始用于写作任务的GPT模型。这一评价相当有分量。

知识工作与AI智能体体验

在所有这些测试中

响应速度优势明显

在所有测试中，团队一致对GPT-5.5的速度感到震惊。与Opus 4.7相比，能明显感受到OpenAI的硬件优势。这在需要频繁交互的智能体场景中尤为重要。

Codex桌面应用+GPT-5.5的组合体验

OpenAI在知识工作领域快速迭代，Codex桌面应用搭配GPT-5.5被评为"桌面上最好的智能体体验"：

非常快速且强大
能使用电脑上的任何应用
擅长浏览网页
擅长做仪表盘或复杂数据分析

洞察力方面的牺牲

有意思的是，为了让模型更易消化，一些训练牺牲了它对细节的洞察力。如果你的工作需要非常敏锐的洞察力，评测者建议仍然使用Opus 4.7。即使在高级工程师基准测试中评估模型的路径时，Opus 4.7的判断力也更值得信赖。

实用建议：如何最大化GPT-5.5的价值

基于三周的深度测试，以下是核心使用建议：

计划先行： 无论是氛围编码还是高级工程任务，把计划写得更明确才能最大化这个模型的潜力
组合使用： 用Opus 4.7做规划，用GPT-5.5做执行，是当前的最佳工作流
语言选择： 优先使用TypeScript或Swift，避免Ruby
场景匹配： 需要执行力用GPT-5.5，需要洞察力和审美用Opus 4.7
智能体场景： 电脑上需要智能体的工作，Codex+GPT-5.5是当前最佳选择

总结：GPT-5.5与Opus 4.7该怎么选

GPT-5.5确实在编程执行力上实现了对Opus 4.7的显著超越，但这并非全面碾压。两个模型各有所长：GPT-5.5是出色的执行者，Opus 4.7是更好的规划者和审美判断者。最聪明的做法不是二选一，而是理解它们各自的"性格"，在合适的场景使用合适的工具。