GPT-5.5实测3周:编程能力碾压Opus 4.7?

GPT-5.5编程执行力超越Claude Opus 4.7,但规划和洞察力仍不及后者。
EVERY团队内测GPT-5.5三周后发现,该模型在编程执行力上显著超越Claude Opus 4.7(SABench基准62.5分vs33分),但最佳表现依赖Opus 4.7编写的计划。GPT-5.5擅长从头重写代码、商务写作和快速响应,而Opus 4.7在规划能力、审美判断和洞察力上仍占优。最佳实践是用Opus规划、GPT-5.5执行。
概述:GPT-5.5的真实表现
OpenAI正式发布了GPT-5.5,而EVERY团队已经内部测试了大约三周时间。从编程到写作再到知识工作,他们进行了全方位的评测。结论是:这个模型在很多能力上确实实现了质的飞跃,但也有明显的短板。

本文将基于EVERY团队的详细"感觉评测",从编程、写作、知识工作三个维度深入分析GPT-5.5的实际表现,以及它与Claude Opus 4.7之间的真实差距。
编程能力:SABench高级工程师基准测试的突破
SABench基准测试详解
EVERY团队发明了一个名为SABench(Senior Engineer Benchmark)的基准测试。测试方法是:给模型一个质量较差的代码库,要求它从头进行干净、概念清晰的重写——就像一个真正的高级工程师会做的那样。黄金标准是两位真人高级工程师各自重写的版本,他们通常能稳定拿到80-90分。

核心数据对比:
- GPT-5.5(使用Opus 4.7计划):62.5分
- GPT-5.5(自己写计划):50-55分
- GPT-5.5(无计划):40分出头
- Claude Opus 4.7:约33分
- 人类高级工程师:80-90分
这意味着GPT-5.5与Opus 4.7之间差了整整30分,但有一个关键前提——GPT-5.5的最佳表现是在使用Opus 4.7编写的计划下跑出来的。
为什么Opus 4.7的计划能让GPT-5.5更强?

这个发现非常有意思,揭示了两个模型各自的"性格":
GPT-5.5的核心优势:
- 能识别代码库里的核心原则和不变量
- 不会被现有代码带偏,不陷入"打补丁模式"
- 有魄力直接删掉大量文件从头开始
- 能将想法从头到尾贯彻执行数小时
- 在超高推理模式下具备真正的执行冲击力
Opus 4.7的核心优势:
- 计划编写能力更强,概念清晰
- 像"合同"一样精确,包含验收标准
- 会指定具体细节,如"这个大文件只写100行"
Opus 4.7的明显弱点:
- 给它自己写的漂亮计划,它反而会说"太费劲了"
- 倾向于只挑一小块修修补补
- 不愿按要求进行完整重写
这形成了一个有趣的最佳实践:用Opus 4.7做规划,用GPT-5.5做执行。
不同编程场景下的表现差异

并非所有编程场景GPT-5.5都占优。EVERY团队的多位负责人从不同角度进行了测试:
产品端工程任务(LSD基准): Opus 4.7上限更高,尤其在设计导向的任务上,审美感比GPT-5.5更强。涉及大量前端设计和产品思维的功能开发,Opus仍然领先。
氛围编码(从零构建新应用): 当计划不明确时,GPT-5.5不如Opus 4.7能贯穿整个任务。Opus在模糊需求下的自主规划能力更强。
编程语言偏好: GPT-5.5特别擅长TypeScript和Swift,但Ruby表现不佳。如果你在做Rails项目,可能对生成的Ruby代码质量不满意。
实际项目验证: EVERY的总经理Navin用GPT-5.5构建了一个名为Dayline的原生iOS/Mac待办事项应用,对其按计划批量处理功能的能力印象深刻。他认为这是"最爱的全能模型",没有它根本赶不上产品发布截止日期。
写作能力:商务写作场景的新选择
在写作方面,GPT-5.5比Opus少了一些"个性",尤其对比Opus 4-6那种老版本。但在商业写作领域表现出色:
- 投资者更新邮件基本一次就能搞定,接近可直接发送的程度
- 语音复制能力出色,模仿风格到位又不过度
- 风格更克制、更细腻,适合商务场景
EVERY的专职作家Katy Perrott用Claude模型写作近两年,这是很久以来第一个让她开始用于写作任务的GPT模型。这一评价相当有分量。
知识工作与AI智能体体验

响应速度优势明显
在所有测试中,团队一致对GPT-5.5的速度感到震惊。与Opus 4.7相比,能明显感受到OpenAI的硬件优势。这在需要频繁交互的智能体场景中尤为重要。
Codex桌面应用+GPT-5.5的组合体验
OpenAI在知识工作领域快速迭代,Codex桌面应用搭配GPT-5.5被评为"桌面上最好的智能体体验":
- 非常快速且强大
- 能使用电脑上的任何应用
- 擅长浏览网页
- 擅长做仪表盘或复杂数据分析
洞察力方面的牺牲
有意思的是,为了让模型更易消化,一些训练牺牲了它对细节的洞察力。如果你的工作需要非常敏锐的洞察力,评测者建议仍然使用Opus 4.7。即使在高级工程师基准测试中评估模型的路径时,Opus 4.7的判断力也更值得信赖。
实用建议:如何最大化GPT-5.5的价值
基于三周的深度测试,以下是核心使用建议:
- 计划先行: 无论是氛围编码还是高级工程任务,把计划写得更明确才能最大化这个模型的潜力
- 组合使用: 用Opus 4.7做规划,用GPT-5.5做执行,是当前的最佳工作流
- 语言选择: 优先使用TypeScript或Swift,避免Ruby
- 场景匹配: 需要执行力用GPT-5.5,需要洞察力和审美用Opus 4.7
- 智能体场景: 电脑上需要智能体的工作,Codex+GPT-5.5是当前最佳选择
总结:GPT-5.5与Opus 4.7该怎么选
GPT-5.5确实在编程执行力上实现了对Opus 4.7的显著超越,但这并非全面碾压。两个模型各有所长:GPT-5.5是出色的执行者,Opus 4.7是更好的规划者和审美判断者。最聪明的做法不是二选一,而是理解它们各自的"性格",在合适的场景使用合适的工具。
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。