DeepSWE基准测试揭示真相：GPT 5.5大幅领先Opus 4.7

软件工程领域的AI基准测试一直饱受争议——大多数榜单无法反映真实的编程场景，模型得分高却不代表实际好用。一个名为DeepSWE的全新基准测试正在改变这一局面，它的测试结果显示GPT 5.5与Opus 4.7之间存在超过15分的巨大差距，颠覆了此前各大榜单上两者"不相上下"的印象。

DeepSWE为何值得关注

这个由datacurve.ai公司推出的基准测试，被称为"长周期软件工程基准"，它在四个关键维度上实现了对现有公开基准的突破。

首先是无污染性。所有测试任务都是从零编写的，而非从GitHub的公开commit或PR中改编。这意味着没有任何模型在预训练阶段见过这些问题的答案。反观SWE-Bench Pro等主流基准，它们大量采用公开代码库的issue和commit，模型很可能在训练中已经"记住"了答案。

数据污染（Data Contamination）是大语言模型评估中最棘手的问题之一。当模型在预训练阶段接触过测试集中的数据时，其在该测试上的表现会被人为抬高，导致评估结果失真。由于GPT、Claude等模型的训练语料通常包含大量GitHub公开代码，任何基于公开仓库构建的基准测试都面临污染风险。SWE-Bench等早期基准从GitHub的Issue和Pull Request中提取任务，模型可能在训练中已经"见过"这些问题及其解决方案，相当于考试前看过了答案。DeepSWE通过从零编写全新任务来规避这一问题，这在方法论上类似于教育测试中的"原创题库"策略。

其次是高多样性。测试覆盖91个代码仓库、5种编程语言（TypeScript、Go、Python、JavaScript、Rust），而非仅仅围绕Python或少数几个大型项目。

第三是真实世界复杂度。DeepSWE的提示词长度仅为SWE-Bench Pro的一半，但解决方案需要5.5倍的代码量和2倍的输出token。这精准模拟了真实开发者的使用方式——大多数人只会告诉AI"修好它"，而不会写一大段详细说明。

第四是可靠的验证机制。DeepSWE的验证器将误判率降到了极低水平。

DeepSWE与SweeBench Pro的验证器对比

具体数据令人震撼：SWE-Bench Pro的假阳性率为8.5%（验证器接受了错误实现），而DeepSWE仅为0.3%；SWE-Bench Pro的假阴性率高达24%（验证器拒绝了正确实现），DeepSWE仅为1.1%。想象一下，在SWE-Bench Pro中，每4次正确答案就有1次被错误地判为失败。

在自动化代码验证的语境中，假阳性（False Positive）指验证器错误地接受了一个实际上不正确的实现——代码通过了测试但并未真正解决问题，这通常是因为测试用例覆盖不够全面，未能捕捉到边界条件或特定场景下的错误行为。假阴性（False Negative）则指验证器错误地拒绝了一个实际正确的实现——代码逻辑正确但因测试框架的局限性（如对输出格式的过度严格匹配、环境依赖问题等）而被判定失败。SWE-Bench Pro高达24%的假阴性率意味着模型每提交4个正确答案就有1个被误判为错误，这会系统性地压低所有模型的得分，并可能扭曲模型之间的相对排名——如果某个模型恰好更容易触发验证器的误判条件，它的真实能力就会被严重低估。

榜单结果：GPT 5.5全面碾压

在DeepSWE的排行榜上，GPT 5.5以约70%的通过率高居榜首，比Opus 4.7领先超过15个百分点。这与SWE-Bench Pro上两者分数接近的局面形成鲜明对比。完整排名依次为：GPT 5.5、GPT 5.4、Opus 4.7，随后是Sun 4.6、Gemini 3.5 Flash（约28%）等。

更关键的是，DeepSWE在分数分布上呈现出远比SWE-Bench Pro更大的区分度。在SWE-Bench Pro上，各模型的分数集中在约30分的区间内；而在DeepSWE上，从顶部GPT 5.5的70%到底部Cloud Haiku 4.5的0%，分数跨度极大。这种高区分度才是好基准测试应有的特征——在统计学中，一个好的测试应当能够有效区分不同能力水平的被试者，如果所有参与者的得分都集中在一个狭窄区间内，测试本身的信息量就非常有限。

效率与成本：GPT 5.5的三重优势

除了得分领先，GPT 5.5在效率和成本方面同样表现突出。

Token消耗方面，Opus 4.7每次解题的中位输出token数为60,000，而GPT 5.5仅需16,000——不到前者的三分之一。这意味着GPT 5.5用更少的"思考量"就能给出更好的答案。

模型性能、时间与成本对比

时间方面，GPT 5.5每次试验的Wall Clock时间约为20分钟，而Opus 4.7需要37分钟。Gemini 3.5 Flash虽然以15分钟的速度略胜，但其得分仅为GPT 5.5的约40%。

Wall Clock时间（墙钟时间）指从任务开始到完成的实际经过时间，包括模型推理、API调用延迟、代码执行等所有环节，是衡量端到端效率的核心指标。在实际开发场景中，开发者等待AI完成一次代码修复的时间直接影响工作流效率——一个需要37分钟才能返回结果的工具，在快节奏的开发迭代中可能会打断开发者的心流状态。Token消耗则反映了模型的"思维密度"——输出60,000个token意味着模型生成了大量中间推理步骤或冗余代码，而16,000个token完成同样任务则说明模型的推理更加精炼高效。从成本角度看，大语言模型API通常按token计费，token消耗量直接决定了每次调用的费用。Opus 4.7的高token消耗部分源于Claude模型家族倾向于"展开思考"的推理风格，这在某些场景下有助于提高准确性，但在DeepSWE的测试中并未转化为更高的通过率。

成本方面，这组数据对Anthropic来说相当尴尬：GPT 5.5每次试验的成本约为5.80美元，而Opus 4.7接近16美元——近3倍的价格，却换来更低的分数。Gemini 3.5 Flash虽然价格与GPT 5.5相当，但得分不到其一半。

综合得分、速度、成本三个维度，GPT 5.5在DeepSWE上展现出全面优势。

提示方式的范式转变

DeepSWE的任务构建与仓库选择标准

DeepSWE的提示词设计哲学值得深入讨论。它的prompt与开发者日常与AI对话的方式高度一致——聚焦行为描述、简短直接、不包含冗长的接口定义。

这反映了AI编程领域的一个重要趋势：不要告诉模型怎么解决问题，而是告诉它你想解决什么问题。 描述期望的应用行为，而非规定具体的代码修改方式。模型需要自主探索代码库，理解上下文，找到问题所在并实现修复。

这种行为描述式提示词（Behavior-Oriented Prompting）代表了AI编程交互的一个重要演进方向。传统的AI编程提示往往包含详细的技术规格——指定修改哪个文件、调用哪个API、使用什么数据结构，本质上是将解决方案的大部分思考工作留给了人类。而行为描述式提示只描述期望的最终行为（如"让这个API在超时后自动重试"），将代码库探索、上下文理解、方案设计等工作全部交给模型。这种方式对模型的代码理解能力（Code Comprehension）和自主代理能力（Agentic Capability）提出了更高要求——模型需要像一个新入职的开发者一样，先阅读和理解现有代码库的架构，再定位问题并实施修复。这也是为什么DeepSWE的提示词虽然更短，但解决方案却需要更多代码量的原因：模型必须自行完成从问题理解到方案实施的全链路工作。

模型行为差异：有趣的发现

DeepSWE还揭示了不同模型家族在编程任务中的行为特征差异：

Claude容易遗忘多部分需求：当提示词要求实现多个并行行为（如"同时支持同步和异步"），Claude往往只实现明显的那个分支，忘记镜像修改其他部分。这一现象可能与Claude模型在处理长上下文时的注意力分配机制有关——当提示词中包含多个并列要求时，模型的注意力权重可能不均匀地集中在最先出现或最显著的需求上。
Claude擅长环境感知：当提示词与仓库实际状态不匹配时，Opus 4.7会主动通过git log探索最近的变更，从Git历史中恢复正确的解决方案。这体现了Claude在工具使用（Tool Use）方面的优势——它能够灵活运用shell命令来获取额外上下文信息，而非仅依赖提示词中给定的信息。
GPT严格执行指令：GPT 5.5在所有配置中，漏掉需求行为的比率最低。它会严格按照提示词和可见的代码契约来生成补丁。这种"指令忠实度"（Instruction Fidelity）在复杂的多步骤编程任务中尤为关键，因为遗漏任何一个需求都可能导致验证失败。
强模型倾向于自我验证：除非提示词明确禁止，更强的模型会主动为自己的代码编写测试——这本身就是高质量解决方案的一部分。这种行为反映了模型已经内化了软件工程的最佳实践：测试驱动开发（TDD）的理念认为，编写测试不仅是验证手段，更是帮助开发者理清需求和设计的思维工具。

局限性与展望

你可能没注意到，DeepSWE使用统一的MiniSuiteAgent作为测试脚手架，这意味着Opus 4.7并未在其最优搭档Claude Code环境中被测试。这在一定程度上可能低估了Opus的实际表现，但也更纯粹地反映了模型本身的能力。

在AI编程评测中，代理框架（Agent Scaffold）负责管理模型与代码环境之间的交互——包括文件读写、命令执行、上下文窗口管理等。不同的代理框架会显著影响模型的表现：例如Anthropic的Claude Code为Claude模型量身定制了工具调用策略和上下文管理机制，能够更好地发挥Claude的长上下文理解优势。使用MiniSuiteAgent这一统一框架测试虽然确保了公平性（所有模型在相同条件下竞争），但也意味着某些模型无法利用其专属优化。这类似于让所有赛车手驾驶同一款车比赛——测试的是车手技术而非车辆性能，但在实际应用中，"车手+车辆"的组合才是用户真正关心的。

此外，当前榜单中缺少Composer 2.5等新模型的数据，而据多方评测，Composer 2.5在性价比方面可能同样极具竞争力。

总体而言，DeepSWE代表了AI编程基准测试的一次重要进步。它不仅更贴近真实使用场景，也首次在量化数据层面印证了开发者社区的"直觉感受"——GPT 5.5确实在实际编程任务中领先一筹。随着更多模型被纳入测试、更多编程语言和任务类型被覆盖，DeepSWE有望成为评估AI编程能力的新标准。而对于开发者而言，这个基准测试传递的核心信息很明确：选择AI编程工具时，不要只看传统榜单上的分数，还要关注模型在真实场景下的综合表现——包括准确性、效率和成本的平衡。