Gemini 3.1 Pro深度横评：ARC-AGI-2得分77.1%，真的最强吗？

Google 最新发布的 Gemini 3.1 Pro 在 AI 圈掀起了不小的波澜——ARC-AGI-2 抽象推理测试拿下 77.1%，编程 ELO 飙到 2887，多项核心指标直接登顶。这是不是意味着当前最强大语言模型已经换人了？别急下结论，本文从推理、编程、搜索等多个维度做了一轮横向对比，帮你看清全貌。

三大核心升级：推理、编程、上下文

Gemini 3.1 Pro 相较前代在三个方向上有了明显进步：

推理能力大幅跃进。 GPQA Diamond 是公认的高难度推理基准测试——题目来自生物学、化学、物理学等领域的博士级别知识，且经过刻意设计以抵抗搜索引擎检索，即便是领域专家平均正确率也仅在 65% 左右。Diamond 子集更是其中难度最高的题目集合，代表了学术界对模型深度推理能力的顶级考验。Gemini 3.1 Pro 在这项测试中拿到了 94.3%，直接超过了 OpenAI 的 o4（OPAS 4.6）和 GPT-5.2，意味着其在多步推理、跨领域知识整合上已显著超越人类专家平均水平。这个分数相当能打。

推理GPQA Diamond 94.3%,超过OPAS 4.6和GPT 5.2

编程能力全面提升。 SWE-Bench 得分 80.6%，TerminalBench 达到 68.5%，编程 ELO 评分 2887，在主流编程基准测试中均处于第一梯队。

百万级 Token 上下文 + 全模态输入。 支持超长上下文窗口和多模态输入，处理大型代码库、长文档分析这类实际场景时，实用性有了质的提升。

ARC-AGI-2 抽象推理：断档式领先

ARC-AGI-2（Abstraction and Reasoning Corpus for Artificial General Intelligence）由 AI 安全研究员 François Chollet 主导设计，是 ARC 系列测试的第二代版本。其核心设计理念是：真正的智能不应依赖记忆或统计模式，而应具备从少量样本中归纳抽象规则的能力。测试题目通常呈现为彩色网格图案，要求模型识别隐藏的变换规律并推断输出结果——这类任务对人类来说直觉上并不困难，但对依赖大规模预训练数据的语言模型却极具挑战性。ARC-AGI-2 相比第一代难度大幅提升，加入了更复杂的空间推理和多步逻辑链，被研究界视为衡量模型"真实推理能力"而非"记忆检索能力"的重要风向标。

在这项测试中，各家模型的差距一目了然：

模型	ARC-AGI-2 得分
Gemini 3.1 Pro	77.1%
OpenAI o4	68.8%
GPT-5.2	52.9%

ARC-AGI-2横向对比：3.1 Pro 77.1%远超竞品

Gemini 3.1 Pro 以 77.1% 大幅领先，比 o4 高出超过 8 个百分点，比 GPT-5.2 更是拉开了 24 个百分点的差距。在模式识别和抽象逻辑推理这个维度上，Google 的新模型确实实现了质的突破。

另一个值得关注的亮点是搜索能力。BrowseComp 是 OpenAI 发布的网页浏览与信息检索能力基准，测试模型在开放网络环境中执行多跳搜索、信息整合和事实核查的综合能力，考察的不仅是单次检索准确性，更包括跨页面推理和信息去噪能力。Gemini 3.1 Pro 在此项测试中拿下 85.9%，同样是断档式领先。这背后离不开 Google 超过 25 年的网页索引、PageRank 算法迭代以及实时搜索基础设施经验——这些工程能力被系统性地融入了 Gemini 的训练数据质量和检索增强架构中，形成了其他厂商短期内难以复制的竞争壁垒。

并非全面碾压：短板同样存在

不过，如果就此给 Gemini 3.1 Pro 贴上"全维度最强"的标签，那就言过其实了。

SWE-Bench Pro 上略逊一筹。 值得注意的是，SWE-Bench 与 SWE-Bench Pro 并非同一难度层级：标准版 SWE-Bench 考察的是相对独立的单文件修复任务，而 Pro 版引入了更复杂的多文件修改、更长的代码依赖链以及更严格的测试验证标准，更贴近真实工程师日常面对的复杂任务。在难度更高的 SWE-Bench Pro 测试中，Gemini 3.1 Pro 得分 54.2%，而 GPT-5.2 拿到了 55.6%。差距虽然不大，但说明面对复杂工程级编程任务时，OpenAI 的模型依然有一定优势，也揭示了 Gemini 3.1 Pro 在"简单编程任务"与"工程级复杂任务"之间存在的能力断层。

目前还是Preview状态