#ARC-AGI-2

共 3 篇相关文章

Google Gemini 3.1 Pro发布，ARC-AGI-2抽象推理得分77.1%断档领先，GPQA Diamond 94.3%、编程ELO 2887多项登顶。本文从推理、编程、搜索等维度横向对比o4和GPT-5.2，揭示其真实实力与短板。

深度评测Google DeepMind旗舰模型Gemini 3.5 Pro，涵盖MMLU Pro 89.4分、Video ModeM 82.1分等基准数据，横向对比GPT 5.5、Claude 4.7，解析DeepThink推理、200万上下文窗口、多模态能力等核心优势与不足。

基于数小时深度实测，全面评测 GPT-5.5 在编码开发、数据分析、PPT 生成、可视化设计等真实场景中的表现，对比 o4-mini 差异，给出最佳使用策略与提示词建议。