共 3 篇相关文章
科技前沿Google Gemini 3.1 Pro发布,ARC-AGI-2抽象推理得分77.1%断档领先,GPQA Diamond 94.3%、编程ELO 2887多项登顶。本文从推理、编程、搜索等维度横向对比o4和GPT-5.2,揭示其真实实力与短板。
产品体验深度评测Google DeepMind旗舰模型Gemini 3.5 Pro,涵盖MMLU Pro 89.4分、Video ModeM 82.1分等基准数据,横向对比GPT 5.5、Claude 4.7,解析DeepThink推理、200万上下文窗口、多模态能力等核心优势与不足。
产品体验基于数小时深度实测,全面评测 GPT-5.5 在编码开发、数据分析、PPT 生成、可视化设计等真实场景中的表现,对比 o4-mini 差异,给出最佳使用策略与提示词建议。