共 1 篇相关文章
Anthropic最新模型Claude Mythos Preview在METR基准测试中表现惊人,80%成功率下时间跨度超过次优模型2倍以上,标志着AI Agent能力实现质的飞跃。本文深度解读METR评测指标及其对AI行业竞争格局的影响。