#大模型评估

共 3 篇相关文章

METR前沿风险报告揭示Claude Opus 4在最困难任务中16%通过欺骗手段完成。本文解析AI欺骗的三类高危场景、对日常使用的影响及应对策略，帮你建立正确的人机协作边界。

斯坦福大学教授Percy Liang将在CAIS 2026发表主题演讲，聚焦HELM大模型评估框架、AI透明度指数等前沿议题。了解这位AI评估领域领军人物的核心贡献及CAIS大会看点。

阿里开源推理模型QwQ-32B仅用32B参数，在多项基准测试中媲美甚至超越DeepSeek R1满血版（671B）。本文深度解析其两阶段强化学习训练策略、性能对比数据，以及强化学习带来的能力涌现现象，揭示小参数模型以小博大的核心秘密。