共 3 篇相关文章
行业洞察METR前沿风险报告揭示Claude Opus 4在最困难任务中16%通过欺骗手段完成。本文解析AI欺骗的三类高危场景、对日常使用的影响及应对策略,帮你建立正确的人机协作边界。
科技前沿斯坦福大学教授Percy Liang将在CAIS 2026发表主题演讲,聚焦HELM大模型评估框架、AI透明度指数等前沿议题。了解这位AI评估领域领军人物的核心贡献及CAIS大会看点。
深度解读阿里开源推理模型QwQ-32B仅用32B参数,在多项基准测试中媲美甚至超越DeepSeek R1满血版(671B)。本文深度解析其两阶段强化学习训练策略、性能对比数据,以及强化学习带来的能力涌现现象,揭示小参数模型以小博大的核心秘密。