Jan Leike在Anthropic启动新研究项目：对齐只是AGI安全的一部分

Jan Leike宣布在Anthropic启动全新研究项目

前OpenAI超级对齐团队负责人Jan Leike近日在Twitter上宣布，他正在Anthropic启动一个全新的研究项目，并对此表示非常兴奋。

Jan Leike的Twitter动态

"对齐只是其中之一"——从对齐到更广阔的AGI安全视野

Jan Leike在推文中留下了一句意味深长的话：

"要让AGI顺利发展，需要很多东西，而对齐（alignment）只是其中之一。"

这句话值得深入解读。作为曾经专注于AI对齐研究的顶级学者，Leike正在将视野拓展到对齐之外的领域。所谓AI对齐，是指让AI系统的目标、行为和决策与人类的价值观和意图保持一致的技术研究方向。当前主流的对齐技术包括基于人类反馈的强化学习（RLHF）、Anthropic提出的Constitutional AI（宪法AI，让AI根据预设原则进行自我批评和修正），以及可扩展监督（Scalable Oversight）等方法。对齐问题的核心困难在于：人类价值观本身是模糊的、多元的、甚至相互矛盾的，而且随着AI能力的提升，验证对齐效果变得越来越困难。

Leike暗示即将公布更多细节，这表明新项目可能涉及AGI安全与治理的更广泛维度——或许包括AI系统的可控性、社会影响评估、人机协作框架，甚至是AGI部署策略等方面。

背景回顾：Jan Leike从OpenAI到Anthropic的历程

Jan Leike此前是OpenAI超级对齐（Superalignment）团队的联合负责人，与Ilya Sutskever共同领导该团队。超级对齐是OpenAI于2023年7月提出的研究议题，核心目标是解决一个根本性难题：当AI系统的智能水平超越人类时，人类如何确保仍能有效监督和控制这些系统。传统的对齐方法依赖人类反馈，但当AI能力远超人类理解范围时，人类可能无法判断AI的输出是否真正符合预期。OpenAI最初承诺将20%的算力投入该团队，计划用四年时间攻克这一问题，但实际资源投入远未达到承诺水平。

2024年，Leike因对OpenAI在安全研究方面的资源投入和优先级排序存在分歧而离职，随后加入Anthropic。他的离开一度引发业界对OpenAI安全文化的广泛讨论。值得注意的是，这并非孤立事件——2024年是AI安全领域人才格局剧烈变动的一年。超级对齐团队的多名核心成员相继离职，包括联合负责人Ilya Sutskever（后创立了专注安全的新公司Safe Superintelligence Inc.）。这波离职潮的根源在于AI实验室内部"加速发展"与"安全优先"两种理念之间的深层张力——在商业压力下，安全研究往往被视为减缓产品迭代的阻力。

Anthropic本身就是以AI安全为核心使命的公司，由前OpenAI研究副总裁Dario Amodei和Daniela Amodei兄妹于2021年联合创立。Anthropic的核心理念是将AI安全研究置于商业开发的中心位置，而非作为附属功能。公司提出了多项原创性安全研究成果，包括Constitutional AI方法论、模型可解释性研究（如对神经网络内部特征的"字典学习"分析），以及负责任的扩展政策（Responsible Scaling Policy，简称RSP）。RSP中定义了AI安全等级（ASL），为不同能力水平的AI系统设定了相应的安全要求。截至2024年，Anthropic已获得超过70亿美元融资，其旗舰产品Claude系列模型在安全性和有用性的平衡方面获得了业界认可。Leike选择在Anthropic启动新项目，说明这里为他提供了更契合其研究理念的环境和资源支持。

这个新项目对AI安全领域意味着什么

AGI安全是一项系统工程，不止于对齐

Leike的表态反映了AI安全研究领域的一个重要趋势：确保AGI安全发展是一个多维度的系统工程。技术层面的对齐（让AI系统的行为符合人类意图）固然关键，但这远非全部。

从系统工程的视角来看，AGI安全涵盖多个相互关联的层面：技术层面包括对齐、可解释性、鲁棒性和形式化验证；治理层面包括AI系统的审计机制、红队测试标准、能力评估框架（如Anthropic的RSP中定义的AI安全等级ASL）；社会层面涉及AI对劳动力市场的冲击评估、权力集中风险，以及AI决策的公平性问题；国际层面则需要跨国协调机制，如2023年英国AI安全峰会推动成立的AI安全研究所网络。越来越多的研究者认识到，即使完美解决了技术对齐问题，如果缺乏配套的制度和社会准备，AGI的部署仍可能带来严重风险。制度设计、评估体系、部署策略、国际协调等非技术因素同样不可或缺。

顶级AI安全人才的流向释放了什么信号

从更宏观的角度看，Leike在Anthropic获得启动新研究项目的机会，也折射出当前AI安全领域的人才竞争格局。顶级研究者的选择往往能反映出哪些机构在安全研究方面真正投入了足够的资源和自由度。相比之下，Anthropic、DeepMind的安全团队以及新兴的独立安全研究机构（如ARC Evals、METR）正在吸引越来越多的顶级人才，形成了一个以安全为核心使命的研究生态。这种人才流动的方向性本身就是一个重要信号：在AI能力飞速提升的当下，那些真正将安全研究视为核心优先级的机构，正在赢得最优秀研究者的信任和加入。

展望：AGI安全研究或将迎来新方向

Leike表示将很快公布更多信息。考虑到他在对齐研究领域的深厚积累，以及他明确提出"对齐只是其中之一"的判断，这个新项目很可能会为AGI安全研究开辟新的方向。无论具体内容如何，这都将是AI安全领域值得密切关注的重要进展。

Jan Leike在Anthropic启动新研究项目：对齐只是AGI安全的一部分

Jan Leike宣布在Anthropic启动全新研究项目

"对齐只是其中之一"——从对齐到更广阔的AGI安全视野

背景回顾：Jan Leike从OpenAI到Anthropic的历程

这个新项目对AI安全领域意味着什么

AGI安全是一项系统工程，不止于对齐

顶级AI安全人才的流向释放了什么信号

展望：AGI安全研究或将迎来新方向

核心要点

相关推荐

AI时代程序员生存指南：从代码生产者到AI指挥者的转型路径

AI时代IT行业五层金字塔：找准层次决定职业天花板

AI编程时代程序员会被替代吗？制造业与互联网差异深度解析