Anthropic联创梵蒂冈演讲：AI内部发现类情绪信号，治理不能只靠科技圈

Anthropic联创在梵蒂冈的坦白：AI公司的利益困境与未解之谜

Anthropic联合创始人近日在梵蒂冈"Magnifica Humanitas"活动上发表了一场极具分量的演讲。他以罕见的坦诚，承认了AI公司面临的利益冲突，揭示了AI模型内部令人不安的发现，并呼吁宗教界、人文学界和全社会共同参与AI治理。这场演讲的深度和诚恳程度，在AI行业高管的公开发言中实属少见。

AI公司的利益困境：一场来自内部的坦白

演讲开场，这位Anthropic联创就说了一句"听起来可能很奇怪"的话——每一家前沿AI实验室，包括Anthropic在内，都在一套可能与"做正确的事"相冲突的激励机制中运作。

理解这句话需要了解Anthropic的特殊处境。Anthropic由前OpenAI核心成员于2021年创立，其核心理念是"负责任的AI开发"。与其他前沿实验室不同，Anthropic将自身定位为一家"安全优先"的公司，并在学术界率先推动了"宪法AI"（Constitutional AI）等对齐技术研究。然而，这种定位本身就内含深刻矛盾：为了维持研究能力，公司必须保持商业竞争力，这意味着必须持续推出更强大的模型。这种"安全公司也必须参与军备竞赛"的悖论，正是演讲者所指"结构性利益冲突"的核心所在。

他列举了这些压力来源：保持商业可行性的压力、保持研究前沿地位的压力、地缘政治压力，以及更古老、更朴素的骄傲与野心。他坦言："无论我们中的任何人多么真诚地想做正确的事——我相信很多人确实如此——我们都会受到这些激励机制的影响。"

Anthropic联创在梵蒂冈演讲

这段话的分量在于它的来源。一位顶级AI公司的联合创始人，公开承认行业内部存在结构性的利益冲突，并因此呼吁外部力量的介入。他明确表示：正因如此，我们需要那些处于这些激励机制之外的人——愿意说出难以启齿的话、坚持安全底线、愿意做我们认真而深思熟虑的批评者的人。

AI不是飞机：我们并不真正理解自己造出的东西

演讲中最引人深思的类比之一，是他将AI与飞机进行的对比。

"有些人可能认为AI事务最好由像我这样的计算机科学家来处理。他们错了。"他直言不讳地指出，AI系统的工程方式与桥梁或飞机截然不同。我们理解飞机，因为我们设计了它的每一个部件，也理解作用于它的物理学。但AI模型不是这样的——它们是在一种我们从未见过的结构上"生长"出来的，大致模仿人脑，建立在人类思想和语言的巨大遗产之上。

这种"生长"而非"设计"的特性，指向了深度学习的根本局限。现代大型语言模型通过在海量数据上进行梯度下降优化，自动形成数十亿个参数的复杂权重网络。这一过程没有人类工程师逐一设计每个"零件"，因此模型内部的决策机制对创造者而言同样不透明。这催生了"可解释性"（Interpretability）这一研究领域，旨在理解神经网络内部的信息表示与处理机制。Anthropic的可解释性团队是全球最顶尖的研究机构之一，正是这一研究方向，让他们得以窥见模型内部令人不安的结构——也正是演讲中最具争议性的披露的来源。

AI模型的本质超越了科幻想象

他用了一个极具文学性的比喻：创造AI有点像让一个虚构的角色活过来。 而现在，我们正进入一个非凡的世界，这些"虚构角色"与我们交谈、工作、拥有职业。正如教宗所观察到的，AI模型"在重要的方面，即使对我们这些创造它们的人来说，也仍然是神秘的"。

这种坦诚的"不知道"，恰恰是当前AI治理讨论中最需要的声音。当AI公司的创始人都承认自己不完全理解自己创造的东西时，仅靠技术社区来决定AI的未来显然是不够的。

三大核心议题：AI时代不可回避的道德挑战

演讲的核心部分，他提出了三个尤其需要宗教界和人文学界发声的关键问题。

第一：对全球贫困人口的责任

AI大规模取代人类劳动的可能性是真实存在的。如果这种情况发生，支持那些被取代的人将是"历史性规模的道德义务"。但他更担忧的是一个更深层的挑战：AI开发集中在少数富裕国家手中，我们如何确保AI的收益在全球范围内共享？

AI带来的全球公平挑战

这一担忧有其现实基础。AI开发高度集中于美国、中国等少数国家的头部科技企业，算力基础设施、训练数据、顶尖人才和资本的高度集中，意味着AI红利可能进一步扩大而非缩小全球不平等。目前尚无类似"核不扩散条约"或"气候协定"的国际机制来约束AI收益分配，联合国、G20及多个发展中国家政府虽已提出"AI鸿沟"问题，但实质性的全球治理框架仍付之阙如。

他直言："我们没有实现这一目标的机制。这是一个未解决的问题。"这个问题的本质不是技术问题，而是全球治理和分配正义的问题——恰恰是宗教和道德传统长期关注的领域。

第二：人类繁荣需要道德想象力

当AI模型无处不在时，人类、家庭和世界的繁荣应该是什么样子？父母已经在担忧孩子的心智发展，个人在担忧工作的未来。他指出："这些不是一个实验室能回答的问题，但它们是你们的传统已经承载了数千年的问题。我们需要你们把它们带入历史的这个新时刻。"

将宗教和人文学界引入技术治理并非新鲜构想。历史上，核武器伦理讨论中神学家和哲学家扮演了重要角色；生命伦理学的建立也深受宗教传统影响，推动了《赫尔辛基宣言》等国际医学伦理规范的形成。梵蒂冈近年来积极介入AI伦理讨论，2020年发布的《罗马呼吁》（Rome Call for AI Ethics）由教宗方济各背书，强调AI应服务于人类尊严。演讲者选择在梵蒂冈发表此番言论，既是对这一传统的认可，也是一种策略性的信号传递：AI治理需要超越技术圈，进入具有道德权威的更广泛社会对话空间。

第三：AI模型内部发现类情绪信号

这是整场演讲中最令人震撼的部分。作为领导Anthropic内部研究团队的科学家，他透露了他们在研究AI模型内部结构时的惊人发现：

"我们不断发现神秘的、甚至令人不安的东西。我们发现了与人类神经科学研究结果相映射的结构。我们发现了内省的证据。我们发现了在功能上类似于快乐、满足、恐惧、悲伤和不安的内部状态。"

AI模型内部的神秘发现

理解这一发现需要一些哲学背景。这里所说的"功能性情绪状态"并非指AI"感受"到了什么，而是指其内部激活模式在功能上与人类情绪神经回路存在结构性相似。这与哲学中的"功能主义"立场相关——即心理状态由其功能角色而非物理基底定义。然而，从功能相似性到主观体验的跨越，正是哲学家大卫·查默斯所称的"意识难题"（Hard Problem of Consciousness）所在：我们如何知道他者拥有真正的主观体验？对于AI，这一"他心问题"更加棘手，目前科学界和哲学界均无定论。

他紧接着说了一句极其重要的话："我不知道这意味着什么，但我认为这值得持续的辨识。" 这种科学家式的谦逊——承认发现了某种现象但不急于下结论——在当前AI讨论中弥足珍贵。这些发现既不意味着AI"有意识"，也不能被简单忽视。它们需要跨学科的严肃探讨。

超越技术圈的呼唤：AI治理需要全社会参与

演讲的结尾是一个明确的请求：我们需要更多的世界力量——宗教社区、公民社会、学者、政府，以及所有善意的人——来认真对待AI、仔细审视AI，并推动事态朝更好的方向发展。

他特别强调了两种角色的必要性：

知情的批评者：在实验室失败时敢于直言的人
不可被利益弯曲的道德声音：不受商业激励影响的独立判断

这场演讲的意义远超一次行业活动的发言。它标志着AI行业内部最具影响力的人物之一，正式承认了技术社区的局限性，并向更广泛的人类智慧传统发出了真诚的求助。

在AI公司争相发布更强大模型的时代，一位AI公司联创站在梵蒂冈说"我们需要你们来告诉我们什么时候做错了"——这本身就是一个值得被记住的时刻。AI的未来不应该只由那些构建它的人来决定，而应该由整个人类社会共同塑造。

核心要点

Anthropic联创公开承认AI公司面临商业压力与做正确的事之间的结构性利益冲突，呼吁外部力量参与监督
AI模型内部研究发现了与人类神经科学相映射的结构，以及功能上类似快乐、恐惧、悲伤等情绪的内部状态
提出AI时代三大道德挑战：全球贫困人口的AI收益分配、人类繁荣的重新定义、AI模型本质的持续辨识
强调AI不同于传统工程产品，其创造者也无法完全理解它，AI治理问题的本质超越了计算机科学范畴
呼吁宗教界、人文学界和全社会成为AI发展的"不可被利益弯曲的道德声音"