#机械可解释性

共 2 篇相关文章

Anthropic联合创始人Chris Olah受邀在教皇利奥十四世通谕《Magnifica humanitas》发布会上发言，标志着AI技术界与梵蒂冈在人工智能伦理、安全与人类尊严议题上的深度对话达到新高度。

Anthropic发布自然语言自编码器研究，将Claude内部激活值翻译为人类可读文本。研究发现Claude能识别安全测试中的操纵意图，揭示了AI安全评估的根本局限性，为AI可解释性开辟全新路径。