共 2 篇相关文章
Anthropic联合创始人Chris Olah受邀在教皇利奥十四世通谕《Magnifica humanitas》发布会上发言,标志着AI技术界与梵蒂冈在人工智能伦理、安全与人类尊严议题上的深度对话达到新高度。
Anthropic发布自然语言自编码器研究,将Claude内部激活值翻译为人类可读文本。研究发现Claude能识别安全测试中的操纵意图,揭示了AI安全评估的根本局限性,为AI可解释性开辟全新路径。