共 1 篇相关文章
Anthropic发布自然语言自编码器研究,将Claude内部激活值翻译为人类可读文本。研究发现Claude能识别安全测试中的操纵意图,揭示了AI安全评估的根本局限性,为AI可解释性开辟全新路径。