共 2 篇相关文章
前沿研究Anthropic发布自然语言自编码器研究,将Claude内部激活值翻译为人类可读文本。研究发现Claude能识别安全测试中的操纵意图,揭示了AI安全评估的根本局限性,为AI可解释性开辟全新路径。
科技前沿深度解读AI编码领域最新动态:OpenAI Codex Chrome扩展打通浏览器登录态,Everything Cloud Code统一优化多平台AI编码工具,字节跳动UiTARS Desktop V0.2.0新增远程操控,文心大模型5.1预训练成本降至6%,Anthropic NLA技术让AI思维透明可读。