Anthropic源码泄露：Opus 4.7、Sonnet 4.8及卧底模式全面曝光

Anthropic 近日遭遇了一次严重的源码泄露事件。有开发者对 Claude Code 的 NPM 包执行了一条简单的命令，整个代码库便暴露无遗——未发布的模型代号、尚不存在的版本号，以及一个令人震惊的"卧底模式"，全部浮出水面。

泄露是怎么发生的

Anthropic 通过 NPM 包发布 Claude Code，这本身是标准操作。但问题在于，他们在编译时不小心包含了一个 Source Map（源映射文件）——这本质上是一个包含原始人类可读源代码的调试文件。

Source Map 的技术背景：Source Map 是现代前端/Node.js 开发工作流中的标准调试工具。由于 JavaScript 代码在发布前通常会经过压缩（minification）、混淆（obfuscation）和打包（bundling）处理，原始代码变得几乎不可读。Source Map 文件（通常以 .map 为扩展名）充当了编译后代码与原始源代码之间的"翻译字典"，允许开发者在调试器中直接看到原始的、人类可读的代码，而非压缩后的乱码。问题在于，Source Map 文件本质上就是原始源代码的完整副本，只是以 JSON 格式封装。当它被意外打包进生产环境的 NPM 包时，任何人只需下载该包并解析 .map 文件，就能还原出完整的原始代码逻辑——包括注释、变量名、函数名，以及开发者从未打算公开的一切内部细节。这类失误在工程实践中并不罕见，但对于一家顶级 AI 公司而言，其影响尤为深远。

有人注意到了这个文件，对其执行了 ls 命令，整个代码库便完全暴露：插件、内部工具、钩子、架构，一切的一切都变得完全可读。更令人惊讶的是，这个源映射文件自 Claude Code 发布以来已经在 NPM 仓库里静静躺了大约三个月，期间竟无人发现。

当 AI 社区的开发者们开始深挖后，发现了 Anthropic 显然不想公开的大量内容。

卧底模式：Claude被指示隐藏AI身份

这次泄露中最令人瞠目结舌的发现，是代码中一个名为 GetUndercoverInstruction 的函数。当 Claude Code 在公共开源仓库中运行时，该函数会被激活，其指令内容如下：

像人类开发者那样写提交信息
不要提及你是 AI
不要提及 Claude Code
不要包含任何内部模型名称
不要留下任何会暴露 AI 参与的共同作者署名行

像人类开发者那样写你的提交信息

代码注释中明确写着"切勿暴露身份"。其禁止提及的内容列表本身就很有料：内部模型名称如 Capybara 和 Tango，未发布的版本号如 Opus 4.7 和 Sonnet 4.8，以及内部仓库名称、Slack 频道和内部工具引用。

AI身份披露的伦理与法律背景：GetUndercoverInstruction 函数所揭示的问题，触及了 AI 伦理领域一个持续争议的核心议题：AI 系统是否有义务披露自身身份？目前，多个司法管辖区已开始立法规范这一问题。欧盟《人工智能法案》（AI Act）明确要求 AI 生成的内容必须进行标注；美国部分州也在推进类似的 AI 透明度法案。在开源软件社区，Git 提交历史（commit history）被视为项目的"诚信记录"，记录了谁在何时做了什么改动。如果 AI 代理以人类身份写入提交信息，不仅混淆了代码贡献的真实来源，还可能在代码审计、法律归因（如版权纠纷）和安全溯源时造成严重误导。值得注意的是，GitHub 等平台已经开始讨论为 AI 生成的提交引入专属标识符，Anthropic 的"卧底模式"与这一行业趋势明显背道而驰。

Anthropic 一直在用 Claude 来帮助构建 Claude，这并不令人意外——很多公司都这么做。但产品中内置了明确的"隐藏指令"，这就是另一回事了。尤其是当他们正在签订企业合同、将 Claude Code 定位为专业开发工具的时候。

客观来说，不希望 AI 代理在公共提交历史中留下痕迹，这有正当理由。但"卧底模式""切勿暴露

Anthropic源码泄露：Opus 4.7、Sonnet 4.8及卧底模式全面曝光

Anthropic 近日遭遇了一次严重的源码泄露事件。有开发者对 Claude Code 的 NPM 包执行了一条简单的命令，整个代码库便暴露无遗——未发布的模型代号、尚不存在的版本号，以及一个令人震惊的"卧底模式"，全部浮出水面。

泄露是怎么发生的

卧底模式：Claude被指示隐藏AI身份

相关推荐

GitHub Agent HQ发布：AI编程工具进入平台化竞争时代

Gemini 3.5 Flash在GDPval基准上实现巨大飞跃

Google Gemini Antigravity周配额三倍提升，AI编程不再受限