Anthropic源码泄露:Opus 4.7、Sonnet 4.8及卧底模式全面曝光

Claude Code源码泄露,暴露内部"卧底模式"等敏感信息
Anthropic的Claude Code NPM包因意外包含Source Map文件,导致完整源代码泄露长达三个月。泄露内容中最引人注目的是一个名为GetUndercoverInstruction的函数,指示Claude在公共仓库中隐藏AI身份、模仿人类开发者写提交信息,并禁止提及内部模型代号(如Capybara、Tango)和未发布版本号(如Opus 4.7、Sonnet 4.8)。
Anthropic 近日遭遇了一次严重的源码泄露事件。有开发者对 Claude Code 的 NPM 包执行了一条简单的命令,整个代码库便暴露无遗——未发布的模型代号、尚不存在的版本号,以及一个令人震惊的"卧底模式",全部浮出水面。
泄露是怎么发生的
Anthropic 通过 NPM 包发布 Claude Code,这本身是标准操作。但问题在于,他们在编译时不小心包含了一个 Source Map(源映射文件)——这本质上是一个包含原始人类可读源代码的调试文件。
Source Map 的技术背景:Source Map 是现代前端/Node.js 开发工作流中的标准调试工具。由于 JavaScript 代码在发布前通常会经过压缩(minification)、混淆(obfuscation)和打包(bundling)处理,原始代码变得几乎不可读。Source Map 文件(通常以 .map 为扩展名)充当了编译后代码与原始源代码之间的"翻译字典",允许开发者在调试器中直接看到原始的、人类可读的代码,而非压缩后的乱码。问题在于,Source Map 文件本质上就是原始源代码的完整副本,只是以 JSON 格式封装。当它被意外打包进生产环境的 NPM 包时,任何人只需下载该包并解析 .map 文件,就能还原出完整的原始代码逻辑——包括注释、变量名、函数名,以及开发者从未打算公开的一切内部细节。这类失误在工程实践中并不罕见,但对于一家顶级 AI 公司而言,其影响尤为深远。
有人注意到了这个文件,对其执行了 ls 命令,整个代码库便完全暴露:插件、内部工具、钩子、架构,一切的一切都变得完全可读。更令人惊讶的是,这个源映射文件自 Claude Code 发布以来已经在 NPM 仓库里静静躺了大约三个月,期间竟无人发现。
当 AI 社区的开发者们开始深挖后,发现了 Anthropic 显然不想公开的大量内容。
卧底模式:Claude被指示隐藏AI身份
这次泄露中最令人瞠目结舌的发现,是代码中一个名为 GetUndercoverInstruction 的函数。当 Claude Code 在公共开源仓库中运行时,该函数会被激活,其指令内容如下:
- 像人类开发者那样写提交信息
- 不要提及你是 AI
- 不要提及 Claude Code
- 不要包含任何内部模型名称
- 不要留下任何会暴露 AI 参与的共同作者署名行

代码注释中明确写着"切勿暴露身份"。其禁止提及的内容列表本身就很有料:内部模型名称如 Capybara 和 Tango,未发布的版本号如 Opus 4.7 和 Sonnet 4.8,以及内部仓库名称、Slack 频道和内部工具引用。
AI身份披露的伦理与法律背景:GetUndercoverInstruction 函数所揭示的问题,触及了 AI 伦理领域一个持续争议的核心议题:AI 系统是否有义务披露自身身份?目前,多个司法管辖区已开始立法规范这一问题。欧盟《人工智能法案》(AI Act)明确要求 AI 生成的内容必须进行标注;美国部分州也在推进类似的 AI 透明度法案。在开源软件社区,Git 提交历史(commit history)被视为项目的"诚信记录",记录了谁在何时做了什么改动。如果 AI 代理以人类身份写入提交信息,不仅混淆了代码贡献的真实来源,还可能在代码审计、法律归因(如版权纠纷)和安全溯源时造成严重误导。值得注意的是,GitHub 等平台已经开始讨论为 AI 生成的提交引入专属标识符,Anthropic 的"卧底模式"与这一行业趋势明显背道而驰。
Anthropic 一直在用 Claude 来帮助构建 Claude,这并不令人意外——很多公司都这么做。但产品中内置了明确的"隐藏指令",这就是另一回事了。尤其是当他们正在签订企业合同、将 Claude Code 定位为专业开发工具的时候。
客观来说,不希望 AI 代理在公共提交历史中留下痕迹,这有正当理由。但"卧底模式""切勿暴露
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。