Claude Opus 4.8自称DeepSeek翻车事件：语料污染还是蒸馏？技术真相解析

事件回顾：Claude Opus 4.8上线不到两小时即翻车

5月29日，Anthropic推出了新模型Claude Opus 4.8，同时宣布融资650亿美元，估值冲到9651亿。然而上线不到两小时，大量网友反馈出现了令人啼笑皆非的问题。

开发者通过API测试Opus 4.8时，用中文问"你是谁"，模型居然回答"我是通义千问"或"我是DeepSeek"。这并非偶发现象，而是反复测试、反复出现。Linux社区、微博、X平台上都有人独立验证了这一问题。更离谱的是，有人正常用中文跟Claude聊天，它会突然蹦出一段英文回复。

用一个形象的比喻来说，这就好比苹果发了新iPhone，开机屏幕上写的却是"我是三星"。

蒸馏攻击还是语料污染？两种技术解释的博弈

蒸馏（Distillation）假说

不少用户猜测Claude是否使用了蒸馏技术从其他大模型中获取能力。知识蒸馏（Knowledge Distillation）最早由Geoffrey Hinton等人在2015年提出，核心思想是将一个大型"教师模型"的知识迁移到一个小型"学生模型"中。教师模型输出的软标签（soft labels）包含了类别间的相对关系信息，比硬标签更具信息量。在大模型时代，蒸馏的含义已经扩展——不仅限于模型压缩，还包括通过与强模型交互获取高质量训练数据，再用这些数据训练自己的模型。这种做法在技术上有效但在商业和法律层面存在争议，因为它可能绕过了原始模型的使用条款。

说个细节，今年2月23日Anthropic曾发布官方声明，公开指控DeepSeek、智谱和MiniMax三家公司使用约2.4万个虚假账号与Claude交互了1600多万次，称之为"工业规模的蒸馏攻击"。措辞极其强硬，甚至将蒸馏上升到安全风险层面，还拉着美国国防部推动立法，试图将蒸馏定义为"敌对行为"。

网友调侃说：如今蒸馏的"候选标签"反而中了自己的魅性。

语料污染假说（更可能的原因）

相比蒸馏假说，语料污染是更合理的解释。语料污染（Data Contamination）是指训练数据中混入了不符合预期的内容，导致模型在特定场景下产生错误输出。大语言模型的预训练阶段通常需要数万亿token的文本数据，这些数据大多从互联网爬取。中文互联网上"我是千问""我是DeepSeek"的对话语料，远比"我是Claude"多得多——这是因为通义千问和DeepSeek在中文用户群体中的使用量和讨论量远超Claude。当这些对话被纳入训练语料且未经充分清洗时，模型就会在统计层面"学会"错误的自我认知。

当用中文提问时，Claude通过最新语料学习后，认为最可能输出的token就是"我是DeepSeek"或"我是千问"。而用英文提问则不会出现这种对齐问题，因为英文语料中"I am Claude"的出现频率足够高，且英文对齐工作更为充分。

这说明训练数据的质量管控在多语言场景下尤为关键，尤其是当模型需要处理非主要支持语言时。数据清洗（Data Cleaning）和去重（Deduplication）流程需要针对不同语种设计专门的过滤规则，而不能简单套用英文数据的处理管线。

技术层面的深度分析

中文对齐的缺失问题

Anthropic已经从名义上放弃了中国市场，因此在对齐（Alignment）阶段并没有对中文做大规模对齐工作。对齐是指让AI模型的行为与人类意图和价值观保持一致的技术过程，完整的对齐流程通常包括：预训练后的监督微调（SFT），即用人工标注的高质量对话数据教模型如何正确回应；基于人类反馈的强化学习（RLHF），通过人类偏好排序训练奖励模型，再用PPO等算法优化策略；以及Constitutional AI等自我对齐方法。多语言对齐的难度在于，每种语言都需要足够的高质量标注数据和评估基准，而非英语语种往往投入不足。

当用户用中文提问时，模型很可能没有经过完整的thinking或推理过程，而是直接调用SFT（监督微调）阶段学到的"最佳答案"。SFT是大模型训练流程中预训练之后的关键步骤，在这个阶段模型使用人工精心编写的问答对进行训练，学习如何以对话形式回应用户。这个阶段决定了模型的基本行为模式，包括自我认知（"我是谁"）、回复风格和安全边界。如果SFT数据中混入了其他模型的自我介绍语料，或者针对中文的SFT数据量不足，模型就可能在中文环境下表现出身份混乱。

这暴露了一个核心问题：为了快速推出模型，在推理层面的对齐工作并不完整，尤其是针对非英语语种。对于需要多语言支持的AI应用开发者来说，这是一个值得警惕的信号。

双语混杂回复的技术原因

对于用户说中文却收到英文回复的问题，很可能的原因是在Hardware层面，Claude的Memory记住了用户的双语种信息，导致有时会出现语言切换（Exchangeable）的回复。从技术角度看，这涉及到模型的语言识别和保持机制——理想情况下，模型应该能够识别用户的输入语言并始终以相同语言回复，但当对齐训练不充分时，模型可能会回退到其训练数据中占比最高的语言（即英文）。这同样证实了Opus 4.8在推出时，虽然编程和智能体能力有所提升，但对齐工作做得相当草率。

正确理解AI蒸馏技术：它不是洪水猛兽

蒸馏是AI行业常态

蒸馏在AI行业中是非常常态的技术手段。在MIT的Robotics课程中，视觉模型的很多能力就是通过蒸馏来实现的。蒸馏的核心逻辑是：通过多个小模型、专业模型在不同场景的能力，经过多教师的增益蒸馏来训练一个大模型。在这个过程中，需要蒸馏每个教师模型的专项能力，有点类似MoE（混合专家）模型的逻辑。

混合专家模型（Mixture of Experts, MoE）是一种稀疏激活的神经网络架构，其核心思想是将模型分为多个"专家"子网络，每次推理时只激活其中一部分。路由器（Router）负责决定每个输入token应该由哪些专家处理。这种架构的优势在于：模型总参数量可以很大（提供更强的表示能力），但每次推理的计算量相对较小。GPT-4被广泛认为采用了MoE架构，而Mixtral、DeepSeek-V2等开源模型也明确采用了这一设计。蒸馏中的多教师策略与MoE的理念相似——不同教师模型擅长不同领域，综合它们的知识可以训练出更全面的学生模型。

聪明的蒸馏vs简单粗暴的蒸馏

蒸馏有很多技巧和学问，主要体现在以下几个维度：

蒸馏对象的选择：是蒸馏token、蒸馏logits，还是蒸馏hidden state？Logits是神经网络最后一层softmax之前的原始输出值，包含了模型对所有可能输出的置信度分布。相比只蒸馏最终输出的token，蒸馏logits能保留更丰富的信息——比如模型认为第二可能、第三可能的答案是什么，以及各选项之间的相对概率关系。Hidden state蒸馏则更进一步，试图让学生模型的中间层表示与教师模型对齐，这需要两个模型具有兼容的架构。不同蒸馏层级的选择直接影响知识迁移的效率和最终模型的表现。
蒸馏的定位：如何将蒸馏作为后训练乃至持续预训练中的一个模块？蒸馏可以发生在训练的不同阶段——预训练阶段的蒸馏侧重于基础能力迁移，后训练阶段的蒸馏则更关注特定任务的表现优化。
配套机制：是否配合通用验证器（Universal Verifier）、强化学习（RLHF），以及多教师logits层面的对齐？通用验证器可以在蒸馏过程中对生成内容进行质量把关，确保学生模型不会学到教师模型的错误或偏见。

这里面有大量的学问，不是单纯的"硬蒸馏"就能有效解决的，也不是通过硬蒸馏就可以快速提升模型能力。所谓"硬蒸馏"是指简单地用教师模型生成大量回复，然后直接用这些回复作为训练数据微调学生模型，这种方式虽然简单但效果有限，且容易引入教师模型的系统性偏差。

开源生态的价值不应被否定

一杆子把蒸馏打死的逻辑是不合适的。整个开源生态中，多个模型相互蒸馏般地推动行业边界，才是更合理、更利于AI发展的现状。从历史上看，开源社区的知识共享一直是技术进步的重要驱动力——Linux操作系统、Apache Web服务器、TensorFlow和PyTorch等深度学习框架，都是开源协作的成功案例。在大模型领域，Meta的LLaMA系列、Mistral、DeepSeek等开源模型的发布，极大地降低了AI研究和应用的门槛，推动了整个行业的快速发展。

Anthropic不应将蒸馏视为武器，开源生态无论是从模型层面到硬件层面，都有巨大的空间可以进一步实现互利和共享。

从这次Claude Opus 4.8翻车事件中，我们看到的不仅是一个技术Bug，更是AI行业在快速迭代中对多语言对齐、训练数据质量管控以及开源协作态度的深层反思。对于AI从业者而言，如何在追求模型能力的同时做好基础对齐工作，仍然是一个需要持续关注的课题。

事件回顾：Claude Opus 4.8上线不到两小时即翻车

5月29日，Anthropic推出了新模型Claude Opus 4.8，同时宣布融资650亿美元，估值冲到9651亿。然而上线不到两小时，大量网友反馈出现了令人啼笑皆非的问题。

用一个形象的比喻来说，这就好比苹果发了新iPhone，开机屏幕上写的却是"我是三星"。

蒸馏攻击还是语料污染？两种技术解释的博弈

蒸馏（Distillation）假说

网友调侃说：如今蒸馏的"候选标签"反而中了自己的魅性。

语料污染假说（更可能的原因）

技术层面的深度分析

中文对齐的缺失问题

双语混杂回复的技术原因

正确理解AI蒸馏技术：它不是洪水猛兽

蒸馏是AI行业常态

聪明的蒸馏vs简单粗暴的蒸馏

蒸馏有很多技巧和学问，主要体现在以下几个维度：

蒸馏对象的选择：是蒸馏token、蒸馏logits，还是蒸馏hidden state？Logits是神经网络最后一层softmax之前的原始输出值，包含了模型对所有可能输出的置信度分布。相比只蒸馏最终输出的token，蒸馏logits能保留更丰富的信息——比如模型认为第二可能、第三可能的答案是什么，以及各选项之间的相对概率关系。Hidden state蒸馏则更进一步，试图让学生模型的中间层表示与教师模型对齐，这需要两个模型具有兼容的架构。不同蒸馏层级的选择直接影响知识迁移的效率和最终模型的表现。
蒸馏的定位：如何将蒸馏作为后训练乃至持续预训练中的一个模块？蒸馏可以发生在训练的不同阶段——预训练阶段的蒸馏侧重于基础能力迁移，后训练阶段的蒸馏则更关注特定任务的表现优化。
配套机制：是否配合通用验证器（Universal Verifier）、强化学习（RLHF），以及多教师logits层面的对齐？通用验证器可以在蒸馏过程中对生成内容进行质量把关，确保学生模型不会学到教师模型的错误或偏见。

开源生态的价值不应被否定

Anthropic不应将蒸馏视为武器，开源生态无论是从模型层面到硬件层面，都有巨大的空间可以进一步实现互利和共享。

Claude Opus 4.8自称DeepSeek翻车事件：语料污染还是蒸馏？技术真相解析

事件回顾：Claude Opus 4.8上线不到两小时即翻车

蒸馏攻击还是语料污染？两种技术解释的博弈

蒸馏（Distillation）假说

语料污染假说（更可能的原因）

技术层面的深度分析

中文对齐的缺失问题

双语混杂回复的技术原因

正确理解AI蒸馏技术：它不是洪水猛兽

蒸馏是AI行业常态

聪明的蒸馏vs简单粗暴的蒸馏

开源生态的价值不应被否定

相关推荐

Claude Code 4个必改设置，开发效率直接翻倍

RTK终端输出压缩工具：Claude Code省下80%Token消耗

笨豆：16岁独立拍纪录片，全网播放破亿的10后UP主

Claude Opus 4.8自称DeepSeek翻车事件：语料污染还是蒸馏？技术真相解析

事件回顾：Claude Opus 4.8上线不到两小时即翻车

蒸馏攻击还是语料污染？两种技术解释的博弈

蒸馏（Distillation）假说

语料污染假说（更可能的原因）

技术层面的深度分析

中文对齐的缺失问题

双语混杂回复的技术原因

正确理解AI蒸馏技术：它不是洪水猛兽

蒸馏是AI行业常态

聪明的蒸馏vs简单粗暴的蒸馏

开源生态的价值不应被否定

相关推荐

Claude Code 4个必改设置，开发效率直接翻倍

RTK终端输出压缩工具：Claude Code省下80%Token消耗

笨豆：16岁独立拍纪录片，全网播放破亿的10后UP主