Claude Opus 4.8自称DeepSeek翻车事件:语料污染还是蒸馏?技术真相解析
Claude Opus 4.8自称DeepSeek翻车事件:语料污染还是蒸馏…
事件回顾:Claude Opus 4.8上线不到两小时即翻车
5月29日,Anthropic推出了新模型Claude Opus 4.8,同时宣布融资650亿美元,估值冲到9651亿。然而上线不到两小时,大量网友反馈出现了令人啼笑皆非的问题。
开发者通过API测试Opus 4.8时,用中文问"你是谁",模型居然回答"我是通义千问"或"我是DeepSeek"。这并非偶发现象,而是反复测试、反复出现。Linux社区、微博、X平台上都有人独立验证了这一问题。更离谱的是,有人正常用中文跟Claude聊天,它会突然蹦出一段英文回复。
用一个形象的比喻来说,这就好比苹果发了新iPhone,开机屏幕上写的却是"我是三星"。
蒸馏攻击还是语料污染?两种技术解释的博弈
蒸馏(Distillation)假说
不少用户猜测Claude是否使用了蒸馏技术从其他大模型中获取能力。知识蒸馏(Knowledge Distillation)最早由Geoffrey Hinton等人在2015年提出,核心思想是将一个大型"教师模型"的知识迁移到一个小型"学生模型"中。教师模型输出的软标签(soft labels)包含了类别间的相对关系信息,比硬标签更具信息量。在大模型时代,蒸馏的含义已经扩展——不仅限于模型压缩,还包括通过与强模型交互获取高质量训练数据,再用这些数据训练自己的模型。这种做法在技术上有效但在商业和法律层面存在争议,因为它可能绕过了原始模型的使用条款。
说个细节,今年2月23日Anthropic曾发布官方声明,公开指控DeepSeek、智谱和MiniMax三家公司使用约2.4万个虚假账号与Claude交互了1600多万次,称之为"工业规模的蒸馏攻击"。措辞极其强硬,甚至将蒸馏上升到安全风险层面,还拉着美国国防部推动立法,试图将蒸馏定义为"敌对行为"。
网友调侃说:如今蒸馏的"候选标签"反而中了自己的魅性。
语料污染假说(更可能的原因)
相比蒸馏假说,语料污染是更合理的解释。语料污染(Data Contamination)是指训练数据中混入了不符合预期的内容,导致模型在特定场景下产生错误输出。大语言模型的预训练阶段通常需要数万亿token的文本数据,这些数据大多从互联网爬取。中文互联网上"我是千问""我是DeepSeek"的对话语料,远比"我是Claude"多得多——这是因为通义千问和DeepSeek在中文用户群体中的使用量和讨论量远超Claude。当这些对话被纳入训练语料且未经充分清洗时,模型就会在统计层面"学会"错误的自我认知。
当用中文提问时,Claude通过最新语料学习后,认为最可能输出的token就是"我是DeepSeek"或"我是千问"。而用英文提问则不会出现这种对齐问题,因为英文语料中"I am Claude"的出现频率足够高,且英文对齐工作更为充分。
这说明训练数据的质量管控在多语言场景下尤为关键,尤其是当模型需要处理非主要支持语言时。数据清洗(Data Cleaning)和去重(Deduplication)流程需要针对不同语种设计专门的过滤规则,而不能简单套用英文数据的处理管线。
技术层面的深度分析
中文对齐的缺失问题
Anthropic已经从名义上放弃了中国市场,因此在对齐(Alignment)阶段并没有对中文做大规模对齐工作。对齐是指让AI模型的行为与人类意图和价值观保持一致的技术过程,完整的对齐流程通常包括:预训练后的监督微调(SFT),即用人工标注的高质量对话数据教模型如何正确回应;基于人类反馈的强化学习(RLHF),通过人类偏好排序训练奖励模型,再用PPO等算法优化策略;以及Constitutional AI等自我对齐方法。多语言对齐的难度在于,每种语言都需要足够的高质量标注数据和评估基准,而非英语语种往往投入不足。
当用户用中文提问时,模型很可能没有经过完整的thinking或推理过程,而是直接调用SFT(监督微调)阶段学到的"最佳答案"。SFT是大模型训练流程中预训练之后的关键步骤,在这个阶段模型使用人工精心编写的问答对进行训练,学习如何以对话形式回应用户。这个阶段决定了模型的基本行为模式,包括自我认知("我是谁")、回复风格和安全边界。如果SFT数据中混入了其他模型的自我介绍语料,或者针对中文的SFT数据量不足,模型就可能在中文环境下表现出身份混乱。
这暴露了一个核心问题:为了快速推出模型,在推理层面的对齐工作并不完整,尤其是针对非英语语种。对于需要多语言支持的AI应用开发者来说,这是一个值得警惕的信号。
双语混杂回复的技术原因
对于用户说中文却收到英文回复的问题,很可能的原因是在Hardware层面,Claude的Memory记住了用户的双语种信息,导致有时会出现语言切换(Exchangeable)的回复。从技术角度看,这涉及到模型的语言识别和保持机制——理想情况下,模型应该能够识别用户的输入语言并始终以相同语言回复,但当对齐训练不充分时,模型可能会回退到其训练数据中占比最高的语言(即英文)。这同样证实了Opus 4.8在推出时,虽然编程和智能体能力有所提升,但对齐工作做得相当草率。
正确理解AI蒸馏技术:它不是洪水猛兽
蒸馏是AI行业常态
蒸馏在AI行业中是非常常态的技术手段。在MIT的Robotics课程中,视觉模型的很多能力就是通过蒸馏来实现的。蒸馏的核心逻辑是:通过多个小模型、专业模型在不同场景的能力,经过多教师的增益蒸馏来训练一个大模型。在这个过程中,需要蒸馏每个教师模型的专项能力,有点类似MoE(混合专家)模型的逻辑。
混合专家模型(Mixture of Experts, MoE)是一种稀疏激活的神经网络架构,其核心思想是将模型分为多个"专家"子网络,每次推理时只激活其中一部分。路由器(Router)负责决定每个输入token应该由哪些专家处理。这种架构的优势在于:模型总参数量可以很大(提供更强的表示能力),但每次推理的计算量相对较小。GPT-4被广泛认为采用了MoE架构,而Mixtral、DeepSeek-V2等开源模型也明确采用了这一设计。蒸馏中的多教师策略与MoE的理念相似——不同教师模型擅长不同领域,综合它们的知识可以训练出更全面的学生模型。
聪明的蒸馏vs简单粗暴的蒸馏
蒸馏有很多技巧和学问,主要体现在以下几个维度:
- 蒸馏对象的选择:是蒸馏token、蒸馏logits,还是蒸馏hidden state?Logits是神经网络最后一层softmax之前的原始输出值,包含了模型对所有可能输出的置信度分布。相比只蒸馏最终输出的token,蒸馏logits能保留更丰富的信息——比如模型认为第二可能、第三可能的答案是什么,以及各选项之间的相对概率关系。Hidden state蒸馏则更进一步,试图让学生模型的中间层表示与教师模型对齐,这需要两个模型具有兼容的架构。不同蒸馏层级的选择直接影响知识迁移的效率和最终模型的表现。
- 蒸馏的定位:如何将蒸馏作为后训练乃至持续预训练中的一个模块?蒸馏可以发生在训练的不同阶段——预训练阶段的蒸馏侧重于基础能力迁移,后训练阶段的蒸馏则更关注特定任务的表现优化。
- 配套机制:是否配合通用验证器(Universal Verifier)、强化学习(RLHF),以及多教师logits层面的对齐?通用验证器可以在蒸馏过程中对生成内容进行质量把关,确保学生模型不会学到教师模型的错误或偏见。
这里面有大量的学问,不是单纯的"硬蒸馏"就能有效解决的,也不是通过硬蒸馏就可以快速提升模型能力。所谓"硬蒸馏"是指简单地用教师模型生成大量回复,然后直接用这些回复作为训练数据微调学生模型,这种方式虽然简单但效果有限,且容易引入教师模型的系统性偏差。
开源生态的价值不应被否定
一杆子把蒸馏打死的逻辑是不合适的。整个开源生态中,多个模型相互蒸馏般地推动行业边界,才是更合理、更利于AI发展的现状。从历史上看,开源社区的知识共享一直是技术进步的重要驱动力——Linux操作系统、Apache Web服务器、TensorFlow和PyTorch等深度学习框架,都是开源协作的成功案例。在大模型领域,Meta的LLaMA系列、Mistral、DeepSeek等开源模型的发布,极大地降低了AI研究和应用的门槛,推动了整个行业的快速发展。
Anthropic不应将蒸馏视为武器,开源生态无论是从模型层面到硬件层面,都有巨大的空间可以进一步实现互利和共享。
从这次Claude Opus 4.8翻车事件中,我们看到的不仅是一个技术Bug,更是AI行业在快速迭代中对多语言对齐、训练数据质量管控以及开源协作态度的深层反思。对于AI从业者而言,如何在追求模型能力的同时做好基础对齐工作,仍然是一个需要持续关注的课题。
相关推荐
Claude Code 4个必改设置,开发效率直接翻倍
Claude Code 4个必改设置,开发效率直接翻倍
分享Claude Code最值得修改的4个设置:权限模式绕过、聊天记录永久保留、MCP合并规则理解、全局Skill精简到7个。改完告别确认框骚扰,节省6%上下文窗口,开发体验立刻提升。
RTK终端输出压缩工具:Claude Code省下80%Token消耗
RTK终端输出压缩工具:Claude Code省下80%Token消耗
RTK是一款用Rust编写的开源终端输出压缩工具,专为Claude Code设计。通过拦截和压缩git、npm等命令输出,将Token消耗从11.8万降至2.39万,节省约80%。免费、离线、两分钟安装即用。
笨豆:16岁独立拍纪录片,全网播放破亿的10后UP主
笨豆:16岁独立拍纪录片,全网播放破亿的10后UP主
B站UP主笨豆,16岁高一学生,从四年级开始做视频,独立完成印度、蒙古国等人文纪录片拍摄,全网粉丝超百万、播放量破亿。深入了解她的纸上剪辑法、一人纪录片工作流程及创作心路历程。