播客频道 | Google翻译20年技术演进：从万亿token到TPU再到Gemini

最近Jeff Dean发了一条很有意思的帖子，回顾Google翻译20周年。我看完之后最大的感受是——这哪是一个翻译产品的历史，这简直就是整个现代AI的编年史。对，我看到那条也特别感慨。你想啊，2006年、2016年、2024年，三个关键节点，刚好对应AI发展的三个大时代——统计学习、深度学习、大模型。一个产品能完整经历这三次范式转换，还活得好好的，确实挺罕见的。那我们就从2006年聊起。Jeff Dean说他深度参与了Google翻译的初始系统部署，核心是一个5-gram语言模型，在数万亿词上训练的。这个规模在当时意味着什么？意味着疯狂。你得理解当时的背景，2006年大多数语言模型还停留在3-gram的水平，也就是用前两个词预测第三个词。Google翻译团队直接干到了5-gram，而且训练数据是万亿token级别的。这可能是世界上第一个万亿token规模的语言模型。等等，万亿token？这个数字放到今天大模型时代好像也不算小了。嗯，当然模型本身的复杂度跟今天的Transformer没法比，但数据规模确实是开创性的。而且更有意思的是，他们在论文里已经观察到了一个现象——随着数据量从几十亿词扩展到几万亿词，翻译质量呈现出可预测的、持续的提升。你听着耳熟吗？这不就是Scaling Law吗？但Scaling Law不是2020年OpenAI那篇论文才正式提出的？对，这就是最让人感叹的地方。OpenAI在2020年系统总结了模型性能和参数量、数据量、计算量之间的幂律关系，但这个经验规律Google翻译团队在2006年就已经在实践中看到了。只不过当时是在统计模型上观察到的，没有被数学化和系统化。所以说Scaling Law不是深度学习时代的专属发现，它其实是机器学习领域一个更底层的规律。这么说的话，整个行业在2020年代热烈讨论的东西，Google的人近20年前就已经在用了。可以这么理解。不过公平地说，当时的人可能也没有完全意识到这个规律的普遍性和深远意义。有时候你在实践中看到了一个现象，但要等到合适的理论框架出现，才能真正理解它。好，那我们跳到2016年。这一年Google翻译发生了一次彻底的范式转换——从统计机器翻译转向了深度神经网络。Jeff Dean说这次转型依赖两项关键创新，一个是Seq2Seq模型，一个是TPU。对，先说Seq2Seq。之前的统计机器翻译，本质上是把句子切成一段一段的短语，分别翻译完再拼起来重新排列。这种方法有个致命问题——它抓不住长距离的语义关系。比如一个句子开头的主语和结尾的动词之间有很强的依赖关系，统计方法很难处理好。翻出来的句子经常是每个片段都对，但整体读起来不通顺。 Seq2Seq就是解决这个问题的？没错。Seq2Seq是Ilya Sutskever他们2014年提出的，用一个编码器把整个输入句子压缩成一个向量，再用解码器从这个向量逐步生成翻译结果。这是端到端的学习，不需要分词、对齐、短语提取这些复杂的中间步骤了。后来又加上了注意力机制，让解码器在生成每个词的时候能动态关注输入句子的不同部分。其实你仔细想，Seq2Seq加注意力机制，就是后来Transformer的直接前身。 Google后来发布的GNMT系统，据说翻译错误率降低了55%到85%？这个数字有点夸张吧。听起来夸张，但确实是论文里报告的数据。GNMT用了8层LSTM编码器加8层LSTM解码器，还有残差连接和注意力机制，在多个语言对上都取得了巨大的提升。更重要的是，它证明了神经网络翻译不只是在学术评测上好看，在真实的大规模生产环境中也能稳定运行。这一步跨出去意义非常大。说到生产环境，这就要提到第二项创新了——TPU。嗯，这是很多人容易忽视的一点。你模型再好，如果推理速度跟不上、成本降不下来，就没法服务数亿用户。TPU是Google自研的AI加速芯片，采用脉动阵列架构，专门为矩阵乘法和卷积运算优化。第一代TPU相比当时的CPU和GPU，推理性能提升了30到80倍，延迟降低了15到30倍。 30到80倍，这个提升幅度确实惊人。对，而且它的设计哲学很有意思——牺牲通用性换极致的能效比。对于翻译这种需要7×24小时在线运行的服务来说，每瓦特的性能比什么都重要。TPU的成功也开启了整个AI专用芯片的浪潮，后来亚马逊做了Trainium，微软做了Maia，一大堆创业公司也涌进来了。所以2016年这次转型，本质上是算法和硬件的全栈协同创新。没错，这也是Google翻译这个案例最有启发性的地方之一。很多人讨论AI只关注模型架构，但产品化从来不是单点突破能解决的问题。没有TPU，GNMT就只能是一篇漂亮的论文。好，最后聊聊最新的变化。Jeff Dean提到Google翻译已经引入了Gemini模型。这意味着什么？这标志着从任务专用模型转向通用基础模型的范式转变。之前不管是5-gram还是GNMT，都是专门为翻译任务设计和训练的。Gemini是一个多模态的通用大模型，翻译只是它众多能力中的一个。它的优势在于对语境、文化背景和隐含语义的理解能力更强——不只是翻译字面意思，还能更好地处理习语、双关语这些东西。但通用模型做翻译也有风险吧？比如大模型的幻觉问题，翻译的时候如果模型自己编东西就麻烦了。你说到点子上了。幻觉问题、翻译忠实度、推理成本，这些都是新的挑战。用大模型做翻译不是简单地把Gemini接上去就完事了，背后肯定有大量的工程优化和质量控制。不过从趋势上看，通用模型的专业化应用确实是未来的方向。回头看这20年，从统计模型到深度学习再到大模型，三次范式转换，Google翻译始终没掉队。我觉得这种持续迭代的能力，可能比任何单一技术突破都更值得学习。完全同意。而且每一次转型都不是小修小补，是整个技术栈的重构。能做到这一点，需要的不只是技术实力，还有组织层面的勇气和决断力。Jeff Dean说Google翻译是他最喜欢的Google产品之一，因为它让人们更紧密地联系在一起。一个20岁的产品还在不断进化，这本身就是最好的故事。嗯，而且这个故事还远没有结束。

Google翻译20年技术演进：从万亿token到TPU再到Gemini

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报

Google翻译20年技术演进：从万亿token到TPU再到Gemini

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报