最近Jeff Dean发了一条很有意思的帖子,回顾Google翻译20周年。我看完之后最大的感受是——这哪是一个翻译产品的历史,这简直就是整个现代AI的编年史。
对,我看到那条也特别感慨。你想啊,2006年、2016年、2024年,三个关键节点,刚好对应AI发展的三个大时代——统计学习、深度学习、大模型。一个产品能完整经历这三次范式转换,还活得好好的,确实挺罕见的。
那我们就从2006年聊起。Jeff Dean说他深度参与了Google翻译的初始系统部署,核心是一个5-gram语言模型,在数万亿词上训练的。这个规模在当时意味着什么?
意味着疯狂。你得理解当时的背景,2006年大多数语言模型还停留在3-gram的水平,也就是用前两个词预测第三个词。Google翻译团队直接干到了5-gram,而且训练数据是万亿token级别的。这可能是世界上第一个万亿token规模的语言模型。
等等,万亿token?这个数字放到今天大模型时代好像也不算小了。
嗯,当然模型本身的复杂度跟今天的Transformer没法比,但数据规模确实是开创性的。而且更有意思的是,他们在论文里已经观察到了一个现象——随着数据量从几十亿词扩展到几万亿词,翻译质量呈现出可预测的、持续的提升。你听着耳熟吗?
这不就是Scaling Law吗?但Scaling Law不是2020年OpenAI那篇论文才正式提出的?
对,这就是最让人感叹的地方。OpenAI在2020年系统总结了模型性能和参数量、数据量、计算量之间的幂律关系,但这个经验规律Google翻译团队在2006年就已经在实践中看到了。只不过当时是在统计模型上观察到的,没有被数学化和系统化。所以说Scaling Law不是深度学习时代的专属发现,它其实是机器学习领域一个更底层的规律。
这么说的话,整个行业在2020年代热烈讨论的东西,Google的人近20年前就已经在用了。
可以这么理解。不过公平地说,当时的人可能也没有完全意识到这个规律的普遍性和深远意义。有时候你在实践中看到了一个现象,但要等到合适的理论框架出现,才能真正理解它。
好,那我们跳到2016年。这一年Google翻译发生了一次彻底的范式转换——从统计机器翻译转向了深度神经网络。Jeff Dean说这次转型依赖两项关键创新,一个是Seq2Seq模型,一个是TPU。
对,先说Seq2Seq。之前的统计机器翻译,本质上是把句子切成一段一段的短语,分别翻译完再拼起来重新排列。这种方法有个致命问题——它抓不住长距离的语义关系。比如一个句子开头的主语和结尾的动词之间有很强的依赖关系,统计方法很难处理好。翻出来的句子经常是每个片段都对,但整体读起来不通顺。
Seq2Seq就是解决这个问题的?
没错。Seq2Seq是Ilya Sutskever他们2014年提出的,用一个编码器把整个输入句子压缩成一个向量,再用解码器从这个向量逐步生成翻译结果。这是端到端的学习,不需要分词、对齐、短语提取这些复杂的中间步骤了。后来又加上了注意力机制,让解码器在生成每个词的时候能动态关注输入句子的不同部分。其实你仔细想,Seq2Seq加注意力机制,就是后来Transformer的直接前身。
Google后来发布的GNMT系统,据说翻译错误率降低了55%到85%?这个数字有点夸张吧。
听起来夸张,但确实是论文里报告的数据。GNMT用了8层LSTM编码器加8层LSTM解码器,还有残差连接和注意力机制,在多个语言对上都取得了巨大的提升。更重要的是,它证明了神经网络翻译不只是在学术评测上好看,在真实的大规模生产环境中也能稳定运行。这一步跨出去意义非常大。
说到生产环境,这就要提到第二项创新了——TPU。
嗯,这是很多人容易忽视的一点。你模型再好,如果推理速度跟不上、成本降不下来,就没法服务数亿用户。TPU是Google自研的AI加速芯片,采用脉动阵列架构,专门为矩阵乘法和卷积运算优化。第一代TPU相比当时的CPU和GPU,推理性能提升了30到80倍,延迟降低了15到30倍。
30到80倍,这个提升幅度确实惊人。
对,而且它的设计哲学很有意思——牺牲通用性换极致的能效比。对于翻译这种需要7×24小时在线运行的服务来说,每瓦特的性能比什么都重要。TPU的成功也开启了整个AI专用芯片的浪潮,后来亚马逊做了Trainium,微软做了Maia,一大堆创业公司也涌进来了。
所以2016年这次转型,本质上是算法和硬件的全栈协同创新。
没错,这也是Google翻译这个案例最有启发性的地方之一。很多人讨论AI只关注模型架构,但产品化从来不是单点突破能解决的问题。没有TPU,GNMT就只能是一篇漂亮的论文。
好,最后聊聊最新的变化。Jeff Dean提到Google翻译已经引入了Gemini模型。这意味着什么?
这标志着从任务专用模型转向通用基础模型的范式转变。之前不管是5-gram还是GNMT,都是专门为翻译任务设计和训练的。Gemini是一个多模态的通用大模型,翻译只是它众多能力中的一个。它的优势在于对语境、文化背景和隐含语义的理解能力更强——不只是翻译字面意思,还能更好地处理习语、双关语这些东西。
但通用模型做翻译也有风险吧?比如大模型的幻觉问题,翻译的时候如果模型自己编东西就麻烦了。
你说到点子上了。幻觉问题、翻译忠实度、推理成本,这些都是新的挑战。用大模型做翻译不是简单地把Gemini接上去就完事了,背后肯定有大量的工程优化和质量控制。不过从趋势上看,通用模型的专业化应用确实是未来的方向。
回头看这20年,从统计模型到深度学习再到大模型,三次范式转换,Google翻译始终没掉队。我觉得这种持续迭代的能力,可能比任何单一技术突破都更值得学习。
完全同意。而且每一次转型都不是小修小补,是整个技术栈的重构。能做到这一点,需要的不只是技术实力,还有组织层面的勇气和决断力。Jeff Dean说Google翻译是他最喜欢的Google产品之一,因为它让人们更紧密地联系在一起。一个20岁的产品还在不断进化,这本身就是最好的故事。
嗯,而且这个故事还远没有结束。