今天聊一个我觉得挺有标志性意义的事儿——Google在Cloud Next大会上,把TPU产品线正式一分为二了。一个叫v8t,专门做训练;一个叫v8i,专门做推理。你看这命名就很直白,t就是training,i就是inference。
对,其实我看到这个消息的时候第一反应是:终于。因为训练和推理这两件事,从计算特征上来说差异真的太大了。以前用一颗芯片去兼顾两边,本质上就是在做妥协。Google这次算是把这层窗户纸正式捅破了。
能不能给大家拆解一下,训练和推理到底差在哪?很多人可能觉得不都是跑模型嘛,为什么需要两种不同的芯片?
嗯,打个比方吧。训练就像是一个学生在反复刷题、改错、再刷题,这个过程需要大量的草稿纸,还需要非常精确的计算——你得算梯度、更新参数、做反向传播,整个过程对内存带宽和浮点精度的要求极高。所以v8t这边重点堆的就是高带宽内存HBM和强悍的浮点算力。现在主流的HBM3E,单堆栈带宽就超过1TB每秒,就是为了让几千亿甚至万亿参数能在芯片和内存之间高速搬运。
那推理呢?
推理就像是考试,题目来了你只需要做一遍,不用反复迭代。但关键是你得快,延迟要低,而且要省电省钱。特别是现在大语言模型的推理,每生成一个token都要重新算一遍注意力机制里的KV Cache,这其实是个内存带宽受限的任务,而不是算力受限。所以推理芯片的设计思路完全不同——它会在INT8甚至INT4这种低精度计算上做更多投入,优化片上缓存来减少内存访问延迟。据行业估算,推理算力消耗已经占到AI总算力的60%以上了,这个市场太大了。
这么一说就很清楚了。其实我注意到一个细节,Google的BF16格式也是个很聪明的设计——保留了FP32的指数范围,但砍掉了一些尾数精度,训练质量几乎不受影响,计算吞吐量直接翻倍。
没错,这就是Google在数据格式层面的优化哲学。你看,芯片设计不光是堆晶体管,数据格式、互联架构、软件栈,每一层都有文章可做。
说到互联架构,这个其实也很关键。现在大模型动辄几千亿参数,一颗芯片根本装不下,必须把模型切分到几千颗芯片上做分布式训练。这时候芯片之间的通信带宽可能比单芯片算力还重要。
你说到点上了。Google TPU用的是ICI,就是Inter-Chip Interconnect,一种定制化的高速互联总线,芯片之间可以直接通信,不需要绕道主机CPU。NVIDIA那边对应的是NVLink加NVSwitch,最新的NVLink 5.0能提供每GPU 1.8TB每秒的双向带宽。然后互联拓扑的设计,比如3D Torus、Fat-Tree这些,直接决定了集群的通信效率和可扩展性。这也是为什么训练芯片和推理芯片要分开——训练对互联的要求远远高于推理。
我们拉远一点看,Google做TPU已经九年了。2016年第一代TPU出来的时候,很多人还在质疑,觉得自研芯片能有多大前途。结果现在TPU支撑了Google搜索、YouTube推荐、Gemini大模型这些核心业务。
对,而且你回顾TPU的演进史,其实就是深度学习硬件需求变化的缩影。TPU v1是纯推理芯片,用脉动阵列做8位整数运算。v2加了训练能力和HBM。v3算力翻倍还上了液冷。v4用了光交换互联,能把几千颗芯片组成超大规模Pod。到v5e和v5p的时候,其实已经在做效率和性能的差异化定位了,可以说是v8正式分家的前奏。
而且这个趋势不是Google一家在做。Amazon早就有Trainium和Inferentia两条线了,微软也在推自研的Maia芯片。
嗯,微软的Maia 100是2023年底公布的,台积电5nm工艺,1050亿晶体管,专门为大语言模型设计。微软还同时推了Arm架构的Cobalt 100 CPU。你看,现在三大云厂商——Google的TPU、Amazon的Graviton加Trainium加Inferentia、微软的Maia加Cobalt——已经形成了三足鼎立的格局。大家都在系统性地减少对NVIDIA的依赖。
不过说实话,NVIDIA的护城河不只是硬件性能,更在于CUDA生态。400多万开发者,PyTorch、TensorFlow的深度支持,cuDNN、TensorRT这些加速库……迁移成本是很高的。
这确实是最大的壁垒。Google的应对策略是通过JAX框架和XLA编译器来构建自己的软件生态,让开发者能比较顺畅地在TPU上跑模型。但说实话,要撼动CUDA的地位,还有很长的路要走。不过换个角度想,对用户来说,更多芯片选择意味着更激烈的价格竞争和更低的使用成本,这是好事。
总结一下的话,我觉得TPU v8系列传递的信号很明确——AI芯片的设计思路正在从万能型走向专精型。训练归训练,推理归推理,各自把自己那一端做到极致。这不光是Google一家的选择,而是整个行业的方向。
没错。接下来值得关注的就是v8系列的实际性能数据、软件生态的完善程度,还有定价策略。毕竟对企业客户来说,选芯片最终还是要算一笔经济账——每一次训练、每一次推理,到底花多少钱。这场算力军备竞赛,精细化的时代才刚刚开始。