播客频道 | Google TPU v8t与v8i深度解析：训练推理分离的AI芯片新时代

今天聊一个我觉得挺有标志性意义的事儿——Google在Cloud Next大会上，把TPU产品线正式一分为二了。一个叫v8t，专门做训练；一个叫v8i，专门做推理。你看这命名就很直白，t就是training，i就是inference。对，其实我看到这个消息的时候第一反应是：终于。因为训练和推理这两件事，从计算特征上来说差异真的太大了。以前用一颗芯片去兼顾两边，本质上就是在做妥协。Google这次算是把这层窗户纸正式捅破了。能不能给大家拆解一下，训练和推理到底差在哪？很多人可能觉得不都是跑模型嘛，为什么需要两种不同的芯片？嗯，打个比方吧。训练就像是一个学生在反复刷题、改错、再刷题，这个过程需要大量的草稿纸，还需要非常精确的计算——你得算梯度、更新参数、做反向传播，整个过程对内存带宽和浮点精度的要求极高。所以v8t这边重点堆的就是高带宽内存HBM和强悍的浮点算力。现在主流的HBM3E，单堆栈带宽就超过1TB每秒，就是为了让几千亿甚至万亿参数能在芯片和内存之间高速搬运。那推理呢？推理就像是考试，题目来了你只需要做一遍，不用反复迭代。但关键是你得快，延迟要低，而且要省电省钱。特别是现在大语言模型的推理，每生成一个token都要重新算一遍注意力机制里的KV Cache，这其实是个内存带宽受限的任务，而不是算力受限。所以推理芯片的设计思路完全不同——它会在INT8甚至INT4这种低精度计算上做更多投入，优化片上缓存来减少内存访问延迟。据行业估算，推理算力消耗已经占到AI总算力的60%以上了，这个市场太大了。这么一说就很清楚了。其实我注意到一个细节，Google的BF16格式也是个很聪明的设计——保留了FP32的指数范围，但砍掉了一些尾数精度，训练质量几乎不受影响，计算吞吐量直接翻倍。没错，这就是Google在数据格式层面的优化哲学。你看，芯片设计不光是堆晶体管，数据格式、互联架构、软件栈，每一层都有文章可做。说到互联架构，这个其实也很关键。现在大模型动辄几千亿参数，一颗芯片根本装不下，必须把模型切分到几千颗芯片上做分布式训练。这时候芯片之间的通信带宽可能比单芯片算力还重要。你说到点上了。Google TPU用的是ICI，就是Inter-Chip Interconnect，一种定制化的高速互联总线，芯片之间可以直接通信，不需要绕道主机CPU。NVIDIA那边对应的是NVLink加NVSwitch，最新的NVLink 5.0能提供每GPU 1.8TB每秒的双向带宽。然后互联拓扑的设计，比如3D Torus、Fat-Tree这些，直接决定了集群的通信效率和可扩展性。这也是为什么训练芯片和推理芯片要分开——训练对互联的要求远远高于推理。我们拉远一点看，Google做TPU已经九年了。2016年第一代TPU出来的时候，很多人还在质疑，觉得自研芯片能有多大前途。结果现在TPU支撑了Google搜索、YouTube推荐、Gemini大模型这些核心业务。对，而且你回顾TPU的演进史，其实就是深度学习硬件需求变化的缩影。TPU v1是纯推理芯片，用脉动阵列做8位整数运算。v2加了训练能力和HBM。v3算力翻倍还上了液冷。v4用了光交换互联，能把几千颗芯片组成超大规模Pod。到v5e和v5p的时候，其实已经在做效率和性能的差异化定位了，可以说是v8正式分家的前奏。而且这个趋势不是Google一家在做。Amazon早就有Trainium和Inferentia两条线了，微软也在推自研的Maia芯片。嗯，微软的Maia 100是2023年底公布的，台积电5nm工艺，1050亿晶体管，专门为大语言模型设计。微软还同时推了Arm架构的Cobalt 100 CPU。你看，现在三大云厂商——Google的TPU、Amazon的Graviton加Trainium加Inferentia、微软的Maia加Cobalt——已经形成了三足鼎立的格局。大家都在系统性地减少对NVIDIA的依赖。不过说实话，NVIDIA的护城河不只是硬件性能，更在于CUDA生态。400多万开发者，PyTorch、TensorFlow的深度支持，cuDNN、TensorRT这些加速库……迁移成本是很高的。这确实是最大的壁垒。Google的应对策略是通过JAX框架和XLA编译器来构建自己的软件生态，让开发者能比较顺畅地在TPU上跑模型。但说实话，要撼动CUDA的地位，还有很长的路要走。不过换个角度想，对用户来说，更多芯片选择意味着更激烈的价格竞争和更低的使用成本，这是好事。总结一下的话，我觉得TPU v8系列传递的信号很明确——AI芯片的设计思路正在从万能型走向专精型。训练归训练，推理归推理，各自把自己那一端做到极致。这不光是Google一家的选择，而是整个行业的方向。没错。接下来值得关注的就是v8系列的实际性能数据、软件生态的完善程度，还有定价策略。毕竟对企业客户来说，选芯片最终还是要算一笔经济账——每一次训练、每一次推理，到底花多少钱。这场算力军备竞赛，精细化的时代才刚刚开始。

Google TPU v8t与v8i深度解析：训练推理分离的AI芯片新时代

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报