Google TPU v8t与v8i深度解析：训练推理分离的AI芯片新时代

Google TPU v8系列发布：训练与推理芯片正式分家

在Google Cloud Next大会上，Google正式推出了新一代TPU v8t和TPU v8i两款AI芯片。Google副总裁Amin Vahdat与多位行业人士就这一发布进行了深入讨论，揭示了两款芯片在架构设计和应用场景上的关键差异。

这是Google首次在TPU产品线中明确区分训练与推理芯片，标志着AI专用芯片进入精细化设计的新阶段。

TPU v8t与TPU v8i：两款芯片各有什么不同？

TPU v8t：专为大规模AI训练打造

TPU v8t中的"t"代表"training"（训练），专门面向大规模AI模型训练场景。这款芯片在高带宽内存、浮点运算能力等方面进行了深度优化，目标是加速GPT级别大模型的训练过程。

高带宽内存（HBM）是现代AI训练芯片的核心组件之一。HBM通过将多层DRAM芯片垂直堆叠并使用硅通孔（TSV）技术互联，能够提供远超传统DDR内存的带宽。当前主流的HBM3E规格单堆栈可提供超过1TB/s的带宽。大模型训练过程中，数十亿甚至万亿参数需要在芯片与内存之间高速搬运，内存带宽往往成为训练速度的关键瓶颈。此外，BF16（Brain Floating Point 16）是Google专门为深度学习设计的数据格式，它保留了FP32的指数范围但减少了尾数精度，在几乎不损失模型训练质量的前提下将计算吞吐量提升一倍，这类浮点格式的优化也是TPU v8t训练加速的重要手段之一。

从命名策略来看，Google正在将TPU产品线从"一芯多用"转向"专芯专用"。这一转变说明，随着AI模型参数量从百亿跃升至万亿级别，通用芯片设计已经难以兼顾训练场景对极致算力的需求。

TPU v8i：面向推理场景的成本效率之选

TPU v8i中的"i"代表"inference"（推理）。随着ChatGPT等生成式AI应用的爆发，推理侧的算力需求正在快速攀升——据行业估算，推理算力消耗已占到AI总算力的60%以上。

Google推出专用推理芯片，正是因为推理工作负载在计算特征上与训练存在本质差异：推理更关注低延迟、高吞吐量和能效比，而非峰值浮点性能。训练是一个反复迭代的过程，需要执行前向传播、计算损失函数、反向传播梯度并更新参数，整个过程涉及大量矩阵乘法和梯度累积，对浮点精度和内存容量要求极高。推理则是将已训练好的模型应用于新数据，只需执行一次前向传播。生成式AI的推理还有其特殊性——以大语言模型为例，每生成一个token都需要重新计算注意力机制中的KV Cache，这使得推理过程变成了一个内存带宽受限而非计算受限的任务。因此推理芯片通常会在INT8甚至INT4等低精度计算单元上做更多投入，并优化片上缓存架构以减少内存访问延迟。从芯片架构层面做这些针对性优化，才能真正降低每次推理的成本。

Google自研AI芯片的战略布局

从2016年到2025年：TPU的九年进化路

Google是科技巨头中最早押注自研AI芯片的公司。2016年第一代TPU亮相时，业界对其前景还存在不少质疑。九年过去，TPU已经迭代到v8系列，支撑了Google搜索、YouTube推荐、Gemini大模型等核心业务的运行。

回顾TPU的演进史，本身就是深度学习硬件需求变化的缩影。2016年发布的TPU v1是一款纯推理芯片，采用脉动阵列（Systolic Array）架构执行8位整数矩阵运算，主要用于加速Google数据中心内的推理任务。TPU v2（2017年）首次加入训练能力，引入了浮点运算支持和HBM内存。TPU v3（2018年）将算力翻倍并引入液冷散热。TPU v4（2022年）则首次部署了光交换互联（OCS）技术，使数千颗芯片能够组成超大规模Pod进行分布式训练。TPU v5e和v5p分别在2023年面向效率和性能做了差异化定位，可以视为v8系列训练推理正式分家的前奏。

相比完全依赖NVIDIA GPU的竞争对手，Google通过TPU在自有云平台和内部AI研发中积累了显著的成本与性能优势。这种"自产自销"的模式，让Google在AI算力供应链上拥有了更强的自主权。

训练推理分离：一个正在成形的行业趋势

将训练和推理芯片分开设计，并非Google的独创。Amazon早已推出Trainium（训练）和Inferentia（推理）两条产品线。但Google此次在TPU v8系列中正式采用这一策略，进一步验证了训练推理分离是AI芯片设计的大势所趋。

背后的逻辑很清晰：

训练芯片需要大内存带宽、强浮点算力、高速芯片间互联
推理芯片更看重延迟表现、吞吐效率和每瓦性能

值得深入理解的是，在大规模分布式训练中，芯片间互联带宽往往比单芯片算力更能决定整体训练效率。当模型参数量超过单芯片内存容量时，必须采用模型并行或流水线并行策略将模型切分到多颗芯片上，芯片之间需要频繁交换激活值和梯度数据。Google TPU采用的ICI（Inter-Chip Interconnect）是一种定制化的高速互联总线，允许TPU芯片在无需经过主机CPU的情况下直接通信。相比之下，NVIDIA GPU集群依赖NVLink和NVSwitch实现类似功能，最新的NVLink 5.0可提供每GPU 1.8TB/s的双向带宽。互联拓扑的设计——如3D Torus、全连接Fat-Tree等——直接影响着集群的通信效率和可扩展性。

两类需求差异巨大，用同一款芯片去兼顾，必然在某一端做出妥协。分开设计后，Google Cloud客户可以根据实际工作负载选择最合适的硬件，获得更优的性价比。

TPU v8对云计算竞争格局意味着什么？

在AI算力供不应求的当下，拥有自研芯片的云厂商具备天然优势。TPU v8系列的发布将直接增强Google Cloud在AI工作负载市场的竞争力，尤其是在与AWS、Azure争夺大型AI客户时，差异化的硬件方案可能成为决定性的竞争筹码。

目前AI芯片市场的竞争态势可以概括为：

NVIDIA凭借CUDA生态和GPU性能占据主导地位
Google通过TPU系列在自有生态中构建差异化优势
Amazon以Trainium和Inferentia服务AWS客户
Microsoft也在加速自研AI芯片Maia的部署

NVIDIA在AI芯片市场的主导地位不仅来自硬件性能，更源于其CUDA软件生态的深厚壁垒。CUDA（Compute Unified Device Architecture）自2007年发布以来，已经积累了超过400万开发者和数以万计的加速库。PyTorch、TensorFlow等主流深度学习框架对CUDA的支持最为成熟，cuDNN、cuBLAS、TensorRT等加速库覆盖了从训练到推理的完整工作流。这意味着任何挑战NVIDIA的芯片厂商，不仅需要在硬件性能上具备竞争力，还必须提供足够完善的软件栈来降低开发者的迁移成本。Google的应对策略是通过JAX框架和XLA编译器构建自己的软件生态，使开发者能够相对无缝地在TPU上运行模型。

Microsoft方面，其于2023年11月首次公布的自研AI芯片Maia 100采用台积电5nm工艺，集成超过1050亿晶体管，专为大语言模型的训练和推理设计。Maia的推出标志着Microsoft不再完全依赖NVIDIA GPU来支撑Azure AI服务，而是寻求在关键算力环节建立自主供应能力。与此同时，Microsoft还发布了基于Arm架构的通用CPU Cobalt 100，用于Azure数据中心的常规计算任务。这一布局与Google的TPU战略、Amazon的Graviton+Trainium+Inferentia组合形成了三足鼎立之势，反映出超大规模云厂商正在系统性地减少对第三方芯片供应商的依赖。

这场算力军备竞赛正在从单纯的性能堆叠，转向针对特定工作负载的精细化优化。对于AI开发者和企业用户来说，更多芯片选择意味着更激烈的价格竞争和更低的使用成本。

总结：AI芯片精细化时代已经到来

Google TPU v8t和v8i的发布，传递出一个明确信号——AI芯片的设计思路正在从"万能型"走向"专精型"。通过为训练和推理分别打造专用芯片，Google不仅提升了自身AI基础设施的整体效率，也为行业的芯片设计方向提供了清晰的参考。

随着Google在Cloud Next上陆续公布更多技术细节，TPU v8系列的实际性能数据、软件生态支持以及定价策略，将成为接下来业界持续关注的焦点。

核心要点

Google在Cloud Next大会上发布TPU v8t（训练专用）和TPU v8i（推理专用）两款新芯片
训练与推理芯片的分离设计反映了AI工作负载精细化优化的行业趋势
自研芯片战略增强了Google Cloud在AI算力市场的差异化竞争优势
TPU v8系列标志着AI芯片从通用设计向专用化方向演进的新阶段