最近Google Cloud Next 2025刚开完,有一场对话特别值得聊——Google Cloud基础设施的掌舵人Amin Vahdat,跟Jeff Dean他们几位大佬坐在一起,聊了聊AI基础设施的未来走向。这种级别的公开对话其实挺少见的,往往能透露出一些非常重要的技术路线信号。
对,我也注意到了这场对话。你知道Amin Vahdat这个人其实非常有意思,他早在2015年就主导发表了Google Jupiter数据中心网络架构的论文,展示了Pb级别的内部网络带宽。可以说Google数据中心网络能有今天这个水平,他是核心推手。所以他出来聊AI基础设施,分量是很重的。
嗯,那我们就从最核心的变化聊起。这几年大家都在说一个词——从通用计算到AI优先架构的转型。这个转型到底意味着什么?
其实你可以这么理解。传统数据中心就像一个万能工具箱,核心是x86 CPU,什么活都能干,但什么活都干得不算极致。深度学习起来之后,GPU开始上位,但到了大模型时代,光有GPU也不够了。现在一个现代AI数据中心,你看它的架构——CPU、GPU或者TPU、DPU、各种专用加速器,层层叠叠,每一层干不同的事。DPU专门处理网络和存储的卸载,释放CPU算力;专用加速器针对特定AI任务做深度优化。这种异构架构的复杂度,远远超过以前的数据中心。
所以本质上不是简单地换一块芯片的事,而是整个系统从硬件设计到软件栈到调度系统,全都要重新协同设计。
没错,这也是为什么Google在自研TPU这条路上走得这么坚决。TPU到2025年已经迭代到第六代Trillium了,它跟NVIDIA的GPU走的是完全不同的技术路线。GPU是通用的并行计算架构,而TPU用的是脉动阵列架构,专门为深度学习里的矩阵运算做了硬件级优化。打个比方,GPU像一把瑞士军刀,什么都能切;TPU更像一把专业的手术刀,在特定场景下精度和效率都更高。
这就形成了一个很有意思的竞争格局——Google走自研芯片加云服务的垂直整合路线,跟NVIDIA主导的GPU生态是差异化竞争。
对,而且这种垂直整合的好处是,你可以从芯片到编译器到框架做全链路优化。比如Google的XLA编译器可以自动优化计算图,JAX和TensorFlow框架跟TPU硬件深度协同,这种从底到顶的调优空间,用第三方芯片是很难做到的。
说到这里,我特别想聊聊Amin Vahdat一直在推的一个理念——网络和计算的深度融合。他说在AI时代,网络不再只是连接计算节点的管道,而是计算架构本身不可分割的一部分。这个观点怎么理解?
这个其实特别关键,很多人容易忽略。你想,大模型训练用的是所谓的3D并行——数据并行、模型并行、流水线并行三种策略同时上。数据并行的时候,一个千亿参数模型单次梯度同步可能就要传数百GB的数据;模型并行的时候,前向和反向传播要跨设备传中间激活值,对延迟敏感到微秒级;流水线并行又要求网络持续稳定的吞吐。你看,三种并行策略对网络的要求各不相同,但都极其苛刻。
这么一说我就理解了,网络如果拖后腿,再强的芯片也白搭。
就是这个道理。所以Google他们在探索一些非常前沿的网络技术。比如用光交换技术来动态重构网络拓扑,不同的训练任务通信模式不一样,网络拓扑可以跟着变;用RDMA和RoCE技术把通信延迟压到极低;还有一个特别酷的方向叫网络内计算,就是把一部分聚合操作直接放到交换机上做,数据不用跑到端上再聚合。这样网络就不只是搬运数据了,它自己也在参与计算。
这确实是一个范式级的变化。那我们把视角拉远一点,看看整个行业。2025年全球云计算市场预计突破8000亿美元,AI相关的云支出年增长率超过40%。在这个背景下,三大云厂商的竞争格局你怎么看?
嗯,现在的格局其实挺微妙的。AWS靠市场份额的先发优势继续扩张,Azure靠跟OpenAI的深度绑定在AI领域增长很快,Google Cloud则是打差异化牌——自研TPU、Gemini大模型生态、加上多年的AI研究积累。三家走的路线各有特色。但有一个数字特别值得注意,2025年各大云厂商AI相关的资本开支合计预计超过2000亿美元。这个数字说明什么?说明AI基础设施竞赛已经不只是技术之争了,它是资本、技术和生态的综合较量。
2000亿美元,这个门槛确实不是一般玩家能跨过去的。
对,所以你看Google Cloud通过这种公开对话释放信号,一方面是展示技术实力,另一方面也是在告诉市场——我们在AI基础设施这条赛道上是认真的,而且有独特的技术壁垒。特别是把技术优势转化为产品竞争力这一步,从硬件的性能成本优势,到软件栈的全链路优化,再到Vertex AI这样的一站式平台降低开发者门槛,这条链路他们想得很清楚。
最后总结一下,我觉得这场对话释放的核心信号就是——AI时代的云基础设施,已经不是简单地在原有架构上加几块GPU的事了。从芯片到网络到软件栈,整个体系都在被重新定义。对于技术从业者来说,理解这些底层变化,不管是做技术选型还是判断行业方向,都非常有价值。
嗯,我补充一点。其实对于很多工程师来说,可能觉得这些基础设施层面的东西离自己很远,但实际上它直接决定了你未来用什么工具、在什么平台上开发、你的模型训练成本是多少。所以关注这些一线技术领袖的思考,真的不是凑热闹,而是在为自己的技术判断力充值。