Meta与AWS达成合作:引入数千万Graviton核心扩展AI基础设施

Meta与AWS合作,引入数千万Graviton核心支撑AI推理需求
Meta宣布与AWS达成重大合作,将数千万个基于ARM架构的Graviton处理器核心纳入其计算资源组合。此举是Meta多元化AI基础设施战略的关键一步,主要用于AI推理层面,为Meta AI助手和智能体体验提供大规模、低延迟的算力支撑,服务数十亿用户。合作反映出即便是超大规模科技公司,面对AI算力爆发式增求也需借助外部云服务快速扩展。
合作概览
Meta宣布与Amazon Web Services(AWS)达成一项重大协议,将数千万个AWS Graviton处理器核心纳入其计算资源组合。这一合作标志着Meta在AI基础设施多元化战略上迈出了关键一步,旨在为服务数十亿用户的Meta AI及智能体(Agentic)体验提供更强大的算力支撑。

AWS Graviton处理器:ARM架构的云端利器
什么是Graviton处理器
AWS Graviton是亚马逊自研的基于ARM架构的服务器处理器,专为云计算工作负载优化设计。相比传统x86架构处理器,Graviton系列在能效比方面具有显著优势,能够以更低的功耗提供出色的计算性能。
Graviton处理器经历了三代重要演进。第一代Graviton(2018年)基于ARM Cortex-A72核心,主要用于轻量级工作负载。2019年发布的Graviton2实现了质的飞跃,采用64核Neoverse N1架构,相比同类x86实例性能提升40%、成本降低20%。2023年推出的Graviton4则基于ARM Neoverse V2架构,拥有96个核心,内存带宽和计算密度均大幅提升。这种持续迭代使Graviton逐渐从"够用"演变为"优选",吸引了苹果、Stripe等大型企业将核心工作负载迁移至Graviton实例。目前最新的Graviton4处理器已在多种工作负载中展现出强劲的性价比表现。
Meta为何选择Graviton
对于Meta这样需要处理海量AI推理请求的公司而言,选择Graviton核心有几个关键考量:
- 能效优势:ARM架构天然的低功耗特性有助于降低大规模数据中心的运营成本
- 规模化部署:数千万核心的规模意味着这不是一次试水,而是战略级别的基础设施投入
- 多元化策略:减少对单一硬件供应商的依赖,增强供应链韧性
战略意义:AI基础设施的多元化布局
从训练到推理的算力扩展
Meta在公告中明确提到,这一合作是其"多元化AI基础设施"扩展的一部分。在当前AI算力竞争白热化的背景下,Meta此前已大量投资NVIDIA GPU用于模型训练,而此次与AWS的合作很可能聚焦于AI推理层面——即将训练好的模型部署到生产环境中为用户提供服务。
AI推理与训练在算力需求上存在根本性差异,理解这一点是理解Meta选择Graviton的关键。训练阶段需要对海量数据进行反向传播计算,依赖高精度浮点运算(FP32/BF16)和超大显存,NVIDIA A100/H100 GPU是当之无愧的首选。而推理阶段则截然不同:模型权重已固定,核心挑战是以最低延迟、最高吞吐量处理用户请求。推理可以使用INT8甚至INT4量化,大幅降低计算精度要求,CPU和专用推理芯片因此具备竞争力。据业界估算,大型互联网公司80%以上的AI算力成本来自推理而非训练,这正是Meta在训练侧重押注NVIDIA GPU、推理侧转向Graviton的经济逻辑所在。
推理工作负载与训练有本质区别:它需要的是大规模、低延迟、高吞吐的计算能力,而非极致的浮点运算性能。Graviton处理器在这类场景中可能比GPU更具成本效益。
服务Meta AI与智能体体验
公告特别提到了两个核心应用方向:Meta AI和Agentic体验。Meta AI是基于Llama系列大语言模型构建的多模态AI助手,已深度集成到WhatsApp、Instagram、Facebook和Messenger四大平台,月活用户规模超过30亿。
而"Agentic体验"则代表着AI能力的重大跃升——AI Agent能够自主分解复杂任务、调用外部工具(如搜索、代码执行、API调用)、在多步骤推理中保持上下文,并最终完成用户委托的目标。这类应用对算力的需求呈指数级放大:一次Agentic任务可能触发数十次模型推理调用,叠加数十亿用户基数,每日推理请求量可能达到万亿次级别。这两类应用都需要为数十亿用户提供实时响应,数千万Graviton核心的引入,正是为了满足这种爆发式增长的算力需求。
行业影响与未来展望
云计算巨头间的微妙关系
Meta作为科技巨头选择使用AWS的基础设施,这在行业中并不常见。通常,Meta这样的超大规模公司倾向于自建数据中心和自研硬件。Meta在2024年财报中披露,当年资本支出高达370亿美元,其中大部分用于AI基础设施建设,但仍难以满足需求缺口。
这催生了"混合基础设施"策略:将核心、稳定的工作负载放在自有数据中心,将突发性、弹性需求外包给云服务商。AWS的优势在于能够快速提供数千万核心级别的弹性算力,而无需Meta承担相应的建设周期和资本风险。这种模式在行业内被称为"云爆发"(Cloud Bursting),正在成为AI时代基础设施规划的新常态。此次合作表明,即便是Meta这样的巨头,面对AI时代指数级增长的算力需求,也需要借助外部云服务来快速扩展能力。
对ARM服务器生态的推动
ARM架构进军数据中心的历程并非一帆风顺。2016年,软银以320亿美元收购ARM,为其提供了更充裕的研发资源。真正的转折点是2020年苹果M1芯片的发布,证明了ARM在高性能计算领域的可行性。在服务器端,除AWS Graviton外,安培计算(Ampere Computing)的Altra系列、微软Azure的Cobalt 100、谷歌Axion处理器均基于ARM架构,形成了与x86(英特尔至强、AMD EPYC)分庭抗礼的格局。
ARM服务器的核心优势在于:相同功耗下可集成更多核心,RISC指令集带来更高的每瓦性能,以及更灵活的定制化空间。数千万核心的订单对ARM服务器生态而言是一个强有力的信号,进一步验证了ARM架构在数据中心领域的可行性和竞争力,Meta此次大规模采购可能加速更多企业从x86向ARM架构迁移的进程。
总结
这一合作反映了AI时代基础设施建设的新范式:即便是最大的科技公司,也在寻求通过战略合作来应对前所未有的算力挑战。Meta选择AWS Graviton,既是对成本效率的追求,也是对供应链多元化的战略布局。随着AI应用持续渗透到数十亿用户的日常生活中,类似的大规模基础设施合作可能会越来越多。
核心要点
- Meta与AWS达成协议,将数千万个Graviton处理器核心纳入其计算资源组合
- 此次合作是Meta多元化AI基础设施战略的重要组成部分,旨在降低对单一供应商的依赖
- 新增算力将主要服务于Meta AI助手和智能体(Agentic)体验,覆盖数十亿用户
- ARM架构的Graviton处理器在能效比方面具有优势,适合大规模AI推理部署
- 合作反映出即便是超大规模科技公司,面对AI算力需求爆发也需要借助外部云服务快速扩展
相关推荐
行业洞察AI产品开发实战:模型选择、护城河构建与商业化路径
分享AI产品开发的实战策略,包括为什么不应从头训练模型、如何选择API调用与微调时机、构建产品护城河的关键要素,以及从评测体系搭建到商业化落地的完整执行路径。
行业洞察没有想要的产品?自己做才是独立开发者的最佳起点
市面上找不到满意的产品怎么办?从个人痛点出发,自己动手开发,正是独立开发者最好的切入方式。本文分析为什么小众需求反而是理想的创业起点,以及AI工具如何让一个人也能快速把想法变成产品。
行业洞察OpenAI Codex教程遭批量搬运,AI内容农场现象引关注
B站上至少9个账号批量发布相同的OpenAI Codex教程视频,暴露AI工具教程领域的内容农场问题。本文分析批量搬运的典型特征,探讨平台治理挑战,并提供辨别原创内容的实用建议。