AMD MI355X击败B200：DeepSeek-R1推理TCO低5%的全栈优化解析

概述

AMD Instinct™ MI355X 在 DeepSeek-R1 分离式推理的总拥有成本（TCO）上击败了 NVIDIA B200，成本比 B200 TRT-LLM 低 5%，每 GPU 吞吐量比 B200 SGLang 高 1.25 倍。这一成果通过 SGLang 框架与 MoRI（Mixture of Routed Inference）技术的全栈优化实现，标志着 AMD 在大模型推理领域的重要突破。

分离式推理架构背景：分离式推理（Disaggregated Inference）是一种将大模型推理过程中的预填充（Prefill）阶段与解码（Decode）阶段分配到不同硬件节点上执行的架构范式。传统推理将两个阶段混合在同一 GPU 上，导致计算密集型的 Prefill 与内存带宽密集型的 Decode 相互争抢资源。分离式架构允许针对不同阶段的计算特性独立扩展硬件，从而大幅提升整体吞吐量与资源利用率，是当前超大规模模型部署的主流方向。

TCO 的行业意义：总拥有成本（Total Cost of Ownership, TCO）在 AI 基础设施评估中涵盖硬件采购、能耗、运维、软件授权及折旧等全周期成本。在大模型推理场景下，TCO 通常以"每百万 token 成本"或"单位吞吐量成本"衡量。由于 NVIDIA GPU 售价普遍高于 AMD 同代产品，AMD 只需在性能上达到一定比例即可在 TCO 上形成优势，这也是为何软件栈优化对 AMD 而言具有战略意义。

AMD MI355X推理性能对比

MoRI 全栈优化：核心技术突破详解

MoRI 量化 All-to-All 通信

在分布式推理中，GPU 间的通信带宽往往是性能瓶颈。这一问题在 MoE 架构中尤为突出——混合专家模型（Mixture of Experts, MoE）如 DeepSeek-R1 采用稀疏激活机制，每个 token 仅路由至少数专家子网络。在多 GPU 分布式部署中，不同专家分布在不同设备上，token 需要通过 All-to-All 集合通信在 GPU 间动态路由，这一过程在高并发场景下极易成为带宽瓶颈。

MoRI 采用了创新的量化通信策略：dispatch 阶段使用 FP4 精度，combine 阶段使用 FP8 精度。这种非对称量化方案实现了 2.56 倍的带宽压缩，大幅降低了 All-to-All 通信开销，同时保持了推理精度的可接受范围。

这一设计思路非常巧妙——dispatch 阶段的数据冗余度更高，可以承受更激进的压缩；而 combine 阶段需要更高精度来保证最终输出质量。FP4/FP8 量化通信正是针对 MoE 路由通信痛点，通过降低传输数据精度来换取带宽节省，同时利用两阶段非对称精度策略平衡精度损失。

MoRI-IO KV Cache 后端优化

传统的 KV Cache 管理方案在大规模并发场景下容易成为瓶颈。KV Cache（Key-Value Cache）存储 Transformer 注意力机制中历史 token 的键值对，避免重复计算，是长上下文推理的核心组件。Mooncake 是月之暗面开源的分布式 KV Cache 管理系统，专为大规模推理集群设计，支持跨节点缓存共享与智能调度，是业界公认的高性能基准方案。

MoRI-IO 提供了一个专门优化的 KV Cache 后端，在 Mooncake 方案基础上进一步优化了 AMD 硬件的内存访问模式与传输调度策略，吞吐量提升约 10%。这意味着在相同硬件条件下，系统能够服务更多并发请求，体现了针对特定硬件架构深度定制的价值。

Two-Batch Overlap with SDMA：零开销异步传输

SDMA（System Direct Memory Access）是 AMD GPU 架构中独立于计算单元的专用数据搬运引擎，可在不占用着色器处理器（Shader Processors）的前提下异步执行内存拷贝操作。通过利用 AMD 硬件的 SDMA 引擎，Two-Batch Overlap 技术将第 N+1 批次的数据预取与第 N 批次的矩阵计算完全并行化，消除了传统串行流水线中的数据等待气泡（Pipeline Bubble），达到了零计算开销的异步传输效果。这是 AMD CDNA 架构相较于部分竞争对手的硬件差异化优势之一，也是这项硬件-软件协同优化能够充分发挥 MI355X 架构优势的根本原因。

计算内核与推理性能优化

AITER GEMM + FlyDSL FusedMoE 内核调优

针对 MI355X 的计算单元特性，团队专门调优了 GEMM（通用矩阵乘法）内核，并通过 FlyDSL 实现了融合的 MoE（Mixture of Experts）计算。这些内核同时支持 Tensor Parallelism（TP）和 Data Parallelism + Expert Parallelism（DP+EP）两种并行策略，为不同部署场景提供灵活选择。

Specv2 MTP 推测解码提升吞吐量

推测解码（Speculative Decoding）通过引入轻量级草稿模型预测多个候选 token，再由主模型并行验证，从而在单次前向传播中生成多个 token，突破自回归解码的串行瓶颈。Multi-Token Prediction（MTP）是其进阶变体，允许模型在训练阶段即学习多步预测能力，减少对独立草稿模型的依赖。Specv2 在 ROCm 平台的实现需要针对 AMD GPU 的波前（Wavefront）调度机制进行专项适配，最终带来了 +4% 的总 token 吞吐量提升和 -3.6% 的 TPOT（Time Per Output Token）降低。虽然单项提升看似不大，但在大规模部署中，这些优化累积起来对 TCO 的影响非常显著。

CPU Streaming 优化：并发场景下的性能飞跃

在 2048 并发场景下，CPU streaming 技术实现了 +20% 的输出吞吐量提升和 -16% 的 TPOT 降低。这项优化充分利用了 CPU 端的处理能力来辅助 GPU 推理流水线，减少了 GPU 的等待时间，是整体全栈优化方案中效果最为显著的单项优化之一。

AMD MI355X vs NVIDIA B200：行业竞争格局分析

这一结果已在 SemiAnalysis 的 InferenceX 仪表板上公开展示，具有第三方验证的可信度。值得注意的是，本次对比所使用的 SGLang 框架本身也是理解竞争格局的重要维度——SGLang（Structured Generation Language）是由 UC Berkeley 等机构主导开发的开源 LLM 推理框架，以激进的系统级优化著称，包括 RadixAttention（前缀缓存复用）、连续批处理（Continuous Batching）及高效的 CUDA/ROCm 内核集成。相较于 NVIDIA 主导的 TensorRT-LLM，SGLang 的开源属性使其能够更快速地集成 AMD ROCm 生态的新特性，也使得 MoRI 等第三方优化方案能够以插件形式无缝接入。

从行业角度看，这意味着：

打破 NVIDIA 垄断叙事：长期以来，NVIDIA 在大模型推理领域被认为具有不可撼动的优势。MI355X 在 TCO 上的胜出证明，通过软件栈的深度优化，AMD 硬件完全可以实现竞争力。

SGLang 开源生态的成熟：作为开源推理框架，SGLang 对 AMD 硬件的深度支持表明开源社区正在积极拥抱多元化硬件生态，形成开放的硬件无关推理生态系统。

全栈优化决定实际部署效果：单纯的硬件规格对比已不足以决定实际部署效果。从量化通信、缓存管理到内核调优的全栈协同优化，才是决定 TCO 的关键因素。

总结

AMD MI355X 通过 SGLang + MoRI 的全栈优化方案，在 DeepSeek-R1 分离式推理场景中实现了对 NVIDIA B200 的 TCO 优势。这不仅是一次技术验证，更是 AI 推理市场竞争格局变化的信号。对于正在规划大模型推理基础设施的企业而言，AMD 方案已经成为一个值得认真评估的选项。

核心要点

AMD MI355X 在 DeepSeek-R1 分离式推理 TCO 上击败 NVIDIA B200，成本低 5%，每 GPU 吞吐量高 1.25 倍
MoRI 量化 All-to-All 通信（FP4 dispatch + FP8 combine）实现 2.56 倍带宽压缩，专门针对 MoE 路由通信瓶颈设计
全栈优化涵盖通信、缓存、内核调优、推测解码和 CPU streaming 六大方向
MoRI-IO KV Cache 后端比 Mooncake 方案吞吐量高约 10%，体现硬件定制化优化价值
SDMA 异步引擎与 Two-Batch Overlap 技术是 AMD CDNA 架构的硬件差异化优势
结果已在 SemiAnalysis InferenceX 仪表板公开验证，具有行业参考价值