AMD GPU部署PD分离式SGLang多节点推理集群教程

概述

近日，dstack.ai 团队分享了一篇关于在 AMD GPU 上部署 PD（Prefill-Decode）分离式 SGLang 推理框架的详细教程。该方案支持通过单一配置文件实现多节点集群部署，为大模型推理的性能优化提供了新的实践路径。

dstack.ai 是一个专为 AI/ML 工作负载设计的开源基础设施编排平台，其设计理念类似于 AI 领域的 Kubernetes，但针对 GPU 集群和大模型训练/推理场景进行了深度优化。它通过声明式 YAML 配置文件抽象底层云资源差异，支持 AWS、GCP、Azure 及本地数据中心的统一管理，将复杂的分布式系统部署简化为配置声明，显著降低了 MLOps 团队的运维负担。

PD-disaggregated SGLang部署

什么是PD分离架构

Prefill与Decode阶段的解耦

在大语言模型推理过程中，存在两个关键阶段：**Prefill（预填充）**和 Decode（解码）。Prefill 阶段负责处理输入 prompt 的所有 token，属于计算密集型任务；Decode 阶段则逐 token 生成输出，属于内存带宽密集型任务。

这两个阶段的计算特性差异源于其底层运算模式的根本不同。Prefill 阶段需要对整个输入序列进行并行的矩阵乘法运算，GPU 的计算单元（CUDA Core/Stream Processor）利用率极高，但对显存带宽需求相对较低。Decode 阶段则截然相反：每次只生成一个 token，计算量极小，但需要反复从显存中读取庞大的 KV Cache（键值缓存），导致显存带宽成为瓶颈。这种差异使得混合部署时往往出现"计算等带宽"或"带宽等计算"的资源浪费。

传统部署方式将两个阶段放在同一组 GPU 上执行，导致资源利用率不够理想。PD 分离架构（PD-disaggregated）将这两个阶段分配到不同的 GPU 节点上，使每组硬件可以针对各自的工作负载特性进行优化，从而显著提升整体吞吐量和延迟表现。

KV Cache的跨节点迁移

PD 分离架构中一个关键的技术挑战是 KV Cache 的跨节点迁移。当 Prefill 节点完成输入处理后，需要将生成的 KV Cache 通过高速网络（通常是 InfiniBand 或 RoCE）传输到 Decode 节点。SGLang 通过优化的张量传输协议和零拷贝技术降低迁移延迟。这一过程的效率直接影响首 token 延迟（TTFT），因此节点间网络带宽是 PD 分离架构的重要基础设施指标，通常要求 100Gbps 以上的网络互联。

SGLang的PD分离实现

SGLang 是一个高性能的大模型推理和服务框架，其 PD 分离功能允许用户将 Prefill 节点和 Decode 节点独立部署。这种架构特别适合大规模生产环境，能够根据实际负载动态调整 Prefill 和 Decode 节点的比例，实现更灵活的资源调度。

AMD GPU多节点部署方案详解

单一配置文件实现集群管理

此次 dstack.ai 提供的方案最大亮点在于单一配置文件即可完成多节点集群部署。这大幅降低了运维复杂度，用户无需为每个节点单独编写部署脚本，通过统一的配置声明即可定义：

Prefill 节点的数量和 GPU 分配
Decode 节点的数量和 GPU 分配
节点间通信配置
模型加载和服务参数

这种"基础设施即代码"（Infrastructure as Code）的理念，通过服务发现、健康检查和自动化网络配置，将原本需要数十个脚本协同完成的分布式系统部署，压缩为一份可版本控制、可复现的配置文件，极大提升了部署的可维护性和可移植性。

AMD GPU生态在AI推理领域的推进

该方案在 AMD GPU 上的成功部署，进一步证明了 AMD 在 AI 推理领域的生态成熟度。ROCm（Radeon Open Compute） 是 AMD 面向高性能计算和 AI 工作负载的开源软件平台，相当于 AMD 生态中 NVIDIA CUDA 的对应物。ROCm 包含 HIP（Heterogeneous-compute Interface for Portability）编程接口，允许 CUDA 代码以较低成本移植到 AMD GPU。近年来 ROCm 在稳定性和性能上持续追赶，MI300X 等新一代 AMD GPU 凭借其超大 HBM 显存容量（最高 192GB）在大模型推理场景中展现出独特优势，特别适合需要在单卡或少量卡上运行超大模型的场景。随着 ROCm 软件栈的持续完善，越来越多的主流推理框架（包括 SGLang、vLLM 等）开始原生支持 AMD GPU，为用户提供了 NVIDIA 之外的高性价比选择。

PD分离架构的实际应用价值

性能与成本优势

PD 分离架构结合多节点部署带来的核心优势包括：

更高的推理吞吐量：Prefill 和 Decode 节点各司其职，避免资源争抢
更低的推理延迟：针对性优化每个阶段的执行效率
弹性扩展能力：可独立扩缩 Prefill 或 Decode 节点数量
GPU成本优化：不同阶段可选用不同规格的 GPU 实例

其中，首 token 延迟（Time To First Token, TTFT） 和整体吞吐量是 LLM 推理服务的两个核心指标，二者往往存在天然张力。传统混合部署中，Prefill 阶段的大批量计算会阻塞 Decode 阶段的 token 生成，导致 TTFT 波动剧烈。PD 分离架构通过物理隔离消除了这种干扰：Prefill 节点可以持续处理新请求的输入，Decode 节点专注于已有请求的 token 生成，使 TTFT 的 P99 延迟（第99百分位延迟）得到显著改善，这对于面向用户的实时对话应用至关重要。

适用场景

这种部署方式特别适合以下场景：

高并发的在线 LLM 推理服务
对首 token 延迟（TTFT）有严格要求的实时应用
需要处理长上下文输入的 RAG 或文档分析场景
多租户共享推理集群的企业级部署

总结

dstack.ai 提供的这套方案展示了现代 LLM 推理部署的最佳实践方向：通过架构级优化（PD 分离）结合基础设施自动化（单一配置部署），在 AMD GPU 硬件上实现高效的多节点推理集群。该方案的价值不仅在于技术实现本身，更在于它将 Prefill/Decode 计算特性差异、KV Cache 迁移优化、ROCm 生态成熟度三个维度有机结合，形成了一套完整的工程化解决方案。对于正在评估推理基础设施方案、希望在 AMD GPU 上运行大模型推理服务的团队，这套方案具有重要的参考价值。

核心要点

PD分离架构将Prefill和Decode阶段部署到不同GPU节点，从根本上解决两阶段计算特性差异导致的资源浪费
KV Cache跨节点迁移是PD分离的核心技术挑战，需要高速网络互联（100Gbps+）支撑
dstack.ai方案支持通过单一配置文件完成多节点SGLang集群部署，大幅降低运维复杂度
AMD ROCm软件栈持续成熟，MI300X超大显存容量为大模型推理提供独特优势
PD分离架构显著改善TTFT的P99延迟，特别适合高并发、低延迟、长上下文等生产级推理场景
弹性扩展能力允许独立调整Prefill和Decode节点比例以匹配实际负载