共 1 篇相关文章
详解如何在AMD GPU上部署PD分离式SGLang推理集群,通过单一配置文件实现Prefill-Decode解耦的多节点部署,提升大模型推理吞吐量与延迟表现,附架构原理与适用场景分析。