#AMD GPU

共 4 篇相关文章

详解如何在AMD GPU上部署PD分离式SGLang推理集群，通过单一配置文件实现Prefill-Decode解耦的多节点部署，提升大模型推理吞吐量与延迟表现，附架构原理与适用场景分析。

AMD Instinct MI355X通过SGLang+MoRI全栈优化，在DeepSeek-R1分离式推理中实现TCO比NVIDIA B200低5%，每GPU吞吐量高1.25倍。深度解析MoRI量化通信、KV Cache优化及推测解码等核心技术突破。

详解LocalAI本地部署教程，无需GPU即可运行近千种开源大模型。通过Docker一键部署，兼容OpenAI API接口，支持对话、文生图、语音等多模态功能，数据完全本地化，隐私安全有保障。

详解Ollama本地部署大模型的完整指南，支持DeepSeek、Qwen、Gemma等主流开源模型。了解Ollama的安装使用、核心优势、技术架构及适用场景，零API费用实现数据隐私保护。