#Mooncake

共 2 篇相关文章

Cloudflare向SGLang上游提交decode KV cache offload和Mooncake recovery两项关键修复，解决高并发场景下Kimi K2.6模型乱码输出问题，并实现分布式推理节点自动故障恢复，提升生产环境稳定性。

AMD Instinct MI355X通过SGLang+MoRI全栈优化，在DeepSeek-R1分离式推理中实现TCO比NVIDIA B200低5%，每GPU吞吐量高1.25倍。深度解析MoRI量化通信、KV Cache优化及推测解码等核心技术突破。