SGLang v0.5.12.post1发布:DeepSeek V4稳定性修复与Blackwell适配

SGLang v0.5.12.post1发布,修复DeepSeek V4稳定性、NIXL PD分离推理及Blackwell架构适配问题
SGLang团队发布v0.5.12.post1稳定性补丁,包含12个精选修复。重点解决DeepSeek V4在B200/B300上的乱码、EAGLE/MTP崩溃及HiSparse精度问题(从0.825恢复至0.960);修复NIXL PD分离推理的辅助状态传输逻辑;适配Blackwell sm_103架构;并通过MHC预热消除20-40秒冷启动停顿、预编译DeepGEMM降低JIT开销。
概述
SGLang 团队发布了 v0.5.12.post1 稳定性补丁,包含 12 个精选修复,重点针对 DeepSeek V4、NIXL PD 分离式推理以及 NVIDIA Blackwell 架构的兼容性问题。这次更新虽然不是大版本迭代,但解决了多个影响生产环境稳定性和性能的关键问题。
SGLang(Structured Generation Language)是由学术界和工业界联合开发的高性能LLM推理框架,其核心创新在于 RadixAttention 技术——通过前缀树结构实现 KV Cache 的自动复用,大幅降低重复前缀场景下的计算开销。与 vLLM 等主流框架相比,SGLang 在批处理吞吐量和结构化输出场景下具有显著优势,已成为 DeepSeek 系列模型生产部署的主流选择之一。

DeepSeek V4 相关修复
DeepSeek V4 是深度求索(DeepSeek)发布的新一代混合专家(MoE)大语言模型系列,包含 V4-Pro 和 V4-Flash 等变体。该系列采用了多项创新架构,包括 MLA(Multi-head Latent Attention)、MoE 路由优化以及 NSA(Native Sparse Attention)等技术,在保持顶级性能的同时大幅降低推理成本。V4 系列的复杂架构也带来了更高的工程适配挑战,这正是本次补丁中大量修复集中于此的原因。
文本生成与推理稳定性
本次补丁修复了 DeepSeek V4 系列模型在多个场景下的严重问题:
- V4-Pro 乱码问题:修复了在 B200/B300 GPU 上单 token 解码时产生乱码文本的 bug,这对于使用最新 Blackwell 架构的用户来说是一个关键修复
- EAGLE/MTP 分离解码崩溃:解决了在约 2000 个请求时出现的崩溃问题,根源在于 SWA(Sliding Window Attention)分配器的内存管理缺陷。EAGLE(Extrapolation Algorithm for Greater Language-model Efficiency)是一种推测解码技术,通过轻量级草稿模型预测多个候选 token,再由主模型并行验证,从而在不损失精度的前提下提升解码速度;MTP(Multi-Token Prediction)是 DeepSeek V4 引入的多 token 预测机制,与 EAGLE 协同工作。SWA 则将注意力计算限制在固定窗口内以降低超长上下文的内存占用,此次崩溃属于典型的生产压力测试才能暴露的边界条件问题
- NSA 预填充崩溃:修复了 NSA(Native Sparse Attention)预填充在上下文并行调度器启动时的崩溃
精度与功能修复
- HiSparse + Compressor V2 精度问题:GSM8K 基准测试分数从 0.825 提升至 0.960,这意味着之前的压缩方案存在严重的精度损失,现已恢复到正常水平
- PD 分离支持扩展:在
pp_size > 1(多阶段流水线并行)场景下启用了 PD 分离式推理 - V4-Flash 内存访问修复:解决了 dummy-load 和 FlashInfer mxfp4 在 CUDA Graph 捕获时的非法内存访问问题
- HiCache + SWA 缓存一致性:修复了缓存重建后过期的转换索引问题
NIXL PD 分离式推理修复
Prefill-Decode 分离(PD Disaggregation)是一种将 LLM 推理的预填充阶段和解码阶段部署在不同硬件节点上的架构范式。由于 Prefill 阶段是计算密集型(处理输入 token),而 Decode 阶段是内存带宽密集型(逐 token 生成),两者对硬件特性的需求截然不同。分离部署可以针对性地优化资源利用率,在大规模服务场景下显著提升整体吞吐量并降低首 token 延迟(TTFT)。
NIXL 作为 SGLang 用于 Prefill-Decode 分离部署的关键通信组件,负责在 Prefill 节点和 Decode 节点之间高效传输 KV Cache 状态。本次修复了辅助状态传输的逻辑问题——确保仅在 is_last 标志为真时发送,且仅在状态有效时才期望接收。这个看似简单的修复对于大规模分布式推理的可靠性至关重要。
Blackwell B300 架构适配
NVIDIA Blackwell 是继 Hopper(H100/H200)之后的新一代 GPU 架构,代表型号包括 B200 和 B300。Blackwell 引入了第五代 NVLink、FP4 精度计算支持以及全新的 Transformer Engine 设计,理论 AI 算力相比 Hopper 提升约 2.5 倍。sm_103 是 Blackwell 架构的 CUDA 计算能力标识符,软件框架需要针对该架构重新编译和适配才能充分发挥硬件性能。
针对 NVIDIA 最新的 Blackwell 架构(sm_103),本次将 nvidia-cutlass-dsl 默认设置为 cu13,修复了 Qwen 3.5 模型在 FlashAttention-4 中的崩溃问题。这表明 SGLang 正在积极适配最新硬件,确保用户能在 B300 等新一代 GPU 上稳定运行主流模型。
性能优化:冷启动与JIT编译
本次补丁还包含两项重要的性能改进:
- 冷启动优化:通过 MHC token-count 预热机制,消除了 DeepSeek V4 上 20-40 秒的冷桶停顿(cold-bucket stalls)。这对于首次请求的响应延迟有显著改善
- JIT 编译加速:DeepGEMM 是 DeepSeek 专为其 MoE 模型设计的高性能矩阵乘法库,针对稀疏激活模式进行了深度优化,支持 bf16 和 fp8 等低精度格式。JIT(Just-In-Time)编译在推理框架中指根据实际运行时的张量形状和硬件特性动态生成最优 CUDA kernel 的过程——虽然能产生高度优化的代码,但首次编译的延迟在生产环境中会造成明显的服务抖动。通过预编译 DeepGEMM 的 bf16/fp32 调度分支,SGLang 将这部分开销从请求处理路径中移除,降低了 V4-Pro 的 JIT 编译开销,减少了推理服务启动时间
总结与展望
这次稳定性补丁体现了 SGLang 团队对生产环境质量的重视。从修复内容来看,几个趋势值得关注:
- DeepSeek V4 生态成熟:大量针对性修复表明 V4 系列正在被广泛部署,社区反馈推动了快速迭代
- 分离式推理走向成熟:PD 分离(Prefill-Decode disaggregation)相关的多项修复说明这一架构正在从实验走向生产
- 新硬件适配加速:对 Blackwell 架构的持续支持表明 SGLang 在硬件兼容性方面保持领先
对于正在使用 SGLang 部署 DeepSeek V4 或使用 B200/B300 GPU 的团队,建议尽快升级到此版本。
核心要点
- SGLang v0.5.12.post1 包含 12 个精选修复,聚焦 DeepSeek V4 稳定性、NIXL PD 分离推理和 Blackwell 架构适配
- 修复了 DeepSeek V4 多个严重问题,包括 B200/B300 上的乱码、2000 请求时的崩溃、以及 HiSparse 精度从 0.825 恢复至 0.960
- 通过 MHC 预热消除 20-40 秒冷启动停顿,预编译 DeepGEMM 降低 JIT 开销
- 适配 NVIDIA Blackwell 架构 sm_103,修复 Qwen 3.5 在 FlashAttention-4 中的崩溃
- PD 分离式推理在 pp_size>1 场景下获得支持,标志着该架构走向生产就绪
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。