DiffusionGemma:Google开源扩散式语言模型,速度超500 tokens/s

Google 悄然发布了一款令人瞩目的开源模型——DiffusionGemma,将去年实验性的 Gemini Diffusion 技术正式落地为 Apache 2.0 许可的开放权重模型。这标志着扩散式文本生成从实验走向了可用的开源生态。
从实验到开源:Gemini Diffusion 的回归
去年5月,Google 曾短暂发布过一个实验性的 Gemini Diffusion 模型。当时开发者 Simon Willison 在预览中测试到了惊人的 857 tokens/s 生成速度,但此后 Google 便没有任何进一步的公告,这项研究似乎就此沉寂。
然而,这项研究以最好的方式回归了——作为一个全新的开放权重 Gemma 模型正式发布。模型全称为 google/diffusiongemma-26B-A4B-it,已在 Hugging Face 上公开,采用 Apache 2.0 开源许可证,这意味着开发者可以自由地将其用于商业和非商业项目。

什么是扩散式语言模型?
传统的大语言模型(如 GPT、Gemma 等)采用自回归(autoregressive)方式生成文本,即逐个 token 依次预测下一个。这种方式虽然效果好,但速度受限于串行生成的瓶颈。具体来说,自回归模型的串行生成机制意味着生成第 N 个 token 必须等待前 N-1 个 token 全部完成,导致生成延迟与输出长度呈线性关系。即使在高端 GPU 上,这种顺序依赖也无法通过简单增加算力来突破。虽然业界已经发展出 KV Cache(键值缓存)、投机解码(Speculative Decoding)等优化技术来减少重复计算或预测多个 token,但这些方法并未从根本上改变逐 token 生成的范式。
扩散式语言模型借鉴了图像生成领域(如 Stable Diffusion)的核心思想:不是逐个生成 token,而是从噪声开始,通过多步去噪过程同时生成多个 token。这种并行生成的特性使得推理速度可以大幅提升,这也是 DiffusionGemma 能够达到数百甚至上千 tokens/s 的关键原因。
值得注意的是,将扩散模型从图像领域迁移到文本领域并非简单的技术移植。扩散模型在图像领域的成功(从 DDPM 到 Stable Diffusion)建立在连续像素空间的去噪过程上,但文本本质上是离散的 token 序列,这带来了根本性的技术挑战。研究者们通过多种创新方法逐步解决了这些问题:将离散 token 映射到连续嵌入空间进行扩散操作、设计适用于序列数据的噪声调度策略、以及引入掩码扩散(Masked Diffusion)等技术——后者不是在连续空间添加高斯噪声,而是通过逐步掩盖和恢复 token 来实现类似的生成过程。DiffusionGemma 所采用的技术路线很可能融合了这些前沿研究成果,使得扩散式文本生成在质量和速度上都达到了实用水平。
性能实测:生成速度超过500 tokens/s
DiffusionGemma 的模型规格为 26B 参数、A4B(即活跃参数约 4B 的混合专家架构),这种设计在保持模型能力的同时大幅降低了推理成本。
这里的混合专家架构(MoE, Mixture of Experts)值得深入了解。MoE 的核心思想是将模型参数分成多个"专家"子网络,每次推理时通过一个可学习的门控(Gating)机制只激活其中一小部分专家来处理当前输入。DiffusionGemma 的 26B 总参数中仅约 4B 被激活,这意味着模型拥有大模型级别的知识容量和表达能力,但每次推理时的实际计算量接近一个 4B 参数的小模型。Google 的 Gemma 系列、Mistral AI 的 Mixtral 以及 DeepSeek 的 V3 等模型都采用了这种架构,它在参数效率和推理成本之间取得了出色的平衡,尤其适合需要高吞吐量的部署场景。
目前 NVIDIA 在其 NIM 云 API 上免费托管了该模型,开发者可以直接调用体验。Simon Willison 使用该 API 进行了实测:生成一段包含 SVG 代码的鹈鹕骑自行车插图,总共返回 2,409 个 token,整个过程仅耗时 4.4 秒——换算下来至少达到了 500 tokens/s 的生成速度。
作为对比,当前主流的自回归模型在云端 API 上的典型速度通常在 50-150 tokens/s 之间,DiffusionGemma 的速度优势非常显著。虽然这次测试的 500 tokens/s 低于去年实验版本的 857 tokens/s,但考虑到网络延迟和 API 开销,实际模型推理速度可能更高。
开源生态的重要一步
这次发布有几个值得关注的亮点:
Apache 2.0 许可证:商业使用无障碍
与 Google 此前一些 Gemma 模型采用的自定义许可不同,DiffusionGemma 直接采用了最为宽松的 Apache 2.0 许可证。Apache 2.0 是开源领域最宽松的许可证之一,允许商业使用、修改、分发,且不要求衍生作品开源(这与 GPL 等"传染性"许可证形成鲜明对比)。相比之下,Meta 的 LLaMA 系列早期曾采用限制商业用途的自定义许可,而 Google 此前部分 Gemma 模型也附带了使用限制条款。DiffusionGemma 选择 Apache 2.0,意味着任何规模的企业都可以基于它构建商业产品而无需额外授权,这对于企业级应用和社区二次开发都是极大的利好,也将显著加速扩散式语言模型的产业化进程。
混合专家架构:降低部署门槛
26B 总参数、约 4B 活跃参数的 MoE(Mixture of Experts)设计,意味着该模型在消费级硬件上也有运行的可能性。虽然模型的完整权重需要加载 26B 参数到显存中(大约需要 52GB 的 FP16 显存或通过量化技术降低到更低),但推理时的计算量仅相当于 4B 模型,这意味着在配备足够显存的消费级 GPU(如 NVIDIA RTX 4090 的 24GB 显存配合量化技术)上也有可能运行。这降低了本地部署的门槛,让更多开发者能够在自己的设备上体验扩散式文本生成。
NVIDIA 深度参与:硬件生态已就绪
NVIDIA 第一时间在 NIM 平台上提供免费托管,表明硬件厂商对扩散式语言模型的推理优化已经做好了准备。NVIDIA NIM(NVIDIA Inference Microservices)是 NVIDIA 推出的模型推理部署平台,提供预优化的容器化推理服务,能够自动针对底层 GPU 硬件进行性能调优。
扩散模型的并行生成特性与 GPU 的并行计算架构天然契合,这一点值得深入理解。传统自回归模型在生成阶段(decode phase)每次只产出一个 token,此时 GPU 的数千个计算核心大部分处于闲置状态,推理瓶颈往往在于内存带宽(需要反复读取模型权重)而非计算能力——这被称为"内存带宽受限"(memory-bandwidth bound)。而扩散式模型在每个去噪步骤中同时处理整个序列的所有位置,能够充分利用 GPU 的大规模并行计算单元(CUDA 核心和 Tensor Core),使得硬件利用率大幅提升。这种计算特性的差异意味着,同样的 GPU 硬件在运行扩散式模型时可能获得远高于自回归模型的实际吞吐量,未来在推理效率上可能还有更大的优化空间。
扩散式 LLM 的未来展望
DiffusionGemma 的发布可能预示着大语言模型推理范式的一次重要转变。如果扩散式生成在质量上能够逼近甚至匹配自回归模型,那么其数倍乃至十倍的速度优势将彻底改变 LLM 的应用场景——实时对话、流式代码生成、大规模批处理等场景都将直接受益。特别是在对延迟敏感的应用中(如语音助手的实时响应、交互式编程辅助、游戏中的 NPC 对话生成等),将生成速度从 100 tokens/s 提升到 500+ tokens/s 意味着用户几乎可以获得即时响应的体验。
当然,扩散式语言模型目前仍处于相对早期的阶段,在复杂推理、长文本连贯性等方面是否能与成熟的自回归模型匹敌,还需要社区的广泛测试和验证。扩散模型的一个固有挑战在于,由于所有 token 是并行生成的,模型在处理需要严格顺序逻辑的任务(如多步数学推理、长链条因果推理)时,可能不如自回归模型那样天然地维护前后依赖关系。此外,扩散模型的去噪步数(diffusion steps)也是一个关键的质量-速度权衡参数:更多的去噪步骤通常意味着更高的生成质量,但也会降低速度优势。如何在这两者之间找到最优平衡点,将是未来研究的重要方向。
但 Google 选择以开源方式发布这一模型,无疑为整个研究社区提供了一个重要的基准和起点。这也延续了 2024-2025 年间大模型领域的开源趋势——从 Meta 的 LLaMA 系列到 Mistral、DeepSeek,再到 Google 的 Gemma 家族,头部实验室正在通过开源来加速整个行业的技术迭代。
对于想要尝试的开发者,可以直接通过 NVIDIA NIM API 免费调用,或从 Hugging Face 下载模型权重进行本地部署。这可能是目前体验「未来 LLM 推理方式」最便捷的途径。
核心要点
相关推荐

AI大模型学习路线拆解:三阶段从应用开发到模型微调
深度拆解一条热门AI大模型学习路线,涵盖LangChain应用开发、RAG检索增强生成、Agent智能体、LoRA模型微调等核心技术栈,分析三阶段规划的合理性与局限性,为转型者提供理性参考。

AI Agent智能体开发:六周系统学习路线全解析
从零开始学AI Agent智能体开发,六周系统学习路线涵盖核心架构、ReAct原理、多智能体协作、RAG融合到实战部署,帮你建立完整知识体系,避开常见学习误区。

前端开发者转型AI Agent开发的四大核心优势
前端开发者转型AI Agent开发具备TypeScript生态适配、全栈衔接低门槛、状态管理同构性等核心优势。本文详解前端转AI Agent的可行路径与推荐学习路线。