DiffusionGemma：Google开源扩散式语言模型，速度超500 tokens/s

Google 悄然发布了一款令人瞩目的开源模型——DiffusionGemma，将去年实验性的 Gemini Diffusion 技术正式落地为 Apache 2.0 许可的开放权重模型。这标志着扩散式文本生成从实验走向了可用的开源生态。

从实验到开源：Gemini Diffusion 的回归

去年5月，Google 曾短暂发布过一个实验性的 Gemini Diffusion 模型。当时开发者 Simon Willison 在预览中测试到了惊人的 857 tokens/s 生成速度，但此后 Google 便没有任何进一步的公告，这项研究似乎就此沉寂。

然而，这项研究以最好的方式回归了——作为一个全新的开放权重 Gemma 模型正式发布。模型全称为 google/diffusiongemma-26B-A4B-it，已在 Hugging Face 上公开，采用 Apache 2.0 开源许可证，这意味着开发者可以自由地将其用于商业和非商业项目。

DiffusionGemma 模型发布信息

什么是扩散式语言模型？

传统的大语言模型（如 GPT、Gemma 等）采用自回归（autoregressive）方式生成文本，即逐个 token 依次预测下一个。这种方式虽然效果好，但速度受限于串行生成的瓶颈。具体来说，自回归模型的串行生成机制意味着生成第 N 个 token 必须等待前 N-1 个 token 全部完成，导致生成延迟与输出长度呈线性关系。即使在高端 GPU 上，这种顺序依赖也无法通过简单增加算力来突破。虽然业界已经发展出 KV Cache（键值缓存）、投机解码（Speculative Decoding）等优化技术来减少重复计算或预测多个 token，但这些方法并未从根本上改变逐 token 生成的范式。

扩散式语言模型借鉴了图像生成领域（如 Stable Diffusion）的核心思想：不是逐个生成 token，而是从噪声开始，通过多步去噪过程同时生成多个 token。这种并行生成的特性使得推理速度可以大幅提升，这也是 DiffusionGemma 能够达到数百甚至上千 tokens/s 的关键原因。

值得注意的是，将扩散模型从图像领域迁移到文本领域并非简单的技术移植。扩散模型在图像领域的成功（从 DDPM 到 Stable Diffusion）建立在连续像素空间的去噪过程上，但文本本质上是离散的 token 序列，这带来了根本性的技术挑战。研究者们通过多种创新方法逐步解决了这些问题：将离散 token 映射到连续嵌入空间进行扩散操作、设计适用于序列数据的噪声调度策略、以及引入掩码扩散（Masked Diffusion）等技术——后者不是在连续空间添加高斯噪声，而是通过逐步掩盖和恢复 token 来实现类似的生成过程。DiffusionGemma 所采用的技术路线很可能融合了这些前沿研究成果，使得扩散式文本生成在质量和速度上都达到了实用水平。

性能实测：生成速度超过500 tokens/s

DiffusionGemma 的模型规格为 26B 参数、A4B（即活跃参数约 4B 的混合专家架构），这种设计在保持模型能力的同时大幅降低了推理成本。

这里的混合专家架构（MoE, Mixture of Experts）值得深入了解。MoE 的核心思想是将模型参数分成多个"专家"子网络，每次推理时通过一个可学习的门控（Gating）机制只激活其中一小部分专家来处理当前输入。DiffusionGemma 的 26B 总参数中仅约 4B 被激活，这意味着模型拥有大模型级别的知识容量和表达能力，但每次推理时的实际计算量接近一个 4B 参数的小模型。Google 的 Gemma 系列、Mistral AI 的 Mixtral 以及 DeepSeek 的 V3 等模型都采用了这种架构，它在参数效率和推理成本之间取得了出色的平衡，尤其适合需要高吞吐量的部署场景。

目前 NVIDIA 在其 NIM 云 API 上免费托管了该模型，开发者可以直接调用体验。Simon Willison 使用该 API 进行了实测：生成一段包含 SVG 代码的鹈鹕骑自行车插图，总共返回 2,409 个 token，整个过程仅耗时 4.4 秒——换算下来至少达到了 500 tokens/s 的生成速度。

作为对比，当前主流的自回归模型在云端 API 上的典型速度通常在 50-150 tokens/s 之间，DiffusionGemma 的速度优势非常显著。虽然这次测试的 500 tokens/s 低于去年实验版本的 857 tokens/s，但考虑到网络延迟和 API 开销，实际模型推理速度可能更高。

开源生态的重要一步

这次发布有几个值得关注的亮点：

Apache 2.0 许可证：商业使用无障碍

与 Google 此前一些 Gemma 模型采用的自定义许可不同，DiffusionGemma 直接采用了最为宽松的 Apache 2.0 许可证。Apache 2.0 是开源领域最宽松的许可证之一，允许商业使用、修改、分发，且不要求衍生作品开源（这与 GPL 等"传染性"许可证形成鲜明对比）。相比之下，Meta 的 LLaMA 系列早期曾采用限制商业用途的自定义许可，而 Google 此前部分 Gemma 模型也附带了使用限制条款。DiffusionGemma 选择 Apache 2.0，意味着任何规模的企业都可以基于它构建商业产品而无需额外授权，这对于企业级应用和社区二次开发都是极大的利好，也将显著加速扩散式语言模型的产业化进程。

混合专家架构：降低部署门槛

26B 总参数、约 4B 活跃参数的 MoE（Mixture of Experts）设计，意味着该模型在消费级硬件上也有运行的可能性。虽然模型的完整权重需要加载 26B 参数到显存中（大约需要 52GB 的 FP16 显存或通过量化技术降低到更低），但推理时的计算量仅相当于 4B 模型，这意味着在配备足够显存的消费级 GPU（如 NVIDIA RTX 4090 的 24GB 显存配合量化技术）上也有可能运行。这降低了本地部署的门槛，让更多开发者能够在自己的设备上体验扩散式文本生成。

NVIDIA 深度参与：硬件生态已就绪

NVIDIA 第一时间在 NIM 平台上提供免费托管，表明硬件厂商对扩散式语言模型的推理优化已经做好了准备。NVIDIA NIM（NVIDIA Inference Microservices）是 NVIDIA 推出的模型推理部署平台，提供预优化的容器化推理服务，能够自动针对底层 GPU 硬件进行性能调优。

扩散模型的并行生成特性与 GPU 的并行计算架构天然契合，这一点值得深入理解。传统自回归模型在生成阶段（decode phase）每次只产出一个 token，此时 GPU 的数千个计算核心大部分处于闲置状态，推理瓶颈往往在于内存带宽（需要反复读取模型权重）而非计算能力——这被称为"内存带宽受限"（memory-bandwidth bound）。而扩散式模型在每个去噪步骤中同时处理整个序列的所有位置，能够充分利用 GPU 的大规模并行计算单元（CUDA 核心和 Tensor Core），使得硬件利用率大幅提升。这种计算特性的差异意味着，同样的 GPU 硬件在运行扩散式模型时可能获得远高于自回归模型的实际吞吐量，未来在推理效率上可能还有更大的优化空间。

扩散式 LLM 的未来展望

DiffusionGemma 的发布可能预示着大语言模型推理范式的一次重要转变。如果扩散式生成在质量上能够逼近甚至匹配自回归模型，那么其数倍乃至十倍的速度优势将彻底改变 LLM 的应用场景——实时对话、流式代码生成、大规模批处理等场景都将直接受益。特别是在对延迟敏感的应用中（如语音助手的实时响应、交互式编程辅助、游戏中的 NPC 对话生成等），将生成速度从 100 tokens/s 提升到 500+ tokens/s 意味着用户几乎可以获得即时响应的体验。

当然，扩散式语言模型目前仍处于相对早期的阶段，在复杂推理、长文本连贯性等方面是否能与成熟的自回归模型匹敌，还需要社区的广泛测试和验证。扩散模型的一个固有挑战在于，由于所有 token 是并行生成的，模型在处理需要严格顺序逻辑的任务（如多步数学推理、长链条因果推理）时，可能不如自回归模型那样天然地维护前后依赖关系。此外，扩散模型的去噪步数（diffusion steps）也是一个关键的质量-速度权衡参数：更多的去噪步骤通常意味着更高的生成质量，但也会降低速度优势。如何在这两者之间找到最优平衡点，将是未来研究的重要方向。

但 Google 选择以开源方式发布这一模型，无疑为整个研究社区提供了一个重要的基准和起点。这也延续了 2024-2025 年间大模型领域的开源趋势——从 Meta 的 LLaMA 系列到 Mistral、DeepSeek，再到 Google 的 Gemma 家族，头部实验室正在通过开源来加速整个行业的技术迭代。

对于想要尝试的开发者，可以直接通过 NVIDIA NIM API 免费调用，或从 Hugging Face 下载模型权重进行本地部署。这可能是目前体验「未来 LLM 推理方式」最便捷的途径。

DiffusionGemma：Google开源扩散式语言模型，速度超500 tokens/s

从实验到开源：Gemini Diffusion 的回归

什么是扩散式语言模型？

性能实测：生成速度超过500 tokens/s

开源生态的重要一步

Apache 2.0 许可证：商业使用无障碍

混合专家架构：降低部署门槛

NVIDIA 深度参与：硬件生态已就绪

扩散式 LLM 的未来展望

核心要点

相关推荐

AI大模型学习路线拆解：三阶段从应用开发到模型微调

AI Agent智能体开发：六周系统学习路线全解析

前端开发者转型AI Agent开发的四大核心优势