Mercury 2：扩散架构如何实现每秒1000 Token的推理速度

Inception Labs 发布了 Mercury 2，一款基于扩散架构的语言模型，生成速度突破每秒 1000 个 Token，同时具备强大的推理能力。这不是渐进式的优化提升，而是从底层架构上对传统自回归模型的一次根本性挑战。

从逐字生成到整体优化：架构的范式转变

过去几年，几乎所有主流大语言模型都遵循同一套核心逻辑——自回归生成。当你提出问题，模型预测下一个 Token，接着是再下一个，如此循环往复直到生成完整答案。这种方法催生了聊天机器人、代码助手和早期的智能体应用，但也让整个行业在速度与成本上遇到了难以突破的瓶颈。

Mercury 2 选择了一条完全不同的路径。它将扩散技术（Diffusion）——驱动 Midjourney、Sora 等图像和视频生成器的核心原理——应用到了语言生成领域。不同于逐字输出，Mercury 2 将回复视为一个整体进行同步优化：系统最初生成一个结构化的"草稿"，随后通过并行的反复去噪过程，逐步精炼直到答案最终锁定。

你可以把它理解为编辑与打字的区别：传统模型是逐字输入，打完一整页纸；Mercury 2 则先生成整体草稿，然后不断润色直至结果准确。这一关键转变彻底重塑了延迟、成本以及模型在推理阶段的表现。

速度碾压：不是微小优化，而是量级跃迁

当我们看到具体的性能数据时，差距之大令人震撼。Mercury 2 的处理速度突破了每秒 1000 个 Token，而在实际基准测试中，Claude 3.5 Sonnet 的速度约为每秒 89 个 Token，GPT-4o Mini 则在 70 左右。这不是 10%、20% 的优化，而是 10 倍以上的速度量级差异。

推理通常会拖慢模型的速度

更关键的是，这种提升源于架构本身，而非依靠硬件黑科技或激进的工程捷径。扩散技术让每次前向传播都能同时优化多个 Token，而非死板地逐一预测，从根本上重塑了速度与质量之间的权衡关系。

系统的端到端响应时间约为 1.7 秒（基准测试环境下），而同类模型要慢上数秒才能完成相同任务。这一差距决定了 AI 助手是能无缝融入工作流，还是一个让你时常停下来等待的割裂工具。

推理能力：速度与智能不再矛盾

长期以来，业界一直认为推理能力与响应速度不可兼得——要么为了更优质的答案忍受缓慢的响应，要么追求速度而限制模型的思考深度。Mercury 2 消除了这种权衡。

它在扩散精炼过程中进行推理，这种方式更贴近人类解决问题的逻辑：先在脑海中构建整体框架，再通过逐层迭代不断精炼。基准测试结果清晰地印证了这一点：

AIME 测试（高级数学推理）：得分超过 90 分
GPQA 测试（研究生水平科学推理）：得分约 75 分
在 LiveBench、代码基准和指令遵循测试中，性能媲美或超越主打速度的自回归模型

也会累积成巨大的体验损耗

还有一个值得关注的细节：Mercury 2 处理纠错的方式。由于模型在生成过程中会反复回溯其输出，前期的偏差可以在后续的优化步骤中得到修正，错误不会引发连锁反应。单凭这一特性，就彻底改变了多步推理的可靠性，尤其在处理复杂长任务时优势明显。

生产级就绪：从实验室到真实产品

Mercury 2 并非停留在实验室的演示原型，它已经具备了完整的生产级能力：

兼容 OpenAI 的 API 接口，可直接接入现有系统
支持工具调用、结构化输出、检索增强生成（RAG）
128K Token 的上下文窗口
定价极具竞争力：输入 Token 每百万仅 $0.25，输出 Token 每百万 $0.75

结合吞吐量的巨大提升，每个完成任务的实际成本大幅下降。对于需要高频调用的智能体工作流、实时客服系统、代码助手等场景，成本优势将被进一步放大。

回过头看Inception

智能体工作流的真正解锁

这款模型真正的杀手级应用场景在于智能体（Agent）工作流。当智能体需要不断规划、执行和观察时，每一步的延迟都会逐渐叠加。在传统模型上运行智能体工作流，每一次调用都必须等待上一步完成，即使是简单的任务在实际应用中也会有明显的迟滞感。

Mercury 2 能够快速完成每步推理，意味着更高效的反馈循环、更强的控制力和更可靠的表现。这让智能体不再只是有趣的演示，而是可靠的系统——足以胜任 IT 运维、客户支持、销售工具及内部自动化等生产环境。

以及受限生成挑战

Inception 鼓励开发者尝试复杂模拟、交互式可视化、结构化指令遵循以及受限生成挑战。这类任务需要模型具备自我修正的能力，实现 Token 级与全局级的对齐，而非在生成初期草率定稿后寄希望于后续内容能自圆其说。

背后的团队与更深层的行业信号

Inception Labs 的创始团队由斯坦福、UCLA 和康奈尔大学的教授组成，在扩散模型研究领域有着深厚积淀，曾主导过 Flash Attention、决策 Transformer 及直接偏好优化（DPO）等突破性研究。公司于 2024 年正式亮相，获得了微软风投、英伟达风投、Snowflake Ventures、Databricks 等机构的投资，个人投资者中还包括 Andrej Karpathy 和 Eric Schmidt。

从更宏观的视角来看，Mercury 2 的出现传递了一个重要信号：自回归缩放定律的边际收益正在递减。单纯增加模型规模和数据量带来的提升已微乎其微，而扩散架构开辟了一条截然不同的道路——它更侧重于生成的机制，而非盲目追求模型规模。

扩散技术已经彻底重塑了图像和视频生成领域，如今语言模型领域也正步入这一阶段。核心问题在于：扩散架构最终会重塑语言模型的构建方式，还是仅仅作为实时推理的一个特定分支？Mercury 2 已经在多家财富 500 强企业中部署，这说明该技术早已超越了实验阶段。无论最终答案如何，它已经证明了一件事——当你不再执着于优化瓶颈，而是直接将其彻底消除时，全新的可能性就会涌现。

Mercury 2：扩散架构如何实现每秒1000 Token的推理速度

从逐字生成到整体优化：架构的范式转变

速度碾压：不是微小优化，而是量级跃迁

推理能力：速度与智能不再矛盾

生产级就绪：从实验室到真实产品

智能体工作流的真正解锁

背后的团队与更深层的行业信号

相关推荐

GitHub Agent HQ发布：AI编程工具进入平台化竞争时代

Gemini 3.5 Flash在GDPval基准上实现巨大飞跃

Google Gemini Antigravity周配额三倍提升，AI编程不再受限