Mercury 2:扩散架构如何实现每秒1000 Token的推理速度

Inception Labs发布扩散架构语言模型Mercury 2,生成速度突破每秒1000 Token,兼具强大推理能力。
Inception Labs推出Mercury 2,采用扩散架构替代传统自回归生成,将语言生成视为整体优化过程而非逐字输出。该模型速度突破每秒1000 Token,比Claude 3.5 Sonnet和GPT-4o Mini快10倍以上,同时在数学和科学推理基准测试中表现优异。它已具备生产级能力,兼容OpenAI API,定价极具竞争力,尤其适合智能体工作流等高频调用场景,标志着语言模型架构的范式转变。
Inception Labs 发布了 Mercury 2,一款基于扩散架构的语言模型,生成速度突破每秒 1000 个 Token,同时具备强大的推理能力。这不是渐进式的优化提升,而是从底层架构上对传统自回归模型的一次根本性挑战。
从逐字生成到整体优化:架构的范式转变
过去几年,几乎所有主流大语言模型都遵循同一套核心逻辑——自回归生成。当你提出问题,模型预测下一个 Token,接着是再下一个,如此循环往复直到生成完整答案。这种方法催生了聊天机器人、代码助手和早期的智能体应用,但也让整个行业在速度与成本上遇到了难以突破的瓶颈。
Mercury 2 选择了一条完全不同的路径。它将扩散技术(Diffusion)——驱动 Midjourney、Sora 等图像和视频生成器的核心原理——应用到了语言生成领域。不同于逐字输出,Mercury 2 将回复视为一个整体进行同步优化:系统最初生成一个结构化的"草稿",随后通过并行的反复去噪过程,逐步精炼直到答案最终锁定。
你可以把它理解为编辑与打字的区别:传统模型是逐字输入,打完一整页纸;Mercury 2 则先生成整体草稿,然后不断润色直至结果准确。这一关键转变彻底重塑了延迟、成本以及模型在推理阶段的表现。
速度碾压:不是微小优化,而是量级跃迁
当我们看到具体的性能数据时,差距之大令人震撼。Mercury 2 的处理速度突破了每秒 1000 个 Token,而在实际基准测试中,Claude 3.5 Sonnet 的速度约为每秒 89 个 Token,GPT-4o Mini 则在 70 左右。这不是 10%、20% 的优化,而是 10 倍以上的速度量级差异。

更关键的是,这种提升源于架构本身,而非依靠硬件黑科技或激进的工程捷径。扩散技术让每次前向传播都能同时优化多个 Token,而非死板地逐一预测,从根本上重塑了速度与质量之间的权衡关系。
系统的端到端响应时间约为 1.7 秒(基准测试环境下),而同类模型要慢上数秒才能完成相同任务。这一差距决定了 AI 助手是能无缝融入工作流,还是一个让你时常停下来等待的割裂工具。
推理能力:速度与智能不再矛盾
长期以来,业界一直认为推理能力与响应速度不可兼得——要么为了更优质的答案忍受缓慢的响应,要么追求速度而限制模型的思考深度。Mercury 2 消除了这种权衡。
它在扩散精炼过程中进行推理,这种方式更贴近人类解决问题的逻辑:先在脑海中构建整体框架,再通过逐层迭代不断精炼。基准测试结果清晰地印证了这一点:
- AIME 测试(高级数学推理):得分超过 90 分
- GPQA 测试(研究生水平科学推理):得分约 75 分
- 在 LiveBench、代码基准和指令遵循测试中,性能媲美或超越主打速度的自回归模型

还有一个值得关注的细节:Mercury 2 处理纠错的方式。由于模型在生成过程中会反复回溯其输出,前期的偏差可以在后续的优化步骤中得到修正,错误不会引发连锁反应。单凭这一特性,就彻底改变了多步推理的可靠性,尤其在处理复杂长任务时优势明显。
生产级就绪:从实验室到真实产品
Mercury 2 并非停留在实验室的演示原型,它已经具备了完整的生产级能力:
- 兼容 OpenAI 的 API 接口,可直接接入现有系统
- 支持工具调用、结构化输出、检索增强生成(RAG)
- 128K Token 的上下文窗口
- 定价极具竞争力:输入 Token 每百万仅 $0.25,输出 Token 每百万 $0.75
结合吞吐量的巨大提升,每个完成任务的实际成本大幅下降。对于需要高频调用的智能体工作流、实时客服系统、代码助手等场景,成本优势将被进一步放大。

智能体工作流的真正解锁
这款模型真正的杀手级应用场景在于智能体(Agent)工作流。当智能体需要不断规划、执行和观察时,每一步的延迟都会逐渐叠加。在传统模型上运行智能体工作流,每一次调用都必须等待上一步完成,即使是简单的任务在实际应用中也会有明显的迟滞感。
Mercury 2 能够快速完成每步推理,意味着更高效的反馈循环、更强的控制力和更可靠的表现。这让智能体不再只是有趣的演示,而是可靠的系统——足以胜任 IT 运维、客户支持、销售工具及内部自动化等生产环境。

Inception 鼓励开发者尝试复杂模拟、交互式可视化、结构化指令遵循以及受限生成挑战。这类任务需要模型具备自我修正的能力,实现 Token 级与全局级的对齐,而非在生成初期草率定稿后寄希望于后续内容能自圆其说。
背后的团队与更深层的行业信号
Inception Labs 的创始团队由斯坦福、UCLA 和康奈尔大学的教授组成,在扩散模型研究领域有着深厚积淀,曾主导过 Flash Attention、决策 Transformer 及直接偏好优化(DPO)等突破性研究。公司于 2024 年正式亮相,获得了微软风投、英伟达风投、Snowflake Ventures、Databricks 等机构的投资,个人投资者中还包括 Andrej Karpathy 和 Eric Schmidt。
从更宏观的视角来看,Mercury 2 的出现传递了一个重要信号:自回归缩放定律的边际收益正在递减。单纯增加模型规模和数据量带来的提升已微乎其微,而扩散架构开辟了一条截然不同的道路——它更侧重于生成的机制,而非盲目追求模型规模。
扩散技术已经彻底重塑了图像和视频生成领域,如今语言模型领域也正步入这一阶段。核心问题在于:扩散架构最终会重塑语言模型的构建方式,还是仅仅作为实时推理的一个特定分支?Mercury 2 已经在多家财富 500 强企业中部署,这说明该技术早已超越了实验阶段。无论最终答案如何,它已经证明了一件事——当你不再执着于优化瓶颈,而是直接将其彻底消除时,全新的可能性就会涌现。
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。