Qwen 3.6 MTP实测：三行参数提速20%的秘密

什么是MTP？一个模型搞定多Token预测

最近，本地AI推理社区最热门的话题莫属**多Token预测（Multi-Token Prediction，MTP）**技术。自从DeepSeek的DFlash引发关注后，所有人都在期待llama.cpp主线能尽快合并MTP支持的PR。然而，社区中有人等不及了——直接在llama.cpp的一个fork（ik_llama.cpp）上实现了MTP支持，并基于Qwen 3.6模型进行了实测。

MTP到底是什么？要理解它，首先需要了解传统推理的瓶颈所在。自回归（Autoregressive）推理是当前大语言模型生成文本的基础范式：模型在每一步只能基于已有的上下文预测下一个token，这种串行依赖关系导致生成速度受限于单次前向传播的延迟。即便是拥有数十亿参数的模型，其推理瓶颈往往不在计算能力，而在于内存带宽——每次生成一个token都需要将全部模型权重从显存加载到计算单元，造成大量带宽浪费。这正是MTP试图解决的核心问题：如何让每次内存加载能够"物尽其用"，产出更多有效token。

用最直白的话来说：传统的自回归推理中，模型每次前向传播只能生成一个token，然后必须再跑一次才能生成下一个。而MTP在训练阶段就在模型内部添加了额外的预测头（prediction heads），这些头与主预测头共享相同的隐藏状态——也就是模型对已处理文本的内部理解。

隐藏状态共享这一设计细节，是理解MTP为何能实现零质量损失的关键。在Transformer架构中，隐藏状态（hidden state）是模型对输入序列进行多层注意力计算后形成的高维语义表示，包含了丰富的上下文信息。MTP的额外预测头直接复用这一表示，而非从零开始计算，因此额外的计算开销极小。更重要的是，这些预测头是在训练阶段与主模型联合优化的，模型在学习预测token+1的同时，也在学习如何利用相同的隐藏状态预测token+2、token+3，这使得额外预测头的输出质量有理论保证，而非启发式近似。

MTP技术原理示意