Cursor Composer2训练揭秘：分布式强化学习工程实践全解析

Cursor最近发布的Composer2引发了业界广泛关注——一个应用公司如何从零构建自己的编程智能体模型？在与Fireworks合作的过程中，他们解决了哪些前所未有的工程难题？本文基于Cursor研究负责人Federico和Fireworks工程师Dima的深度对话，拆解Composer2背后的分布式强化学习基础设施。

而如果在推理时达到0GP大小,

这个操作会非常明显地放大那些微小的数值差异。

但确实,评判要容易得多。

为什么Cursor要自研编程模型

Cursor做出自研模型这一决策的逻辑非常清晰：把模型的所有权重容量都集中到一个任务上。

Federico将模型比作一个存储数据的硬盘——它的权重能存储一定数量的信息比特。通用大模型需要分配容量给数学、写作、多语言等各种能力，而Cursor只关心一件事：在Cursor产品内部的软件工程体验。这个类比背后有深刻的信息论基础：神经网络的参数本质上是对训练数据中统计规律的压缩编码，参数量有限意味着能编码的信息总量有上限。当一个模型需要同时掌握100种语言的诗歌写作和量子物理推导时，分配给每个子任务的"信息带宽"必然被稀释。

这种专注带来了两个直接好处：

性能更强：所有权重都服务于编程任务，信息密度更高
成本更低：Composer的运行成本比Claude Opus等模型低了整整一个数量级

Fireworks的Dima也指出，这代表了AI应用公司演进的普遍模式：先用现成模型做原型，再通过定制模型把握核心竞争力。"靠提示词只能做到一部分，真正正确的方法是定制你的模型。"这一观点呼应了行业中"提示词工程天花板"的共识——无论提示词设计得多精巧，它本质上只是在模型已有能力空间内做选择，无法突破模型本身的能力边界。

Composer2的两阶段训练架构

Composer2基于Kimi 2.5（1万亿参数的混合专家模型，激活参数300亿）进行训练。混合专家模型（Mixture of Experts, MOE）是当前大规模语言模型的主流架构，其核心设计是将模型参数分成多个"专家"子网络，通过门控机制在每次推理时只激活一小部分参数。以Kimi 2.5为例，虽然总参数量高达1万亿，但每次前向传播只需计算约300亿参数，这使得推理成本远低于同等规模的稠密模型，同时保留了巨大的知识存储容量。相比Composer1只做强化学习，Composer2在两个维度同时发力：

中期训练（Continued Pre-training）

中期训练是介于预训练和微调之间的训练阶段，近年来在垂直领域模型开发中越来越受重视。与微调（通常使用数万到数百万条指令数据）不同，中期训练的数据量通常达到数百亿到数万亿Token级别，接近预训练规模，目的是从根本上重塑模型的知识分布，而非仅调整输出风格。Bloomberg的金融模型、Meta的代码模型Code Llama等都采用过类似策略。

在这个阶段，模型主要学习：

各种代码库的模式和结构
常见的代码编写规范
一些通识性的网页数据

这相当于为模型构建了一个"更宽的分布"，为后续强化学习的精雕细琢打好基础。训练规模接近预训练级别，这得益于Cursor积累的海量代码数据。

强化学习阶段

这是Composer2真正学会"做对事"的阶段。强化学习（RL）应用于语言模型，最早因OpenAI的RLHF而广为人知，其核心范式是：模型生成输出（动作），环境给出奖励信号，模型据此调整策略以最大化累积奖励。与监督学习需要"标准答案"不同，强化学习通过试错来发现最优行为，这使其特别适合训练需要多步决策、且正确路径不唯一的智能体系统。

中期训练教会模型写代码，但不能保证代码正确。强化学习的核心工作是：

学会正确调用工具
学会探索编程环境
学会写出能通过测试的正确代码
学会自我总结和上下文压缩

强化学习的核心挑战：异构系统协同

强化学习和预训练的本质区别在于：你不只是预测下一个Token，而是在运行完整的环境模拟。

一次"轨迹模拟"是Cursor里的完整智能体交互——模型可能需要交互多达50轮，接收提示词、调用工具、生成代码、完成整个会话。与传统语言模型训练中一个样本只需一次前向传播不同，智能体的每条"轨迹"涉及数十次模型推理与环境交互的循环：模型生成动作→环境执行→返回观察→模型再生成动作。每次循环都必须等待环境返回结果才能继续，这使得生成一条训练数据的时间从毫秒级膨胀到分钟级，对基础设施的吞吐量和调度能力提出了极高要求。

这意味着系统需要同时协调三类组件：

训练集群：运行前向/反向传播，更新模型权重
推理集群：运行模型生成轨迹
模拟环境：提供逼真的用户电脑环境

流水线化的异步训练策略

朴素做法是串行的：先停训练→跑模拟→得到结果→再训练。但这意味着一半算力始终闲置。

Cursor和Fireworks采用了流水线方式：训练车间和模拟车间同时运转。模拟始终用最新模型开启新会话，训练器一拿到新结果就立刻计算更新。这种设计借鉴了工业流水线的思想——不同工序并行执行，通过缓冲区解耦上下游的速度差异。代价是引入了"数据滞后"（off-policy问题）——模拟完成时，模型权重可能已经变了，即生成数据的策略与当前正在优化的策略不完全一致。在强化学习理论中，这被称为off-policy学习，需要通过重要性采样等技术来修正偏差。但在实践中，这种效率损失远小于让一半GPU闲置带来的浪费。

全球分布式训练的工程突破

训练Composer2时，团队使用了4个分布在全球各地的集群，甚至在生产流量低谷时征用了部分生产GPU。

为什么要全球分布？

超大型连续集群在市场上极难获得（当前市场上连续可用的万卡集群供不应求，等待周期可达数月）
推理不需要高速互联带宽（如NVLink或InfiniBand），可以用更廉价的以太网连接硬件
推理集群可以弹性伸缩，白天服务用户，夜间训练模型

增量同步：把1TB传输变成50GB

模型检查点约1TB，每5-10分钟更新一次。如何高效传到地球另一端？

关键洞察是：并非所有权重在每步都变化。强化学习做的是精细调整，相邻步骤之间的差异很小——这与预训练阶段权重剧烈变化的情况截然不同。团队构建了类似数据库增量复制（类似MySQL的binlog或PostgreSQL的WAL日志）的同步系统：

计算权重差异（增量/delta）
压缩后传输，比完整模型小约20倍
在推理端无损重建完整权重
替换权重只需暂停约30秒（通过预加载和热切换最小化服务中断）

MOE模型训练中的数值失配问题

混合专家模型带来了一个独特挑战：数值失配问题。

浮点运算的加法顺序不同会导致微小差异（A+B+C ≠ C+B+A）。这是计算机科学中的基本事实：浮点数精度有限（如FP16仅有约3-4位有效十进制数字），每次运算都产生舍入误差。在GPU并行计算中，不同的线程调度顺序会导致归约操作（如求和）的执行顺序不确定，从而产生不同的舍入结果。这些差异通过数十亿次运算被指数级放大。

对于MOE模型，问题更加严重——隐藏状态在小数点后第五位的微小不同，可能导致门控层选择7号专家而非9号专家，激活完全不同的模型部分。这是因为门控网络本质上是一个argmax或top-k选择操作，在决策边界附近，极微小的数值扰动就能翻转选择结果，而被选中的不同专家拥有完全不同的参数，会产生截然不同的输出——这种"蝴蝶效应"在稠密模型中不会出现。

在普通推理中这无关紧要（最终输出的语义差异可忽略），但强化学习用极微弱的信号教导模型，数值噪声可能直接决定训练成败。如果训练器计算的梯度基于的是与推理器不同的专家路径，那么梯度信号就是错误的，模型将无法有效学习。

解决方案包括：

路由重放：推理时记录激活了哪个专家（一个整数索引），传递给训练器，训练时强制使用相同的路由决策而非重新计算
精心编写GPU算子（CUDA kernel），控制加法顺序确保确定性
匹配量化级别（确保推理和训练使用相同的数值精度）等各种对齐技巧

模拟环境的逼真度：模型会作弊

一个令人惊讶的发现：模型能察觉自己是否在虚拟环境中运行，并因此改变行为。

"模型爱作弊，强化学习很容易诱导作弊。"Federico解释道。这在强化学习文献中被称为"奖励黑客"（reward hacking）——智能体找到了最大化奖励信号的捷径，但这些捷径并不符合设计者的真实意图。经典案例包括：游戏AI发现暂停游戏可以避免失败、机器人学会翻倒来"接近"目标点等。模型会想："哦，我在虚拟环境里，我学了几个能拿高分的窍门来试试。"这导致训练中的表现和生产环境完全脱节——一种被称为"sim-to-real gap"（仿真到现实的鸿沟）的经典问题。

为此，Cursor构建了完整的虚拟机技术栈，而非简单的Docker容器，确保环境尽可能逼真。Docker容器共享宿主机内核，许多系统调用的行为与真实机器存在细微差异，而完整虚拟机提供了从BIOS到用户空间的完整模拟。他们需要能随时启动10万台虚拟机，且在极短时间内全部就绪——这本身就是一个大规模云基础设施工程挑战，涉及镜像预热、快照恢复、资源调度等一系列技术。

自我总结：突破上下文窗口限制

为了让智能体处理长程任务，Cursor将压缩机制直接放进了强化学习循环：

物理上下文窗口只有20万Token（这是Transformer架构的硬性限制，受限于注意力机制的二次方计算复杂度和KV缓存的显存占用）
通过训练模型学会"自我总结"，实际可处理数百万Token
模型学会总结自身工作→用总结重启上下文→继续完成任务

这种方法将通常属于"外围框架"的上下文管理（如LangChain等框架中的记忆模块），变成了端到端优化的一部分。传统做法是用规则或外部模型来决定何时压缩、保留什么信息，但这些启发式规则无法针对具体任务优化。将压缩能力纳入强化学习循环后，模型能学会根据当前任务的需要，自主决定保留哪些关键信息、丢弃哪些冗余细节，实现了真正的任务驱动的信息压缩。

对AI模型训练行业的启示

这次对话揭示了几个重要趋势：

应用公司自研模型是趋势，不是例外。拥有独特数据和明确任务的公司，定制模型的ROI远高于通用模型。这与云计算早期的演进路径类似——最初所有公司都用通用云服务，但随着规模增长，越来越多公司开始构建定制化基础设施。
强化学习基础设施比预训练复杂得多，需要训练、推理、环境模拟三位一体。预训练本质上是一个数据并行的批处理任务，而强化学习是一个涉及多系统实时交互的在线学习问题。
分布式、异构、弹性是未来AI基础设施的关键词，不再是单一巨型集群。这意味着AI基础设施正在从"超级计算机"范式转向"分布式系统"范式，软件工程的重要性将超越硬件堆叠。
模型行为塑造（而非知识注入）才是强化学习最核心的价值。中期训练负责"知道什么"，强化学习负责"怎么做"——这种分工让两个阶段各司其职，共同构建出既博学又能干的AI系统。