Composer 2.5

什么是 Composer 2.5？

Composer 2.5 是 Cursor 中提供的 AI 编程模型。与 Composer 2 相比，它被描述为有显著提升，在长时间运行的 agent 任务上表现更强，指令遵循更好，协作行为也更稳定。

该模型建立在与 Composer 2 相同的开源检查点上，即 Moonshot 的 Kimi K2.5，但它采用了额外方法来提升智能性和可用性。根据原文，训练过程包括扩大规模的强化学习、更复杂的 RL 环境、定向文本反馈，以及更多基于真实代码库的合成任务。

更好的长周期任务处理：Composer 2.5 旨在在长时间运行的 agent 工作中保持有效，此类 rollout 可能跨越大量 token 和多次工具调用。
更可靠的指令遵循：模型经过训练，能更一致地遵循复杂指令，这对包含多步骤和约束的编码工作流很重要。
RL 中的定向文本反馈：训练可在特定有问题的回合上下文中插入局部提示，然后将期望行为蒸馏到该轨迹位置的策略中。
扩展的合成任务训练：与 Composer 2 相比，Composer 2.5 使用了多 25 倍的合成任务，这些任务基于真实代码库并带有可验证奖励。
不仅看基准分数的行为调优：训练过程还会调整沟通风格和努力程度校准，原文指出这些对实际可用性很重要。
基于开源检查点构建：Composer 2.5 继续沿用 Moonshot 的 Kimi K2.5 检查点，同时 Cursor 还提到与 SpaceXAI 合作训练了一个从零开始、规模大得多的模型。

在 Cursor 中，用户会将 Composer 2.5 选作编码和 agent 任务的模型。它适用于包含长时间交互、工具使用、代码修改和迭代完善的工作流。

典型流程是向模型提供一个编码任务，让它检查代码库，遵循指令，按需调用工具，然后审查生成的修改或说明。尤其在任务长时间运行或需要严格遵守约束时，它更相关。

Composer 2.5 是新产品还是模型更新？ 它是 Cursor 中的新版本 Composer，定位为对 Composer 2 的改进。

原文是否说明 Composer 2.5 基于不同于 Composer 2 的检查点？ 没有。原文说它与 Composer 2 建立在相同的开源检查点上：Moonshot 的 Kimi K2.5。

训练有什么变化？ 原文强调了扩大规模的训练、更复杂的 RL 环境、定向文本反馈，以及更大的合成任务集合。

它主要是为了提升基准表现吗？ 不只是。原文强调行为和可用性改进，包括沟通风格和努力程度校准，以及智能性提升。