UStackUStack
Composer 2.5 icon

Composer 2.5

Composer 2.5 是 Cursor 中的 AI 编程模型,适合长时间 agent 任务、更可靠地遵循指令,并提升协作表现;采用 scaled RL、定向文本反馈和更多合成代码库任务训练。

Composer 2.5

什么是 Composer 2.5?

Composer 2.5 是 Cursor 中提供的 AI 编程模型。与 Composer 2 相比,它被描述为有显著提升,在长时间运行的 agent 任务上表现更强,指令遵循更好,协作行为也更稳定。

该模型建立在与 Composer 2 相同的开源检查点上,即 Moonshot 的 Kimi K2.5,但它采用了额外方法来提升智能性和可用性。根据原文,训练过程包括扩大规模的强化学习、更复杂的 RL 环境、定向文本反馈,以及更多基于真实代码库的合成任务。

主要特性

  • 更好的长周期任务处理:Composer 2.5 旨在在长时间运行的 agent 工作中保持有效,此类 rollout 可能跨越大量 token 和多次工具调用。
  • 更可靠的指令遵循:模型经过训练,能更一致地遵循复杂指令,这对包含多步骤和约束的编码工作流很重要。
  • RL 中的定向文本反馈:训练可在特定有问题的回合上下文中插入局部提示,然后将期望行为蒸馏到该轨迹位置的策略中。
  • 扩展的合成任务训练:与 Composer 2 相比,Composer 2.5 使用了多 25 倍的合成任务,这些任务基于真实代码库并带有可验证奖励。
  • 不仅看基准分数的行为调优:训练过程还会调整沟通风格和努力程度校准,原文指出这些对实际可用性很重要。
  • 基于开源检查点构建:Composer 2.5 继续沿用 Moonshot 的 Kimi K2.5 检查点,同时 Cursor 还提到与 SpaceXAI 合作训练了一个从零开始、规模大得多的模型。

如何使用 Composer 2.5

在 Cursor 中,用户会将 Composer 2.5 选作编码和 agent 任务的模型。它适用于包含长时间交互、工具使用、代码修改和迭代完善的工作流。

典型流程是向模型提供一个编码任务,让它检查代码库,遵循指令,按需调用工具,然后审查生成的修改或说明。尤其在任务长时间运行或需要严格遵守约束时,它更相关。

使用场景

  • 长时间运行的编码任务:适合 agent 需要在大规模 rollout 中做出许多决策的场景,例如编辑多个文件或反复迭代某个功能。
  • 复杂指令遵循:适合带有详细约束的任务,例如在更改实现细节的同时保持行为不变。
  • 工具密集型工作流:当模型需要反复使用工具并从局部错误中恢复时很有帮助,例如工具不可用或调用失败。
  • 基于代码库的合成任务:支持模型在真实代码库上结合测试和可验证结果进行训练与评估的场景。
  • 对沟通敏感的协作:当用户不仅关心正确性,也关心更清晰的解释、风格和努力程度校准时,相关性更高。

FAQ

Composer 2.5 是新产品还是模型更新? 它是 Cursor 中的新版本 Composer,定位为对 Composer 2 的改进。

原文是否说明 Composer 2.5 基于不同于 Composer 2 的检查点? 没有。原文说它与 Composer 2 建立在相同的开源检查点上:Moonshot 的 Kimi K2.5。

训练有什么变化? 原文强调了扩大规模的训练、更复杂的 RL 环境、定向文本反馈,以及更大的合成任务集合。

它主要是为了提升基准表现吗? 不只是。原文强调行为和可用性改进,包括沟通风格和努力程度校准,以及智能性提升。

替代方案

  • Composer 2:上一代 Cursor 模型版本,可作为比较新训练和行为变化的直接基线。
  • 通用编程 agent:其他专注于代码生成和工具使用的 AI 编程助手,但它们在处理长周期任务和行为调优方面可能不同。
  • 集成在 IDE 中的 LLM 助手:支持编码工作流的编辑器内助手,但可能不采用 Composer 2.5 所描述的那种强化学习密集型训练方式。
  • 人工代码审查与迭代开发:适合偏好在长而复杂的改动中保持手动控制的团队,尤其是在行为精确性很重要时。
Composer 2.5 | UStack