Composer 2.5

Name: Composer 2.5
Author: Cursor

编程大模型

Composer 2.5

发布时间: 2026-05-18更新于: 2026-05-19 16:00:13895

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

200K

中文支持

不支持

推理能力

Composer 2.5 是由 Cursor 发布的 AI 模型，发布时间为 2026-05-18，定位为编程大模型，上下文长度为 200K，采用不开源许可，在 SWE-bench Multilingual 上取得 79.80 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Composer 2.5

模型基本信息

推理过程

不支持

思考模式

思考模式 (默认)常规模式

上下文长度

200K tokens

最大输出长度

暂无数据

模型类型

编程大模型

输入/输出模态

暂无数据

发布时间

2026-05-18

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

Composer 2.5

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

Composer 2.5

官方介绍与博客

官方论文

Introducing Composer 2.5

DataLearnerAI博客

暂无介绍博客

Composer 2.5

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

Composer 2.5

评测结果

Composer 2.5 当前已收录的代表性评测结果包括 SWE-bench Multilingual（2 / 20，得分 79.80）、Terminal Bench 2.0（7 / 46，得分 69.30）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

思考模式

69.30

7 / 46

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Multilingual

思考模式

79.80

2 / 20

查看评测深度分析与其他模型对比

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Composer 2.5

发布机构

Cursor

查看发布机构详情

Composer 2.5

模型解读

模型简介与核心特点

Composer 2.5 是 Anysphere 公司（Cursor IDE 开发商）于 2026 年 5 月 18 日正式发布的最新自研编程大模型，属于 Cursor Composer 系列的迭代升级版本。作为其前代 Composer 2 的继任者，Composer 2.5 在智能水平和行为表现上均有显著提升，尤其擅长持续处理长时间运行的复杂工程任务，并能更可靠地遵循多步骤指令，与开发者的协作体验也更为顺畅（来源：Cursor 官方博客，2026 年 5 月 18 日）。

架构与技术规格

Composer 2.5 基于月之暗面（Moonshot AI）的开源模型 Kimi K2.5 检查点构建，采用与 Composer 2 相同的基础模型架构，但将 85% 的计算预算投入到 Cursor 自身的持续预训练和强化学习中（来源：Cursor 官方技术报告）。模型的上下文窗口达到 200K tokens（来源：Cursor 官方模型文档），使其能够处理大型代码库和长周期的编程任务。由于 Cursor 未公开具体的参数量和激活参数量，相关数值暂无法确认。

核心能力与支持模态

Composer 2.5 是一款纯文本编程模型，专注于代码生成、多文件重构、终端命令执行和复杂的工具调用场景。它在长时间运行的代理任务中表现尤为突出，通过定向文本反馈的强化学习技术，模型在工具选择、意图理解和可靠性方面相较于前代有了明显改进。在 Cursor IDE 内，该模型可访问完整的代理工具集，包括文件搜索、目录读取、Web 搜索、图像读取（视觉能力模型）、代码编辑建议、终端命令执行以及图像生成等功能（来源：Cursor 官方模型文档）。

性能与基准评测

根据 Cursor 官方公布的基准测试数据，Composer 2.5 在多个核心编码基准上已接近或持平当前顶级前沿模型：

CursorBench v3.1（更难任务）：63.2%，对比 Opus 4.7（64.8% max / 61.6% xhigh）和 GPT-5.5（59.2%）；
SWE-Bench Multilingual：79.8%，对比 Opus 4.7（80.5%）和 GPT-5.5（77.8%）；
Terminal-Bench 2.0：69.3%，对比 Opus 4.7（69.4%）和 GPT-5.5（82.7%）。

训练方法创新

Composer 2.5 在训练栈上进行了多项改进，重点包括：

定向文本反馈的强化学习（Targeted RL with Textual Feedback）：通过在模型轨迹中本可表现更好的位置直接插入局部反馈提示，使教师模型的概率分布向期望方向调整，再通过 on-policy 蒸馏 KL 损失引导学生模型更新权重，从而针对具体行为（如错误工具调用、不当解释等）提供局部训练信号，同时保留全局 RL 目标；
合成数据扩展：Composer 2.5 使用的合成任务数量是 Composer 2 的 25 倍，训练过程中动态筛选和生成更难的任务，例如通过功能删除任务（在包含大量测试的代码库中删除特定功能，再要求模型重新实现）来提供可验证的奖励信号（来源：Cursor 官方博客）。

应用场景与限制

推荐用例包括：长时间运行的多文件重构、复杂的代码库级任务、多步骤工具调用编排、以及需要持续上下文理解的代理式编程。已知局限：模型在 Terminal-Bench 2.0 上仍落后于 GPT-5.5（69.3% vs 82.7%），且官方未明确其知识截止日期。

访问方式与许可

Composer 2.5 目前仅通过 Cursor IDE 内置的模型选择器提供，标准版定价为每百万输入 token 0.50 美元、每百万输出 token 2.50 美元（来源：Cursor 官方定价页面）。模型未开源，代码和检查点均不公开。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送