DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表Composer 2.5
CO

Composer 2.5

编程大模型

Composer 2.5

发布时间: 2026-05-18更新于: 2026-05-19 16:00:13332
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
200K
中文支持
不支持
推理能力

Composer 2.5 是由 Cursor 发布的 AI 模型,发布时间为 2026-05-18,定位为 编程大模型,上下文长度为 200K,采用 不开源 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Composer 2.5

模型基本信息

推理过程
不支持
思考模式
思考模式 (默认)常规模式
上下文长度
200K tokens
最大输出长度
暂无数据
模型类型
编程大模型
发布时间
2026-05-18
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
暂无数据 / 不涉及
知识截止
暂无数据
Composer 2.5

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
Composer 2.5

官方介绍与博客

官方论文
Introducing Composer 2.5
DataLearnerAI博客
暂无介绍博客
Composer 2.5

API接口信息

接口速度
3/5
暂无公开的 API 定价信息。
Composer 2.5

评测结果

Composer 2.5 当前已收录的代表性评测结果包括 SWE-bench Multilingual(2 / 18,得分 79.80)、Terminal Bench 2.0(6 / 44,得分 69.30)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
思考模式
69.30
6 / 44

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
SWE-bench Multilingual
思考模式
79.80
2 / 18
查看评测深度分析与其他模型对比

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

Composer 2.5

发布机构

Cursor
Cursor
查看发布机构详情
Composer 2.5

模型解读

模型简介与核心特点

Composer 2.5 是 Anysphere 公司(Cursor IDE 开发商)于 2026 年 5 月 18 日正式发布的最新自研编程大模型,属于 Cursor Composer 系列的迭代升级版本。作为其前代 Composer 2 的继任者,Composer 2.5 在智能水平和行为表现上均有显著提升,尤其擅长持续处理长时间运行的复杂工程任务,并能更可靠地遵循多步骤指令,与开发者的协作体验也更为顺畅(来源:Cursor 官方博客,2026 年 5 月 18 日)。

架构与技术规格

Composer 2.5 基于月之暗面(Moonshot AI)的开源模型 Kimi K2.5 检查点构建,采用与 Composer 2 相同的基础模型架构,但将 85% 的计算预算投入到 Cursor 自身的持续预训练和强化学习中(来源:Cursor 官方技术报告)。模型的上下文窗口达到 200K tokens(来源:Cursor 官方模型文档),使其能够处理大型代码库和长周期的编程任务。由于 Cursor 未公开具体的参数量和激活参数量,相关数值暂无法确认。

核心能力与支持模态

Composer 2.5 是一款纯文本编程模型,专注于代码生成、多文件重构、终端命令执行和复杂的工具调用场景。它在长时间运行的代理任务中表现尤为突出,通过定向文本反馈的强化学习技术,模型在工具选择、意图理解和可靠性方面相较于前代有了明显改进。在 Cursor IDE 内,该模型可访问完整的代理工具集,包括文件搜索、目录读取、Web 搜索、图像读取(视觉能力模型)、代码编辑建议、终端命令执行以及图像生成等功能(来源:Cursor 官方模型文档)。

性能与基准评测

根据 Cursor 官方公布的基准测试数据,Composer 2.5 在多个核心编码基准上已接近或持平当前顶级前沿模型:

  • CursorBench v3.1(更难任务):63.2%,对比 Opus 4.7(64.8% max / 61.6% xhigh)和 GPT-5.5(59.2%);
  • SWE-Bench Multilingual:79.8%,对比 Opus 4.7(80.5%)和 GPT-5.5(77.8%);
  • Terminal-Bench 2.0:69.3%,对比 Opus 4.7(69.4%)和 GPT-5.5(82.7%)。


训练方法创新

Composer 2.5 在训练栈上进行了多项改进,重点包括:

  • 定向文本反馈的强化学习(Targeted RL with Textual Feedback):通过在模型轨迹中本可表现更好的位置直接插入局部反馈提示,使教师模型的概率分布向期望方向调整,再通过 on-policy 蒸馏 KL 损失引导学生模型更新权重,从而针对具体行为(如错误工具调用、不当解释等)提供局部训练信号,同时保留全局 RL 目标;
  • 合成数据扩展:Composer 2.5 使用的合成任务数量是 Composer 2 的 25 倍,训练过程中动态筛选和生成更难的任务,例如通过功能删除任务(在包含大量测试的代码库中删除特定功能,再要求模型重新实现)来提供可验证的奖励信号(来源:Cursor 官方博客)。


应用场景与限制

推荐用例包括:长时间运行的多文件重构、复杂的代码库级任务、多步骤工具调用编排、以及需要持续上下文理解的代理式编程。已知局限:模型在 Terminal-Bench 2.0 上仍落后于 GPT-5.5(69.3% vs 82.7%),且官方未明确其知识截止日期。

访问方式与许可

Composer 2.5 目前仅通过 Cursor IDE 内置的模型选择器提供,标准版定价为每百万输入 token 0.50 美元、每百万输出 token 2.50 美元(来源:Cursor 官方定价页面)。模型未开源,代码和检查点均不公开。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码