Composer 1
Composer 1 是由 Cursor 发布的 AI 模型,发布时间为 2025-10-29,定位为 基础大模型,参数规模约为 0.0B,上下文长度为 200K,采用 不开源 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
Composer 1 当前已收录的代表性评测结果包括 Terminal Bench 2.0(29 / 31,得分 40)、SWE-bench Multilingual(8 / 8,得分 56.90)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
Composer 1 是AI编程工具Cursor的开发商Anysphere于2025年10月29日发布的自主研发代码大语言模型(LLM),随Cursor 2.0平台一同推出。该模型定位于“代理式编码”(agentic coding)模型,专为在真实开发环境中高效、准确地执行编码任务而设计。
在Composer 1发布之前,Cursor平台主要集成第三方领先的LLM,包括OpenAI、Anthropic、Google和xAI等提供的模型。Composer 1的推出标志着Cursor从模型集成者向模型开发者的战略转型。
Composer 1采用混合专家(Mixture-of-Experts, MoE)架构,支持长上下文处理。Cursor研究科学家Sasha Rush在公开渠道披露,该模型通过强化学习(Reinforcement Learning, RL) 训练而成,是一个“大型MoE模型”。
MoE架构的核心优势在于推理时仅激活模型参数的一个子集,从而在保持较高智能水平的同时实现更快的推理速度。
强化学习训练框架
Composer 1的训练采用基于代理的强化学习方法,训练环境尽可能模拟生产环境。训练数据以用户查询的形式输入模型,模型通过调用工具来完成目标。关键创新在于并行运行大量训练轨迹——同时运行多个Cursor实例,并对输出进行评分以确定哪些工具调用策略更有效。
训练环境
训练过程中,模型在完整的代码库环境中运行,使用包括文件编辑、语义搜索和终端命令在内的一系列生产工具来解决实际的工程问题。每个训练迭代都涉及解决具体挑战,如生成代码编辑、制定计划或提供针对性解释。
基础设施
Cursor为训练Composer 1构建了定制的强化学习基础设施,结合PyTorch和Ray框架,在数千个NVIDIA GPU上进行异步训练。团队开发了专门的MXFP8 MoE内核和混合分片数据并行技术,以最小化通信开销实现大规模模型更新。
训练系统由三种主要服务器类型协同工作:
服务器类型功能描述
训练器(Trainer)使用PyTorch,采用MXFP8低精度训练定制内核,MoE层可实现3.5倍加速
推理服务器(Inference Server)使用Ray编排训练轨迹,处理工具调用和优势管理,解决“落后任务”问题
环境服务器(Environment Server)使用microVM启动状态化环境,执行文件更改、终端命令和代码检查
Composer 1作为代理运行时,通过工具空间进行交互。系统设计了约10种生产工具:
代理可以串行或并行调用这些工具,并行调用能力对实现快速用户体验至关重要。
行为演进:通过强化学习训练,模型的代理行为得到优化。训练早期,模型会进行过多缺乏充分依据的编辑;随着训练推进,模型学会在执行更改前读取更多文件和进行更多搜索,从而产生更准确、更周全的代码修改。
Cursor的关键设计是生产环境与训练基础设施的协同设计。用于运行云端代理的生产代理服务器与RL训练使用相同的环境。这种设计确保训练环境与生产环境完全一致,使模型能够学习成为这些工具的高级用户。例如,Cursor的自定义嵌入模型用于语义搜索,Composer 1在生产中使用完全相同的语义搜索模型和结构进行训练。
Cursor Bench基准
Cursor开发了内部评估套件Cursor Bench,该基准基于真实的开发者代理请求构建,不仅衡量代码正确性,还评估模型对现有抽象、代码风格惯例和工程实践的遵循程度。
在该基准上,Composer 1达到了“前沿水平的编码智能”。Cursor发布的对比分组将模型分为以下类别:
Composer 1的智能水平与“中型前沿系统”相当,同时在所有测试类别中实现了最高记录生成速度。
Composio测试(2025年11月)
在构建Python AI代理的对比测试中:
指标Composer 1Claude Sonnet 4.5
Token消耗约200,000约427,000
任务完成时间约3分钟(首次响应)约10分钟
代码质量完整实现相当,但存在API过时问题
测试结论:Composer 1以不到一半的时间、少于一半的token消耗实现了与Claude Sonnet 4.5相当或略优的代码质量。
Chrome扩展构建测试(2025年11月)
在构建Chrome扩展的实际任务中,Composer 1首次构建时间约25分钟,消耗token 40,000-50,000,估算成本约$0.15-0.25。
编程任务综合测试(2025年11月)
在为期一周的22个任务测试中:
Composer 1支持200K token的有效上下文容量。Cursor通过项目索引和分块策略实现大型上下文工作区,模型能够智能提取所需文件,在150K-180K token的代码量范围内保持准确的代码建议。
Composer 1的核心定位是“代理式编码”模型,能够自主规划、编写、测试和审查代码。这种设计超越传统的代码补全功能,实现多文件协调编辑和仓库级重构。
实际测试验证Composer 1在以下语言的表现:
模型学会有效选择工具、利用并行性、避免不必要的响应。训练过程中发展出运行单元测试、修复linter错误、自主执行多步代码搜索等涌现行为。
Cursor提供多层级订阅方案:
层级价格包含内容
免费版(Hobby)免费基础功能
专业版(Pro)$20/月约500次快速代理请求
Pro+-更高使用限额
超享版(Ultra)$200/月约10,000次快速代理操作
团队版(Teams)$40/用户/月包含管理功能、审计日志等
Composer 1定价与GPT-5相同:$1.25/百万输入token,$10/百万输出token。相比Claude 4.5($3/百万输入token,$15/百万输出token)具有成本优势。
截至2025年10月,Composer 1不提供直接API调用方式,仅可通过Cursor IDE访问。
Composer 1完全集成于Cursor 2.0平台,该平台引入:
Cursor优化了Language Server Protocols(LSP)以提升Python和TypeScript项目的诊断和导航速度,降低Composer 1与大型仓库交互或多文件更新时的延迟。
Composer 1的开发源于内部原型Cheetah,主要用于测试低延迟推理。Cheetah的成功验证了“快速代理体验”的价值,用户反馈将其描述为“外星科技”。Sasha Rush表示:“Cheetah是模型的v0版本,主要用于测试速度。根据指标,Composer 1保持了相同的速度,但智能水平大幅提升。”
Composer 1发布后,关于其基础模型的来源引发了讨论。部分用户发现Composer 1在推理过程中会输出中文内容,且使用的分词器与DeepSeek相同。这引发了关于Composer 1是否为“套壳”中国开源模型(如智谱GLM或DeepSeek)的讨论。
在Hacker News上面对“Composer是否基于现有开源基础模型微调”的直接提问时,Sasha Rush回应:
“我们的主要精力集中在RL后训练上。我们认为这是让模型成为强大交互代理的最佳方式。”
关于早期预览模型Cheetah基于xAI Grok的传言,Rush明确表示“完全不属实”。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
