Scale AI 发布 SWE-Bench Pro 评测:AI 软件工程代理的新基准

Scale AI 于 2025 年 9 月 21 日发布了 SWE-Bench Pro,这是一个针对 AI 代理在软件工程任务上的评估基准。该基准包含 1,865 个问题,来源于 41 个活跃维护的代码仓库,聚焦企业级复杂任务。现有模型在该基准上的表现显示出显著差距,顶级模型的通过率低于 25%,而最近的榜单更新显示部分模型已超过 40%。这一发布旨在推动 AI 在长时程软件开发中的应用研究。


现有基准的局限性

当前用于评估 AI 编码代理的基准,如 SWE-Bench,已接近饱和状态。SWE-Bench Verified 子集上的通过率超过 70%,这表明基准可能在 6 至 12 个月内无法提供进一步改进的反馈。另一个问题是数据污染风险,许多仓库采用 MIT 或 Apache 2.0 等宽松许可,这些代码可能已纳入 LLM 预训练语料。此外,现有的任务往往过于简单,例如 SWE-Bench Verified 中的 161 个任务仅需 1 至 2 行代码修改,无法反映企业环境中多文件、大规模修改的复杂性。这些问题导致基准难以捕捉真实软件工程的挑战。

SWE-Bench Pro 简介

SWE-Bench Pro 由 Scale AI 开发并发布,旨在解决上述局限。该基准于 2025 年 9 月 21 日通过 ArXiv 论文和 Hugging Face 数据集公开部分内容。数据集分为三个部分:公共集(731 个问题,11 个开源仓库)、保留集(858 个问题,12 个私有仓库,用于未来过拟合检查)和商业集(276 个问题,18 个专有初创公司仓库)。它针对的问题是 AI 代理在长时程任务上的能力,例如人类工程师需花费数小时至数天的 bug 修复或功能添加。这些任务涉及多文件修改,平均 107.4 行代码跨越 4.1 个文件,所有任务至少 10 行代码,其中超过 100 个任务超过 100 行。

仓库来源包括业务应用、B2B 服务和开发者工具等领域的专业项目,每个仓库贡献 50 至 100 个实例,以避免过拟合。语言覆盖 Python、JavaScript、TypeScript 和 Go。基准强调工业相关性和多样性,通过人类验证确保任务的可解决性。

评测设计与评估流程

SWE-Bench Pro 的设计从 GitHub 仓库的 commit 对中提取问题:基础 commit 和修复 commit 配对,结合测试补丁(新/修改测试)和金标准补丁(非测试 diff)。每个实例包括人类重写的任务描述(基于 issue/PR/commit,避免泄露解决方案)、需求规格(基于测试的行为细节,如 API 路由)和可选接口(修改/创建的类/函数签名)。

评估环境使用容器化 Docker 镜像,包含依赖如 Python 虚拟环境、Node.js 和 Go 模块。测试套件经人类三轮审查,确保无抖动性和相关性,仅保留针对性测试。

评估采用 SWE-Agent 框架,支持多文件编辑。模型接收任务描述、需求和接口,使用统一提示进行工具调用(如语法解析)。设置包括最新模型版本(截至 2025 年 9 月 18 日)、vLLM 托管(开源模型在 8 个 H100 GPU 上)、最大 200 轮交互。成功指标为 Pass@1,即生成补丁通过所有测试的比例。失败轨迹(未解决实例的最后 20 轮)使用 GPT-5 作为评判器分类错误模式,手动校准以 87% 一致性。

组件 描述 数量/细节
任务总数 企业级问题 1,865
仓库数量 活跃维护项目 41
平均修改规模 代码行数/文件 107.4 行 / 4.1 文件
评估指标 通过率 Pass@1
失败分析 错误分类 语法错误、错误解决方案等

模型性能评估

初始评估使用 SWE-Agent 在公共集和商业集上测试主流模型。以下为 2025 年 9 月的 Pass@1 结果:

模型 公共集 (N=731) 商业集 (N=276)
OpenAI GPT-5 23.3% 14.9%
Anthropic Claude Opus 4.1 22.7% 17.8%
Anthropic Claude Sonnet 4 17.6% 9.1%
Google Gemini 2.5 Pro Preview 13.5% 10.1%
OpenAI GPT-4o 4.9% 3.6%
Qwen-3 32B 3.4% -

前沿模型如 GPT-5 和 Claude Opus 4.1 在公共集上领先,但商业集表现下降,突出企业复杂性。性能因语言而异:Python 和 Go 任务较高,JavaScript/TypeScript 波动大。小模型结果不稳定。

截至 2025 年 10 月 21 日的榜单更新显示,Anthropic 模型主导前三:Claude 4.5 Sonnet(40%+)、Claude 4 Sonnet 和 Claude 4.5 Haiku。其他如 GPT-5 High 位列第四,Kimi K2 第五。失败模式分析显示,Claude Opus 4.1 常见错误为错误解决方案(35.9%)和语法错误(24.2%);GPT-5 工具使用率达 97.6%,但错误解决方案占 51.7%。这些差异反映模型在语义和算法处理上的变异。

评测意义与展望

SWE-Bench Pro 通过抗污染设计和真实任务,提供了一个揭示 AI 代理当前局限的基准,与 SWE-Bench Verified 的 70%+ 通过率形成对比。公共集已在 Hugging Face 可用,保留和商业集支持未来评估。该基准的透明 curation 和标准化协议有助于诊断错误,推动自主软件工程代理的发展。未来方向包括扩展语言覆盖(如 Java、C++)、引入设计/审查任务、替代指标(如质量/安全评估)和协作场景。总体上,它为研究社区提供了评估长时程软件工程能力的工具。

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码