Scale AI 发布 SWE-Bench Pro 评测：AI 软件工程代理的新基准

Scale AI 于 2025 年 9 月 21 日发布了 SWE-Bench Pro，这是一个针对 AI 代理在软件工程任务上的评估基准。该基准包含 1,865 个问题，来源于 41 个活跃维护的代码仓库，聚焦企业级复杂任务。现有模型在该基准上的表现显示出显著差距，顶级模型的通过率低于 25%，而最近的榜单更新显示部分模型已超过 40%。这一发布旨在推动 AI 在长时程软件开发中的应用研究。

现有基准的局限性

当前用于评估 AI 编码代理的基准，如 SWE-Bench，已接近饱和状态。SWE-Bench Verified 子集上的通过率超过 70%，这表明基准可能在 6 至 12 个月内无法提供进一步改进的反馈。另一个问题是数据污染风险，许多仓库采用 MIT 或 Apache 2.0 等宽松许可，这些代码可能已纳入 LLM 预训练语料。此外，现有的任务往往过于简单，例如 SWE-Bench Verified 中的 161 个任务仅需 1 至 2 行代码修改，无法反映企业环境中多文件、大规模修改的复杂性。这些问题导致基准难以捕捉真实软件工程的挑战。

SWE-Bench Pro 简介

SWE-Bench Pro 由 Scale AI 开发并发布，旨在解决上述局限。该基准于 2025 年 9 月 21 日通过 ArXiv 论文和 Hugging Face 数据集公开部分内容。数据集分为三个部分：公共集（731 个问题，11 个开源仓库）、保留集（858 个问题，12 个私有仓库，用于未来过拟合检查）和商业集（276 个问题，18 个专有初创公司仓库）。它针对的问题是 AI 代理在长时程任务上的能力，例如人类工程师需花费数小时至数天的 bug 修复或功能添加。这些任务涉及多文件修改，平均 107.4 行代码跨越 4.1 个文件，所有任务至少 10 行代码，其中超过 100 个任务超过 100 行。

组件	描述	数量/细节
任务总数	企业级问题	1,865
仓库数量	活跃维护项目	41
平均修改规模	代码行数/文件	107.4 行 / 4.1 文件
评估指标	通过率	Pass@1
失败分析	错误分类	语法错误、错误解决方案等

模型	公共集 (N=731)	商业集 (N=276)
OpenAI GPT-5	23.3%	14.9%
Anthropic Claude Opus 4.1	22.7%	17.8%
Anthropic Claude Sonnet 4	17.6%	9.1%
Google Gemini 2.5 Pro Preview	13.5%	10.1%
OpenAI GPT-4o	4.9%	3.6%
Qwen-3 32B	3.4%	-

Scale AI 发布 SWE-Bench Pro 评测：AI 软件工程代理的新基准

现有基准的局限性

SWE-Bench Pro 简介

DataLearner 官方微信

评测设计与评估流程

模型性能评估

评测意义与展望

热门博客