Scale AI 发布 SWE-Bench Pro 评测:AI 软件工程代理的新基准
Scale AI 于 2025 年 9 月 21 日发布了 SWE-Bench Pro,这是一个针对 AI 代理在软件工程任务上的评估基准。该基准包含 1,865 个问题,来源于 41 个活跃维护的代码仓库,聚焦企业级复杂任务。现有模型在该基准上的表现显示出显著差距,顶级模型的通过率低于 25%,而最近的榜单更新显示部分模型已超过 40%。这一发布旨在推动 AI 在长时程软件开发中的应用研究。

现有基准的局限性
当前用于评估 AI 编码代理的基准,如 SWE-Bench,已接近饱和状态。SWE-Bench Verified 子集上的通过率超过 70%,这表明基准可能在 6 至 12 个月内无法提供进一步改进的反馈。另一个问题是数据污染风险,许多仓库采用 MIT 或 Apache 2.0 等宽松许可,这些代码可能已纳入 LLM 预训练语料。此外,现有的任务往往过于简单,例如 SWE-Bench Verified 中的 161 个任务仅需 1 至 2 行代码修改,无法反映企业环境中多文件、大规模修改的复杂性。这些问题导致基准难以捕捉真实软件工程的挑战。
SWE-Bench Pro 简介
SWE-Bench Pro 由 Scale AI 开发并发布,旨在解决上述局限。该基准于 2025 年 9 月 21 日通过 ArXiv 论文和 Hugging Face 数据集公开部分内容。数据集分为三个部分:公共集(731 个问题,11 个开源仓库)、保留集(858 个问题,12 个私有仓库,用于未来过拟合检查)和商业集(276 个问题,18 个专有初创公司仓库)。它针对的问题是 AI 代理在长时程任务上的能力,例如人类工程师需花费数小时至数天的 bug 修复或功能添加。这些任务涉及多文件修改,平均 107.4 行代码跨越 4.1 个文件,所有任务至少 10 行代码,其中超过 100 个任务超过 100 行。
