SWE-bench Multilingual 多语言软件工程评测基准全面解读:覆盖9种编程语言的大模型评测基准
SWE-bench Multilingual 是 SWE-bench 基准系列的扩展版本。该基准用于评估大语言模型在软件工程任务上的表现,覆盖多种编程语言。数据集包含 300 个从真实 GitHub 问题与对应拉取请求中提取的任务,涉及 42 个仓库和 9 种编程语言。模型接收问题描述与仓库快照后,需生成代码补丁,并通过失败到通过(F2P)和通过到通过(P2P)测试套件进行验证。
现有软件工程评测存在的局限
原始 SWE-bench 基准主要聚焦 Python 仓库,导致对其他编程语言的评估覆盖不足。部分代理框架依赖 Python 专属工具,易出现针对特定基准的优化现象。同时,现有评测难以全面反映不同语言生态下的实际开发场景,包括构建环境差异与跨文件修改复杂度。
基准发布信息与设计目标
该基准由 Kabir Khandpur 牵头,与 SWE-bench 团队(包括 Carlos E. Jimenez、John Yang 等)合作开发,于 2025 年 5 月 6 日正式发布。数据集托管于 Hugging Face(SWE-bench/SWE-bench_Multilingual),评估代码集成至 SWE-bench GitHub 仓库。leaderboard 地址为 swebench.com/multilingual-leaderboard.html。
其设计目标为解决 Python 中心化问题,提供跨语言标准化评估环境,支持快速运行以便模型迭代。同时,该基准通过统一 Docker 环境实现公平比较,并覆盖从系统级语言到脚本语言的多样仓库。
