SWE-bench 评测基准详情

Name: Software Engineering Bench
Creator: 普林斯顿大学

随着大语言模型（LLM）的快速发展，它们在自然语言处理（NLP）、代码生成等领域的表现已达到前所未有的高度。然而，现有的代码评测基准（如 HumanEval）通常侧重于**自包含的、较短的代码生成任务**，而未能充分模拟真实世界的软件开发环境。为弥补这一空白，研究者提出了一种全新的评测基准——**SWE-Bench**，旨在测试 LLM 在**真实软件工程问题**中的能力。

更新2025-07-22

问题数量

2294

发布机构

普林斯顿大学

评测类别

编程与软件工程

评测指标

Accuracy

支持语言

英文

难度等级

高难度

简介

一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集

SWE-bench 大模型得分排行榜

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

详细评测数据

当前榜单暂无并行思考结果

排名	模型
1	Grok 4 Codedefault	72	2025-07-03	未知

SWE-bench 大模型得分排行榜

详细评测数据

SWE-bench详细排名数据表格