SWE-bench

Name: Software Engineering Bench
Creator: 普林斯顿大学

随着大语言模型（LLM）的快速发展，它们在自然语言处理（NLP）、代码生成等领域的表现已达到前所未有的高度。然而，现有的代码评测基准（如 HumanEval）通常侧重于**自包含的、较短的代码生成任务**，而未能充分模拟真实世界的软件开发环境。为弥补这一空白，研究者提出了一种全新的评测基准——**SWE-Bench**，旨在测试 LLM 在**真实软件工程问题**中的能力。

更新于 2026-03-22

1,693 次浏览

问题数量

2294

发布机构

普林斯顿大学

评测类别

编程与软件工程

评测指标

Accuracy

支持语言

英文

难度等级

高难度

简介

一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集

SWE-bench Model Score Leaderboard

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

Latest SWE-bench model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for SWE-bench.

Model release cutoff:

排名	模型
1	Claude Opus 4.6 Extended ThinkingTools	77.83	2026-02-05	未知
2	Grok 4 Code Standard Mode	72.00	2025-07-03	未知

SWE-bench Model Score Leaderboard

Latest SWE-bench model rankings and full benchmark leaderboard

SWE-bench详细排名数据表格