SWE-bench Verified

Name: Software Engineering Bench - Verified
Creator: OpenAI

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域，AI 模型是否能够准确地解决真实的编程问题，是衡量其真正应用潜力的关键。而在这方面，OpenAI 推出的 *SWE-bench Verified* 基准测试，旨在提供一个更加可靠和精确的评估工具，帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

更新于 2026年4月28日·14,336 次浏览

问题数量: 500
发布机构: OpenAI
评测类别: 编程与软件工程
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测

SWE-bench Verified评测最新大模型排名与完整榜单数据

查看 SWE-bench Verified 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

已排除 3 条并行模式成绩

排名	模型				开源情况
	Claude Mythos Preview 扩展思考工具	93.90	2026-04-07	未知	闭源
	Opus 4.7 扩展思考工具	87.60	2026-04-16	未知	闭源
	Opus 4.5 扩展思考工具	80.90	2025-11-25	未知	闭源
4	Claude Opus 4.6 扩展思考工具	80.84	2026-02-05	未知	闭源
5	Gemini 3.1 Pro Preview 思考水平 · 高工具	80.60	2026-02-20	未知	闭源
6	DeepSeek-V4-Pro 思考水平 · 极高工具	80.60	2026-04-24	16000亿	免费商用
7	MiniMax M2.5 开启思考工具	80.20	2026-02-12	2290亿	免费商用
8	Kimi K2.6 开启思考工具	80.20	2026-04-20	10000亿	免费商用
9	GPT-5.2 思考水平 · 极高工具	80.00	2025-12-11	未知	闭源
10	Claude Sonnet 4.6 开启思考	79.60	2026-02-17	未知	闭源
11	DeepSeek-V4-Pro 思考水平 · 高工具	79.40	2026-04-24	16000亿	免费商用
12	DeepSeek-V4-Flash 思考水平 · 极高工具	79.00	2026-04-24	2840亿	免费商用
13	Qwen 3.6 Plus Preview 开启思考工具	78.80	2026-03-31	未知	闭源
14	DeepSeek-V4-Flash 思考水平 · 高工具	78.60	2026-04-24	2840亿	免费商用
15	GLM-5 开启思考	77.80	2026-02-11	7440亿	免费商用
16	Muse Spark 开启思考工具	77.40	2026-04-08	未知	闭源
17	Claude Sonnet 4.5 开启思考工具	77.20	2025-09-30	未知	闭源
18	Qwen3.6-27B 开启思考工具	77.20	2026-04-22	270亿	免费商用
19	GPT-5.1-Codex-Max 思考水平 · 高工具	76.80	2025-11-19	未知	闭源
20	Kimi K2.5 开启思考工具	76.80	2026-01-27	10000亿	免费商用
21	Qwen3.5-397B-A17B 开启思考工具	76.40	2026-02-16	397亿	免费商用
22	GPT-5.1 思考水平 · 高	76.30	2025-11-12	未知	闭源
23	GPT-5.1 思考水平 · 高工具	76.30	2025-11-12	未知	闭源
24	Gemini 3.0 Pro (Preview 11-2025) 开启思考	76.20	2025-11-18	未知	闭源
25	Qwen3-Max-Thinking 开启思考	75.30	2026-01-26	10000亿	闭源
26	o3-pro 思考水平 · 高	75.00	2025-06-10	未知	闭源
27	M2.1 开启思考	74.80	2025-12-23	2300亿	免费商用