SWE-bench Verified

Name: Software Engineering Bench - Verified
Creator: OpenAI

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域，AI 模型是否能够准确地解决真实的编程问题，是衡量其真正应用潜力的关键。而在这方面，OpenAI 推出的 *SWE-bench Verified* 基准测试，旨在提供一个更加可靠和精确的评估工具，帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

更新于 2026年6月13日·16,329 次浏览

问题数量: 500
发布机构: OpenAI
评测类别: 编程与软件工程
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测

SWE-bench Verified评测最新大模型排名与完整榜单数据

查看 SWE-bench Verified 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

已排除 3 条并行模式成绩

排名	模型				开源情况
	Claude Fable 5 思考水平·高工具	95.00	2026-06-09	未知	闭源
	Claude Fable 5 深度思考模式工具	95.00	2026-06-09	未知	闭源
	Claude Mythos Preview 扩展思考工具	93.90	2026-04-07	未知	闭源
4	Claude Opus 4.8 扩展思考工具	88.60	2026-05-28	未知	闭源
5	Opus 4.7 扩展思考工具	87.60	2026-04-16	未知	闭源
6	Opus 4.5 扩展思考工具	80.90	2025-11-25	未知	闭源
7	Claude Opus 4.6 扩展思考工具	80.84	2026-02-05	未知	闭源
8	Gemini 3.1 Pro Preview 思考水平·高工具	80.60	2026-02-20	未知	闭源
9	DeepSeek-V4-Pro 思考水平·极高工具	80.60	2026-04-24	16000亿	免费商用
10	Qwen3.7-Max-Preview 开启思考工具	80.40	2026-05-20	10000亿	闭源
11	MiniMax M2.5 开启思考工具	80.20	2026-02-12	2290亿	免费商用
12	Kimi K2.6 开启思考工具	80.20	2026-04-20	10000亿	免费商用
13	GPT-5.2 思考水平·极高工具	80.00	2025-12-11	未知	闭源
14	Claude Sonnet 4.6 开启思考	79.60	2026-02-17	未知	闭源
15	DeepSeek-V4-Pro 思考水平·高工具	79.40	2026-04-24	16000亿	免费商用
16	DeepSeek-V4-Flash 思考水平·极高工具	79.00	2026-04-24	2840亿	免费商用
17	Qwen 3.6 Plus Preview 开启思考工具	78.80	2026-03-31	未知	闭源
18	Qwen3.6-Max-Preview 开启思考工具	78.80	2026-04-20	10000亿	闭源
19	DeepSeek-V4-Flash 思考水平·高工具	78.60	2026-04-24	2840亿	免费商用
20	GLM-5 开启思考	77.80	2026-02-11	7440亿	免费商用
21	Muse Spark 开启思考工具	77.40	2026-04-08	未知	闭源
22	Claude Sonnet 4.5 开启思考工具	77.20	2025-09-30	未知	闭源
23	Qwen3.6-27B 开启思考工具	77.20	2026-04-22	270亿	免费商用
24	GPT-5.1-Codex-Max 思考水平·高工具	76.80	2025-11-19	未知	闭源
25	Kimi K2.5 开启思考工具	76.80	2026-01-27	10000亿	免费商用
26	Qwen3.5-397B-A17B 开启思考工具	76.40	2026-02-16	397亿	免费商用
27	GPT-5.1 思考水平·高	76.30	2025-11-12	未知	闭源

继续滚动可加载剩余 78 条

SWE-bench Verified评测最新大模型排名与完整榜单数据

SWE-bench Verified 排名