SWE-bench Verified

Software Engineering Bench - Verified

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测

英文 难度:高难度

主要统计信息

问题数量

500

机构

OpenAI

类别

代码生成

评估指标

Accuracy

SWE-bench Verified基准测试简介

在人工智能领域,随着大型语言模型(LLMs)在各类任务中的表现不断提升,评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域,AI 模型是否能够准确地解决真实的编程问题,是衡量其真正应用潜力的关键。而在这方面,OpenAI 推出的 *SWE-bench Verified* 基准测试,旨在提供一个更加可靠和精确的评估工具,帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

SWE-bench Verified 大模型得分排行榜

冠军
亚军
季军
其他排名

详细排名数据表格

模型简称 SWE-bench Verified得分 发布机构 发布时间 参数规模(亿)
o3-pro 75.0 OpenAI Logo 2025-06-10 未知
Grok 4 Code (TTC) 75.0 xAI Logo 2025-07-05 0.0
Grok 4 Heavy 73.5 xAI Logo 2025-07-10 0.0
Claude Sonnet 4 72.7 Anthropic Logo 2025-05-23 未知
Claude Opus 4 72.5 Anthropic Logo 2025-05-23 未知
Grok 4 Code 72.0 xAI Logo 2025-07-03 0.0
Claude Sonnet 3.7 70.3 Anthropic Logo 2025-02-25 未知
OpenAI o3 69.1 OpenAI Logo 2025-04-16 未知
OpenAI o4 - mini 68.1 OpenAI Logo 2025-04-16 未知
Qwen3-Coder-480B-A35B 67.0 阿里巴巴 Logo 2025-07-23 4800.0
Gemini 2.5 Flash 63.8 Google Deep Mind Logo 2025-04-17 未知
Gemini 2.5 Pro Experimental 03-25 63.8 Google Deep Mind Logo 2025-03-25 0.0
Gemini-2.5-Pro-Preview-05-06 63.2 Google Deep Mind Logo 2025-05-06 未知
Devstral Medium 61.6 MistralAI Logo 2025-07-10 0.0
Gemini-2.5-Pro-Preview-06-05 59.6 Google Deep Mind Logo 2025-06-05 未知
DeepSeek-R1-0528 57.6 DeepSeek-AI Logo 2025-05-28 6850.0
MiniMax-M1-80k 56.0 MiniMaxAI Logo 2025-06-16 4560.0
MiniMax-M1-40k 55.6 MiniMaxAI Logo 2025-06-16 4560.0
GPT-4.1 54.6 OpenAI Logo 2025-04-14 未知
Devstral Small 1.1 53.6 MistralAI Logo 2025-07-10 240.0
Kimi K2 51.8 Moonshot AI Logo 2025-07-11 10000.0
OpenAI o3-mini (high) 49.3 OpenAI Logo 2025-01-31 未知
DeepSeek-R1 49.2 DeepSeek-AI Logo 2025-01-20 6710.0
Claude 3.5 Sonnet New 49.0 Anthropic Logo 2024-10-22 0.0
OpenAI o1 48.9 OpenAI Logo 2024-12-05 未知
Devstral Small 1.0 46.8 MistralAI Logo 2025-05-26 240.0
DeepSeek-V3-0324 38.8 DeepSeek-AI Logo 2025-03-24 6810.0
GPT-4.5 38.0 OpenAI Logo 2025-02-28 未知
Qwen3-235B-A22B 34.4 阿里巴巴 Logo 2025-04-28 2350.0
GPT-4o 31.0 OpenAI Logo 2024-05-13 未知
Gemini 2.5 Flash-Lite 27.6 Google Deep Mind Logo 2025-06-17 未知
GPT-4.1 mini 23.6 OpenAI Logo 2025-04-14 未知
Gemini 2.0 Flash Experimental 21.4 DeepMind Logo 2024-12-11 未知
GPT-5 0.0 OpenAI Logo 2025-07-15 0.0
GPT-5 Reasoning 0.0 OpenAI Logo 2025-07-15 0.0
得分:
75.0
发布时间:
2025-06-10
参数规模(亿):
未知
得分:
75.0
发布时间:
2025-07-05
参数规模(亿):
0.0
得分:
73.5
发布时间:
2025-07-10
参数规模(亿):
0.0
得分:
72.7
发布时间:
2025-05-23
参数规模(亿):
未知
得分:
72.5
发布时间:
2025-05-23
参数规模(亿):
未知
得分:
72.0
发布时间:
2025-07-03
参数规模(亿):
0.0
得分:
70.3
发布时间:
2025-02-25
参数规模(亿):
未知
得分:
69.1
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
68.1
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
67.0
发布时间:
2025-07-23
参数规模(亿):
4800.0
得分:
63.8
发布时间:
2025-04-17
参数规模(亿):
未知
得分:
63.8
发布时间:
2025-03-25
参数规模(亿):
0.0
得分:
63.2
发布时间:
2025-05-06
参数规模(亿):
未知
得分:
61.6
发布时间:
2025-07-10
参数规模(亿):
0.0
得分:
59.6
发布时间:
2025-06-05
参数规模(亿):
未知
得分:
57.6
发布时间:
2025-05-28
参数规模(亿):
6850.0
得分:
56.0
发布时间:
2025-06-16
参数规模(亿):
4560.0
得分:
55.6
发布时间:
2025-06-16
参数规模(亿):
4560.0
得分:
54.6
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
53.6
发布时间:
2025-07-10
参数规模(亿):
240.0
得分:
51.8
发布时间:
2025-07-11
参数规模(亿):
10000.0
得分:
49.3
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
49.2
发布时间:
2025-01-20
参数规模(亿):
6710.0
得分:
49.0
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
48.9
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
46.8
发布时间:
2025-05-26
参数规模(亿):
240.0
得分:
38.8
发布时间:
2025-03-24
参数规模(亿):
6810.0
得分:
38.0
发布时间:
2025-02-28
参数规模(亿):
未知
得分:
34.4
发布时间:
2025-04-28
参数规模(亿):
2350.0
得分:
31.0
发布时间:
2024-05-13
参数规模(亿):
未知
得分:
27.6
发布时间:
2025-06-17
参数规模(亿):
未知
得分:
23.6
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
21.4
发布时间:
2024-12-11
参数规模(亿):
未知
得分:
0.0
发布时间:
2025-07-15
参数规模(亿):
0.0
得分:
0.0
发布时间:
2025-07-15
参数规模(亿):
0.0