加载中...
加载中...
Scale AI 于 2025 年 9 月 21 日发布了 SWE-Bench Pro,这是一个针对 AI 代理在软件工程任务上的评估基准。该基准包含 1,865 个问题,来源于 41 个活跃维护的代码仓库,聚焦企业级复杂任务。现有模型在该基准上的表现显示出显著差距,顶级模型的通过率低于 25%,而最近的榜单更新显示部分模型已超过 40%。这一发布旨在推动 AI 在长时程软件开发中的应用研究。
一个用于评估大模型解决真实世界代码工程的评测基准
Source: DataLearnerAI
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | GPT-5.4极高强度思考(无工具) | 57.7 | 2026-03-05 | 未知 |
| 2 | GPT-5.3 Codexdefault | 56.8 | 2026-02-05 | 未知 |
| 3 | GPT-5.2思考模式(无工具) | 55.6 | 2025-12-11 | 未知 |
| 4 | GPT-5.2极高强度思考(无工具) | 55.6 | 2025-12-11 | 未知 |
| 5 | MiniMax M2.5default | 55.4 | 2026-02-12 | 2290 |
| 6 | Gemini 3.1 Pro Previewdefault | 54.2 | 2026-02-20 | 未知 |
| 7 | GPT-5.1思考模式 High(无工具) | 50.8 | 2025-11-12 | 未知 |
| 8 | Kimi K2.5default | 50.7 | 2026-01-27 | 10000 |
| 9 | Qwen3-Coder-Nextdefault | 44.3 | 2026-02-03 | 80 |
| 10 | Claude Sonnet 4.5default | 43.6 | 2025-09-30 | 未知 |
| 11 | Claude Sonnet 4default | 42.7 | 2025-05-23 | 未知 |
| 12 | DeepSeek V3.2default | 40.9 | 2025-12-01 | 6710 |
| 13 | GLM-4.7default | 40.6 | 2025-12-22 | 3580 |
| 14 | Haiku 4.5default | 39.45 | 2025-10-15 | 未知 |
| 15 | GPT-5default | 36.3 | 2025-08-07 | 未知 |
| 16 | M2.1default | 32.6 | 2025-12-23 | 2300 |
| 17 | Kimi K2 0905default | 27.67 | 2025-09-05 | 10000 |