加载中...
加载中...
OpenAI开源的评测大模型解决独立软件工程任务能力的评测基准
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | GPT-5.3 Codexdefault | 81.4 | 2026-02-05 | 未知 |
| 2 | GPT-5.1思考模式 High(无工具) | 69.7 | 2025-11-12 | 未知 |
| 3 | GPT-4.1 minidefault | 33 | 2025-04-14 | 未知 |
| 4 | GPT-4.5default | 32.6 | 2025-02-28 | 未知 |
| 5 | GPT-4odefault | 23.3 | 2024-05-13 | 未知 |
| 6 | GPT-4.1 nanodefault | 15.3 | 2025-04-14 | 未知 |
| 7 | GPT-4.1default | 14.4 | 2025-04-14 | 未知 |