IMO-ProofBench

IMO-Bench 是 Google DeepMind 开发的一套基准测试套件，针对国际数学奥林匹克（IMO）水平的数学问题设计，用于评估大型语言模型在数学推理方面的能力。该基准包括三个子基准：AnswerBench、ProofBench 和 GradingBench，涵盖从短答案验证到完整证明生成和评分的全过程。发布于 2025 年 11 月，该基准通过专家审核的问题集，帮助模型实现 IMO 金牌级别的性能，并提供自动评分机制以支持大规模评估。

更新于 2026年2月20日·1,270 次浏览

问题数量: 60
发布机构: Google Deep Mind
评测类别: 数学推理
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准

IMO-ProofBench评测最新大模型排名与完整榜单数据

查看 IMO-ProofBench 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	DeepSeekMath-V2 思考水平·高	99.00	2025-11-27	6850亿	免费商用
	GPT-5 开启思考	59.00	2025-08-07	未知	闭源
	Gemini 2.5-Pro 开启思考	55.20	2025-06-05	未知	闭源
4	Grok 4 开启思考	46.70	2025-07-10	未知	闭源
5	Gemini 2.5 Deep Think 开启思考	37.60	2025-08-01	未知	闭源
6	Qwen3-235B-A22B-Thinking 开启思考	33.30	2025-07-30	305亿	免费商用
7	DeepSeek-R1-0528 开启思考	29.00	2025-05-28	6710亿	免费商用
8	Claude Sonnet 4 开启思考	27.10	2025-05-23	未知	闭源
9	Claude Sonnet 4.5 开启思考	27.10	2025-09-30	未知	闭源
10	Grok 4 深度思考模式	23.30	2025-07-10	未知	闭源
11	OpenAI o3 开启思考	20.50	2025-04-16	未知	闭源
12	OpenAI o4 - mini 思考水平·高	11.40	2025-04-16	未知	闭源
13	Kimi K2 0905 常规模式	7.10	2025-09-05	10000亿	免费商用
14	Qwen3-VL-235B-A22B-Instruct 常规模式	5.20	2025-09-23	2350亿	免费商用
15	DeepSeek-V3-0324 常规模式	4.30	2025-03-24	6710亿	免费商用
16	Claude Opus 4 开启思考	2.90	2025-05-23	未知	闭源

IMO-ProofBench评测最新大模型排名与完整榜单数据

IMO-ProofBench 排名