IMO-ProofBench Advanced 评测基准详情

IMO-Bench 是 Google DeepMind 开发的一套基准测试套件，针对国际数学奥林匹克（IMO）水平的数学问题设计，用于评估大型语言模型在数学推理方面的能力。该基准包括三个子基准：AnswerBench、ProofBench 和 GradingBench，涵盖从短答案验证到完整证明生成和评分的全过程。发布于 2025 年 11 月，该基准通过专家审核的问题集，帮助模型实现 IMO 金牌级别的性能，并提供自动评分机制以支持大规模评估。

IMO-ProofBench Advanced 大模型得分排行榜

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

详细评测数据

当前榜单暂无并行思考结果

排名	模型
1	DeepSeekMath-V2default	61.9	2025-11-27	6850
2	GPT-5default	20	2025-08-07	未知
3	Grok 4default	18.6	2025-07-10	未知
4	Gemini 2.5-Prodefault	17.6	2025-06-05	未知
5	Qwen3-235B-A22B-Thinkingdefault	5.2	2025-07-30	305
6	Claude Sonnet 4default	4.8	2025-05-23	未知
7	Claude Sonnet 4.5default	4.8	2025-09-30	未知
8	DeepSeek-R1-0528default	3.8	2025-05-28	6710

IMO-ProofBench Advanced 评测基准详情

简介

相关资源

IMO-ProofBench Advanced 大模型得分排行榜

详细评测数据

IMO-ProofBench Advanced 大模型得分排行榜

详细评测数据

IMO-ProofBench Advanced详细排名数据表格