加载中...

AIME2025 评测基准详情

Name: AIME2025
Creator: 个人

随着大语言模型（LLM）的发展越来越快，我们需要更好的方法来评估它们到底有多“聪明”，特别是在处理复杂数学问题的时候。AIME 2025 就是这样一个工具，它专门用来测试当前 AI 在高等数学推理方面的真实水平。

更新2026-03-19

问题数量

发布机构

个人

评测类别

数学推理

评测指标

Accuracy

支持语言

英文

难度等级

高难度

简介

2025年美国数学竞赛邀请赛的试题，用于测试大模型的数学推理能力

AIME2025 大模型得分排行榜

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

详细评测数据

已排除 2 条并行模式成绩

排名	模型
1	GPT-5-Prothinking + 使用工具	100	2025-08-07	未知
2	Claude Sonnet 4.5thinking + 使用工具	100	2025-09-30	未知
3	GPT-5.2极高强度思考（无工具）	100	2025-12-11	未知
4	Step 3.5 Flashthinking + 使用工具	99.8	2026-02-02	1960
5	Claude Opus 4.6扩展（无工具）	99.79	2026-02-05	未知
6	Gemini 3.0 Flashthinking + 使用工具	99.7	2025-12-17	未知
7	GPT-5thinking + 使用工具	99.6	2025-08-07	未知
8	OpenAI o4 - minithinking + 使用工具	99.5	2025-04-16	未知
9	Gemini 2.5 Deep Thinkdeeper thinking	99.2	2025-08-01	未知
10	Kimi K2 Thinkingthinking + 使用工具	99.1	2025-11-06	10400
11	Grok 4thinking + 使用工具	98.8	2025-07-10	未知
12	GPT OSS 20Bthinking + 使用工具	98.7	2025-08-06	210
13	GLM-4.6thinking + 使用工具	98.6	2025-09-30	3550
14	GLM-4.6thinking	98.6	2025-09-30	3550
15	GPT OSS 120Bthinking + 使用工具	97.9	2025-08-06	117
16	Step 3.5 Flashthinking	97.3	2026-02-02	1960
17	GPT-5-Prothinking	96.7	2025-08-07	未知
18	Haiku 4.5思考模式（工具，128K预算）	96.3	2025-10-15	未知
19	Kimi K2.5thinking	96.1	2026-01-27	10000
20	DeepSeek V3.2 Specialethinking	96	2025-12-01	未知
21	GLM-4.7thinking	95.7	2025-12-22	3580
22	Gemini 3.0 Flashthinking	95.2	2025-12-17	未知
23	Gemini 3.0 Pro (Preview 11-2025)thinking	95	2025-11-18	未知
24	GPT-5thinking	94.6	2025-08-07	未知
25	Kimi K2 Thinkingthinking	94.5	2025-11-06	10400
26	GPT-5.1high	94	2025-11-12	未知
27	GPT-5.1思考模式 High（无工具）	94	2025-11-12	未知
28	DeepSeek V3.2thinking	93.1	2025-12-01	6710

将鼠标移至此处继续加载剩余 77 条

AIME2025 评测基准详情

更新2026-03-19

问题数量

发布机构

个人

评测类别

数学推理

评测指标

Accuracy

支持语言

英文

难度等级

高难度

简介

2025年美国数学竞赛邀请赛的试题，用于测试大模型的数学推理能力

AIME2025 大模型得分排行榜

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

详细评测数据

已排除 2 条并行模式成绩

排名	模型
1	GPT-5-Prothinking + 使用工具	100	2025-08-07	未知
2	Claude Sonnet 4.5thinking + 使用工具	100	2025-09-30	未知
3	GPT-5.2极高强度思考（无工具）	100	2025-12-11	未知
4	Step 3.5 Flashthinking + 使用工具	99.8	2026-02-02	1960
5	Claude Opus 4.6扩展（无工具）	99.79	2026-02-05	未知
6	Gemini 3.0 Flashthinking + 使用工具	99.7	2025-12-17	未知
7	GPT-5thinking + 使用工具	99.6	2025-08-07	未知
8	OpenAI o4 - minithinking + 使用工具	99.5	2025-04-16	未知
9	Gemini 2.5 Deep Thinkdeeper thinking	99.2	2025-08-01	未知
10	Kimi K2 Thinkingthinking + 使用工具	99.1	2025-11-06	10400
11	Grok 4thinking + 使用工具	98.8	2025-07-10	未知
12	GPT OSS 20Bthinking + 使用工具	98.7	2025-08-06	210
13	GLM-4.6thinking + 使用工具	98.6	2025-09-30	3550
14	GLM-4.6thinking	98.6	2025-09-30	3550
15	GPT OSS 120Bthinking + 使用工具	97.9	2025-08-06	117
16	Step 3.5 Flashthinking	97.3	2026-02-02	1960
17	GPT-5-Prothinking	96.7	2025-08-07	未知
18	Haiku 4.5思考模式（工具，128K预算）	96.3	2025-10-15	未知
19	Kimi K2.5thinking	96.1	2026-01-27	10000
20	DeepSeek V3.2 Specialethinking	96	2025-12-01	未知
21	GLM-4.7thinking	95.7	2025-12-22	3580
22	Gemini 3.0 Flashthinking	95.2	2025-12-17	未知
23	Gemini 3.0 Pro (Preview 11-2025)thinking	95	2025-11-18	未知
24	GPT-5thinking	94.6	2025-08-07	未知
25	Kimi K2 Thinkingthinking	94.5	2025-11-06	10400
26	GPT-5.1high	94	2025-11-12	未知
27	GPT-5.1思考模式 High（无工具）	94	2025-11-12	未知
28	DeepSeek V3.2thinking	93.1	2025-12-01	6710

将鼠标移至此处继续加载剩余 77 条

AIME2025 评测基准详情

简介

相关资源

AIME2025 大模型得分排行榜

详细评测数据

AIME2025 评测基准详情

简介

相关资源

AIME2025 大模型得分排行榜

详细评测数据

AIME2025 大模型得分排行榜

详细评测数据

AIME2025详细排名数据表格

AIME2025 大模型得分排行榜

详细评测数据

AIME2025详细排名数据表格