MATH-500

Name: MATH-500
Creator: OpenAI

在评估大型语言模型（LLM）的数学推理能力时，MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力，但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。

更新于 2026年5月2日·3,223 次浏览

问题数量: 500
发布机构: OpenAI
评测类别: 数学推理
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准

MATH-500评测最新大模型排名与完整榜单数据

查看 MATH-500 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	Gemini-2.5-Pro-Preview-05-06 常规模式	98.80	2025-05-06	未知	闭源
	Gemini 2.5-Pro 常规模式	98.80	2025-06-05	未知	闭源
	Claude Opus 4 常规模式	98.20	2025-05-23	未知	闭源
4	GLM-4.5 开启思考	98.20	2025-07-28	3550亿	免费商用
5	OpenAI o3 常规模式	98.10	2025-04-16	未知	闭源
6	GLM-4.5-Air 开启思考	98.10	2025-07-28	1060亿	免费商用
7	Qwen3-235B-A22B 开启思考	98.00	2025-04-28	2350亿	免费商用
8	DeepSeek-R1-0528 开启思考	98.00	2025-05-28	6710亿	免费商用
9	OpenAI o3-mini (high) 常规模式	97.90	2025-01-31	未知	闭源
10	Claude Opus 4.6 扩展思考	97.60	2026-02-05	未知	闭源
11	Qwen3-8B 开启思考	97.40	2025-04-28	80亿	免费商用
12	Kimi K2 常规模式	97.40	2025-07-11	10000亿	免费商用
13	DeepSeek-R1 常规模式	97.30	2025-01-20	6710亿	免费商用
14	Qwen3-32B 开启思考	97.20	2025-04-28	320亿	免费商用
15	MiniMax-M1-80k 常规模式	96.80	2025-06-16	4560亿	免费商用
16	Pangu Pro MoE 常规模式	96.80	2025-06-30	719亿	免费商用
17	OpenAI o1 常规模式	96.40	2024-12-05	未知	闭源
18	ERNIE-4.5-300B-A47B 常规模式	96.40	2025-06-30	3000亿	免费商用
19	Kimi k1.5 (Long-CoT) 常规模式	96.20	2025-01-22	未知	闭源
20	Claude Sonnet 3.7-64K Extended Thinking 常规模式	96.20	2025-02-25	未知	闭源
21	Hunyuan-T1 常规模式	96.20	2025-03-21	未知	闭源
22	Qwen3-235B-A22B 常规模式	96.20	2025-04-28	2350亿	免费商用
23	MiniMax-M1-40k 常规模式	96.00	2025-06-16	4560亿	免费商用
24	OpenAI o3-mini 开启思考	95.80	2025-01-31	未知	闭源
25	Llama 4 Behemoth Instruct 常规模式	95.00	2025-04-05	20000亿	免费商用
26	Kimi k1.5 (Short-CoT) 常规模式	94.60	2025-01-22	未知	闭源
27	DeepSeek-R1-Distill-Llama-70B 常规模式	94.50	2025-01-20	700亿	免费商用
28	DeepSeek-V3-0324 常规模式	94.00	2025-03-24	6710亿	免费商用
29	Hunyuan-7B 常规模式	93.70	2025-08-04	70亿	免费商用
30	GPT-4.1 常规模式	92.80	2025-04-14	未知	闭源