大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集，对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-05-02 07:14:49

截至 2026年5月，本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准，聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

基准评测

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 AIME2025 排序

当前 SOTA

GPT OSS 20B

OpenAI

98.70AIME2025

查看详情

最佳开源

GPT OSS 20B

OpenAI

98.70AIME2025

查看详情

最佳国产

Qwen3-235B-A22B-Thinking

阿里巴巴

92.30AIME2025−6.40

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	GPT OSS 20B OpenAI	98.70	—	—	—	免费商用	详情
	Qwen3-235B-A22B-Thinking 阿里巴巴	92.30	—	—	—	免费商用	详情
	GLM-4.7-Flash 智谱AI	91.60	—	—	—	免费商用	详情
4	Qwen3-32B 阿里巴巴	72.90	—	97.20	—	免费商用	详情
5	Magistral-Small-2506 MistralAI	62.76	—	—	—	免费商用	详情
6	Qwen3-30B-A3B-2507 阿里巴巴	61.30	—	—	—	免费商用	详情
7	Qwen3-30B-A3B 阿里巴巴	21.60	—	—	—	免费商用	详情
8	Qwen2.5-32B 阿里巴巴	—	—	—	95.90	免费商用	详情
9	Gemma 3 - 27B (IT) Google Deep Mind	—	—	—	95.90	免费商用	详情
10	Gemma2-27B Google Deep Mind	—	—	—	74.00	免费商用	详情
11	QwQ-32B 阿里巴巴	—	—	91.00	—	免费商用	详情
12	QwQ-32B-Preview 阿里巴巴	—	—	90.60	—	免费商用	详情