返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集，对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-05-02 07:14:49

截至 2026年5月，本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准，聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

基准评测

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 AIME2025 排序

GPT OSS 120B

OpenAI

GPT OSS 120B

OpenAI

Moonlight-16B-A3B-Instruct

Moonshot AI

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

	排名	模型					开源情况
		GPT OSS 120B OpenAI	97.90	—	—	—	免费商用	详情
		Moonlight-16B-A3B-Instruct Moonshot AI	—	—	—	77.40	免费商用	详情

GPT OSS 120B OpenAI

AIME202597.90

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Moonlight-16B-A3B-Instruct Moonshot AI

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K77.40

免费商用

排序：