大模型数学推理能力评测排行榜
本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。
数据更新于 2026-05-02 07:14:49
截至 2026年5月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。
点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。
榜单亮点
按 FrontierMath - Tier 4 排序大模型性能评测结果
数据来源:DataLearnerAI点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。
AIME202595.00
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
闭源
AIME2025—
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
闭源
AIME2025—
FrontierMath - Tier 410.40
MATH-500—
GSM8K—
闭源
AIME2025—
FrontierMath - Tier 44.20
MATH-500—
GSM8K—
闭源
排序:
已显示 50 / 221 个模型查看 FrontierMath - Tier 4 基准测试完整页面




