FrontierMath - Tier 4 评测基准详情

FrontierMath是一个由Epoch AI开发的基准测试套件，包含数百个原创的数学问题。这些问题由专家数学家设计和审核，覆盖现代数学的主要分支，如数论、实分析、代数几何和范畴论。每个问题通常需要相关领域研究人员投入数小时至数天的努力来解决。基准采用未发表的问题和自动化验证机制，以减少数据污染风险并确保评估可靠性。当前最先进的AI模型在该基准上的解决率低于2%，这反映出AI在处理专家级数学推理时的局限性。该基准旨在为AI系统向研究级数学能力进步提供量化指标。

FrontierMath - Tier 4

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。FrontierMath - Tier 4是其中研究生级别的难题！

问题数量 300

发布机构 Epoch AI

评测类别数学推理

评测指标 Accuracy

支持语言英文

难度等级高难度

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

FrontierMath - Tier 4 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

GPT-5-Pro

12.5

2025-08-07

未知

GPT-5-Pro

12.5

FrontierMath - Tier 4得分 12.5

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

Gemini 2.5 Deep Think

10.4

2025-08-01

未知

Gemini 2.5 Deep Think

10.4

FrontierMath - Tier 4得分 10.4

发布时间 2025-08-01

参数(亿) 未知

查看模型详情

GPT-5 high

8.3

2025-08-07

未知

GPT-5 high

8.3

FrontierMath - Tier 4得分 8.3

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

GPT-5 medium

6.3

2025-08-07

未知

GPT-5 medium

6.3

FrontierMath - Tier 4得分 6.3

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

OpenAI o4 - mini high

6.3

2025-04-16

未知

OpenAI o4 - mini high

6.3

FrontierMath - Tier 4得分 6.3

发布时间 2025-04-16

参数(亿) 未知

查看模型详情

OpenAI o3-mini (high) high

4.2

2025-01-31

未知

OpenAI o3-mini (high) high

4.2

FrontierMath - Tier 4得分 4.2

发布时间 2025-01-31

参数(亿) 未知

查看模型详情

Gemini 2.5-Pro

4.2

2025-06-05

未知

Gemini 2.5-Pro

4.2

FrontierMath - Tier 4得分 4.2

发布时间 2025-06-05

参数(亿) 未知

查看模型详情

Claude Opus 4.1 thinking

4.2

2025-08-06

未知

Claude Opus 4.1 thinking

4.2

FrontierMath - Tier 4得分 4.2

发布时间 2025-08-06

参数(亿) 未知

查看模型详情

GPT-5-mini medium

4.2

2025-08-07

未知

GPT-5-mini medium

4.2

FrontierMath - Tier 4得分 4.2

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

Claude Opus 4 thinking

4.2

2025-05-23

未知

#10

Claude Opus 4 thinking

4.2

FrontierMath - Tier 4得分 4.2

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

OpenAI o3 high

2.1

2025-04-16

未知

#11

OpenAI o3 high

2.1

FrontierMath - Tier 4得分 2.1

发布时间 2025-04-16

参数(亿) 未知

查看模型详情

Claude Sonnet 4.5

2.1

2025-09-30

未知

#12

Claude Sonnet 4.5

2.1

FrontierMath - Tier 4得分 2.1

发布时间 2025-09-30

参数(亿) 未知

查看模型详情

Grok 4

2.1

2025-07-10

未知

#13

Grok 4

2.1

FrontierMath - Tier 4得分 2.1

发布时间 2025-07-10

参数(亿) 未知

查看模型详情

OpenAI o4 - mini medium

2.1

2025-04-16

未知

#14

OpenAI o4 - mini medium

2.1

FrontierMath - Tier 4得分 2.1

发布时间 2025-04-16

参数(亿) 未知

查看模型详情

GPT-5-Nano medium

2.1

2025-08-07

未知

#15

GPT-5-Nano medium

2.1

FrontierMath - Tier 4得分 2.1

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

GPT-5-mini high

2.1

2025-08-07

未知

#16

GPT-5-mini high

2.1

FrontierMath - Tier 4得分 2.1

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

Gemini-2.5-Pro-Preview-05-06

2.1

2025-05-06

未知

#17

Gemini-2.5-Pro-Preview-05-06

2.1

FrontierMath - Tier 4得分 2.1

发布时间 2025-05-06

参数(亿) 未知

查看模型详情

Claude 3.5 Sonnet

0.01

2024-06-21

未知

#18

Claude 3.5 Sonnet

0.01

FrontierMath - Tier 4得分 0.01

发布时间 2024-06-21

参数(亿) 未知

查看模型详情

Claude Opus 4

0.01

2025-05-23

未知

#19

Claude Opus 4

0.01

FrontierMath - Tier 4得分 0.01

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

GPT-4.1

0.01

2025-04-14

未知

#20

GPT-4.1

0.01

FrontierMath - Tier 4得分 0.01

发布时间 2025-04-14

参数(亿) 未知

查看模型详情

Kimi K2

0.01

2025-07-11

10000.0

#21

Kimi K2

0.01

FrontierMath - Tier 4得分 0.01

发布时间 2025-07-11

参数(亿) 10000.0

查看模型详情

GPT-5-Nano high

0.01

2025-08-07

未知

#22

GPT-5-Nano high

0.01

FrontierMath - Tier 4得分 0.01

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

Claude 3.5 Sonnet New

0.01

2024-10-22

未知

#23

Claude 3.5 Sonnet New

0.01

FrontierMath - Tier 4得分 0.01

发布时间 2024-10-22

参数(亿) 未知

查看模型详情

Claude Sonnet 4

0.01

2025-05-23

未知

#24

Claude Sonnet 4

0.01

FrontierMath - Tier 4得分 0.01

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

Grok 3

0.01

2025-02-17

未知

#25

Grok 3

0.01

FrontierMath - Tier 4得分 0.01

发布时间 2025-02-17

参数(亿) 未知

查看模型详情