FrontierMath - Tier 4

Name: FrontierMath - Tier 4
Creator: Epoch AI

FrontierMath是一个由Epoch AI开发的基准测试套件，包含数百个原创的数学问题。这些问题由专家数学家设计和审核，覆盖现代数学的主要分支，如数论、实分析、代数几何和范畴论。每个问题通常需要相关领域研究人员投入数小时至数天的努力来解决。基准采用未发表的问题和自动化验证机制，以减少数据污染风险并确保评估可靠性。当前最先进的AI模型在该基准上的解决率低于2%，这反映出AI在处理专家级数学推理时的局限性。该基准旨在为AI系统向研究级数学能力进步提供量化指标。

更新于 2026年5月2日·1,668 次浏览

问题数量: 300
发布机构: Epoch AI
评测类别: 数学推理
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。FrontierMath - Tier 4是其中研究生级别的难题！

FrontierMath - Tier 4评测最新大模型排名与完整榜单数据

查看 FrontierMath - Tier 4 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	GPT-5.5 Pro 思考水平·极高工具	39.60	2026-04-23	未知	闭源
	GPT-5.5 Pro 思考水平·极高	39.60	2026-04-23	未知	闭源
	GPT-5.5 Pro 思考水平·高	39.60	2026-04-23	未知	闭源
4	GPT-5.4 Pro 思考水平·高	38.00	2026-03-05	未知	闭源
5	GPT-5.4 Pro 思考水平·极高	37.50	2026-03-05	未知	闭源
6	GPT-5.4 Pro 常规模式工具联网	37.50	2026-03-05	未知	闭源
7	GPT-5.5 思考水平·高工具	35.40	2026-04-23	未知	闭源
8	GPT-5.5 思考水平·极高	35.40	2026-04-23	未知	闭源
9	GPT-5.2 Pro 开启思考	31.30	2025-12-11	未知	闭源
10	GPT-5.2 Pro 常规模式工具联网	31.30	2025-12-11	未知	闭源
11	GPT-5.4 思考水平·极高	27.10	2026-03-05	未知	闭源
12	Claude Opus 4.6 思考水平·Max	22.90	2026-02-05	未知	闭源
13	Opus 4.7 思考水平·极高	22.90	2026-04-16	未知	闭源
14	Claude Opus 4.6 64K	20.80	2026-02-05	未知	闭源
15	Claude Opus 4.6 32K	20.80	2026-02-05	未知	闭源
16	Gemini 3.0 Pro (Preview 11-2025) 开启思考	18.80	2025-11-18	未知	闭源
17	Gemini 3.0 Pro (Preview 11-2025) 常规模式	18.80	2025-11-18	未知	闭源
18	GPT-5.2 思考水平·极高	18.80	2025-12-11	未知	闭源
19	GPT-5.2 思考水平·高	18.80	2025-12-11	未知	闭源
20	GPT-5.2 思考水平·中	16.70	2025-12-11	未知	闭源
21	Gemini 3.1 Pro Preview 常规模式	16.70	2026-02-20	未知	闭源
22	Gemini 3.1 Pro Preview 思考水平·高	16.70	2026-02-20	未知	闭源
23	GPT-5-Pro 开启思考	14.60	2025-08-07	未知	闭源
24	GPT-5-Pro 常规模式	14.60	2025-08-07	未知	闭源
25	GPT-5.2 思考水平·极高工具	14.60	2025-12-11	未知	闭源
26	Claude Opus 4.6 思考水平·高	14.60	2026-02-05	未知	闭源
27	Muse Spark 开启思考	14.60	2026-04-08	未知	闭源
28	Muse Spark 常规模式	14.60	2026-04-08	未知	闭源
29	GPT-5 思考水平·高	12.50	2025-08-07	未知	闭源
30	GPT-5.1 思考水平·高工具	12.50	2025-11-12	未知	闭源

继续滚动可加载剩余 50 条

FrontierMath - Tier 4评测最新大模型排名与完整榜单数据

FrontierMath - Tier 4 排名