大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

OpenAI o4 - mini 评测结果与排名详情 | DataLearnerAI

页面导航

页面导航

大模型列表OpenAI o4 - mini评测分析

OpenAI o4 - mini 评测详情

OpenAI o4 - mini 当前已收录的代表性评测结果包括 AIME 2024（1 / 62，得分 98.70）、MMLU（2 / 65，得分 93）、AIME2025（10 / 106，得分 99.50）。

评测结果

OpenAI o4 - mini

评测结果

思考模式

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

93

2 / 65

81.40

65 / 177

80.60

55 / 126

58.70

36 / 65

17.70

111 / 157

14.28

123 / 157

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

2719

6 / 16

SWE-bench Verified

68.10

64 / 108

数学推理

共 12 项评测

评测名称 / 模式

得分

排名/总数

99.50

10 / 106

92.70

32 / 106

98.70

1 / 62

93.40

5 / 62

19.30

18 / 60

17.20

21 / 60

9.70

29 / 60

11.40

12 / 16

7.70

7 / 10

FrontierMath - Tier 4

思考水平·中

2.10

56 / 80

FrontierMath - Tier 4

思考水平·高

6.30

35 / 80

3

7 / 9

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

38.70

19 / 27

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总数

72

8 / 26

56.90

30 / 40

τ²-Bench - Telecom

50.20

33 / 35

与其他模型对比