Op

OpenAI o4 - mini

推理大模型

OpenAI o4 - mini

发布时间: 2025-04-16

683
模型参数(Parameters)
未披露
最高上下文长度(Context Length)
200K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

200K tokens

最长输出结果
暂无数据
模型类型

推理大模型

发布时间

2025-04-16

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
文本 1.1 美元/ 100 万tokens 4.4 美元/ 100 万tokens
图片 1.1 美元/ 100 万tokens --

OpenAI o4 - mini模型在各大评测榜单的评分

综合评估

共 6 项评测
MMLU thinking
93
2 / 59
GPQA Diamond thinking
81.40
26 / 133
MMLU Pro thinking
80.60
35 / 105
ARC-AGI thinking
58.70
10 / 32
HLE thinking + 使用工具
17.70
30 / 68
HLE thinking
14.28
40 / 68

编程与软件工程

共 2 项评测
CodeForces thinking + 使用工具
2719
1 / 6
68.10
28 / 66

数学推理

共 12 项评测
AIME2025 thinking + 使用工具
99.50
6 / 93
AIME 2024 thinking + 使用工具
98.70
1 / 62
AIME 2024 thinking
93.40
5 / 62
AIME2025 thinking
92.70
21 / 93
FrontierMath medium
19.30
6 / 48
17.20
9 / 48
11.40
7 / 13
9.70
17 / 48
IOI 2024 thinking
7.70
7 / 10
6.30
4 / 25
IOI 2025 thinking
3
7 / 9
2.10
11 / 25

常识推理

共 1 项评测
Simple Bench thinking
38.70
16 / 24

Agent能力评测

共 3 项评测
72
8 / 22
τ²-Bench thinking + 使用工具
56.90
15 / 23
τ²-Bench - Telecom thinking + 使用工具
50.20
13 / 15

发布机构

OpenAI o4 - mini模型解读

o4 mini是OpenAI最新发布的推理大模型。

OpenAI o4-mini 是一款专注于快速、经济高效推理的小型化模型。尽管其规模较小,但它在数学、编码和视觉任务等领域展现出显著的性能。

该模型具备强大的推理能力,并能够有效地利用和组合ChatGPT内的各种工具,包括网络搜索、使用Python分析上传文件和数据、对视觉输入进行深度推理,甚至生成图像。o4-mini经过训练,能够判断何时以及如何使用这些工具来解决复杂问题,并生成详细且经过深思熟虑的答案。

在性能方面,o4-mini在多个基准测试中表现出色。例如,在AIME 2024和2025数学竞赛中,o4-mini是表现最佳的基准模型。当配合Python解释器使用时,o4-mini在AIME 2025上实现了99.5%的pass@1(8个一致性答案下达到100%的共识)。这体现了其有效利用工具的能力。专家评估指出,o4-mini不仅在数学、编码和视觉任务上表现优异,在非STEM任务以及数据科学等领域也超越了其前代模型o3-mini。同时,与前代推理模型相比,o4-mini在指令遵循、提供更有用和可验证的回复方面均有提升,交互时也表现得更为自然和对话化,能够更好地利用记忆和过往对话内容使回复更具个性化和相关性。

o4-mini在效率和成本方面也具有优势。由于其高效性,o4-mini支持比o3更高的使用限制,使其成为处理需要推理能力的高容量、高吞吐量任务的有力选择。在成本效益方面,o4-mini相较于o3-mini实现了提升,预计在多数实际应用场景中,o4-mini将比o3-mini更智能且更经济。

在安全性方面,OpenAI为o3和o4-mini重建了安全训练数据,增加了在生物风险、恶意软件生成和越狱等领域的拒绝提示。这使得o4-mini在内部拒绝基准测试中表现出色。同时,OpenAI还开发了系统级缓解措施来标记高风险领域的危险提示。根据评估结果,o4-mini在生物与化学、网络安全和AI自我改进三个追踪能力领域均低于“高”风险阈值。

用户可以通过多种途径访问o4-mini。ChatGPT Plus、Pro和Team用户可以在模型选择器中找到o4-mini和o4-mini-high,它们将替代此前的o3-mini和o3-mini-high。免费用户可以在提交查询前选择“Think”来体验o4-mini。开发者也可以通过Chat Completions API和Responses API使用o4-mini。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat