GP

GPT-5-mini

GPT-5-mini

发布时间: 2025-08-071,246
模型参数
未披露
上下文长度
400K
中文支持
支持
推理能力

模型基本信息

推理过程
支持
上下文长度
400K tokens
最大输出长度
131072 tokens
模型类型
暂无数据
发布时间
2025-08-07
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
0.0 亿 / 不涉及
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)深度思考(Deeper Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址

官方介绍与博客

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$0.25$2
缓存计费Cache
模态输入 Cache输出 Cache
文本$0.025--

评测得分

综合评估

共 6 项评测
评测名称 / 模式
得分
排名/总数
MMLU Prothinking
78
52 / 109
LiveBenchnormal
71.86
14 / 52
GPQA Diamondthinking
69
81 / 140
HLEthinking
5
77 / 81
HLEnormal
0
81 / 81
0
138 / 140

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
55
64 / 99

数学推理

共 6 项评测
评测名称 / 模式
得分
排名/总数
AIME2025normal
47
85 / 100
AIME2025thinking
47
85 / 100
19.30
11 / 53
19
13 / 53
4.20
11 / 31
2.10
17 / 31

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
14
33 / 35

发布机构

模型解读

OpenAI 在 2025 年 8 月 7 日发布了 GPT-5 系列模型,其中 GPT-5 Mini 是该系列的一个较小版本。它针对处理较轻量的推理任务设计,在 OpenAI 的 API 中可用,包括 gpt-5-main-mini 和 gpt-5-thinking-mini 两种形式。前者用于一般查询,后者用于需要更长内部思考链的复杂问题。GPT-5 Mini 取代了之前的 GPT-4o-mini 模型。

技术规格

GPT-5 Mini 支持文本和图像输入,但输出仅限于文本。它的输入令牌上限为 272,000 个,输出令牌上限为 128,000 个,其中包括用于推理的不可见令牌,总上下文长度达到 400,000 个令牌。模型的知识截止日期为 2024 年 5 月 30 日。

在 API 使用中,开发者可以选择四个推理级别:minimal、low、medium 或 high。这些级别允许调整响应速度和深度。模型支持多项功能,包括并行工具调用、内置工具(如网页搜索和文件搜索)、结构化输出、提示缓存以及批处理 API。它还提供推理摘要选项,通过 API 参数如 "reasoning": {"summary": "auto"} 来生成。

训练过程涉及多样化数据集,包括公开互联网信息、第三方合作伙伴数据和用户生成内容。数据经过质量过滤、风险缓解和个人信息减少处理。安全训练使用 safe-completions 方法,专注于输出安全而非简单拒绝,尤其适用于生物或网络安全等双重用途场景。

参数数量未公开,但 GPT-5 Mini 被设计为紧凑版本,以平衡性能、成本和延迟。

能力

GPT-5 Mini 处理写作、编码和健康相关查询等常见任务。它在指令跟随方面有所改进,能更好地执行用户指定的步骤。模型支持多模态输入,如图像分析,并在工具使用中表现稳定,例如链式工具调用或并行处理。

在编码领域,它能生成代码、修复 bug、编辑代码库,并回答复杂代码问题。对于代理任务,它适合长运行序列,如多轮背景代理或客户服务环境中的工具交互。健康查询方面,它在现实健康对话中提供响应,并在多语言支持上覆盖 13 种语言,使用零样本链式思考提示。

模型还减少了幻觉,即自信陈述不实事实的情况,尤其在无浏览工具时。它能承认任务不可行性,并在工具失败时给出诚实反馈。

基准结果

以下表格列出 GPT-5 Mini 在几个典型基准上的成绩。这些成绩使用高推理努力级别计算,除非另有说明。表格选择了智能、多模态、编码和指令跟随等类别中的代表性指标。

类别基准名称成绩

智能AIME ’25(无工具)91.1%

智能GPQA diamond(无工具)82.3%

多模态MMMU81.6%

多模态VideoMMMU(最大 256 帧)82.5%

编码SWE-bench Verified71.0%

指令跟随Scale multichallenge62.3%

指令跟随COLLIE98.5%

这些结果显示 GPT-5 Mini 在多模态和指令跟随任务中得分较高,但在某些数学挑战中得分较低。

第三方红队测试显示,模型在生物武器化提示上拒绝率达 96.7%,但存在少量越狱风险,已部分修复。网络安全方面,它解决简单场景但无法自动化对硬化目标的操作。

定价和可用性

API 定价为输入 0.25 美元/百万令牌,输出 2.00 美元/百万令牌。前几分钟缓存的输入令牌享受 90% 折扣。它在 OpenAI 的 Chat Completions API、Responses API 和 Codex CLI 中可用,也集成到 Microsoft 平台如 GitHub Copilot 和 Azure AI Foundry。

在 ChatGPT 中,它作为使用限制后的备用模型,通过路由器选择。

局限性

GPT-5 Mini 在某些不允许内容领域显示安全回归,如非暴力仇恨分数 0.851(低于 GPT-4o 的 0.882)。生物风险评估显示,它接近提升新手到严重危害的阈值,尽管有缓解措施。

幻觉在无浏览设置中持续存在,率为 0.9%-3.7%。在自改进基准如 OPQA 上得分 2%,未达高阈值。提示注入漏洞存在,攻击成功率达 75.5% 在多查询场景。

模型可能过度拒绝良性查询,并依赖开发者使用安全标识符以检测恶意使用。

总结

GPT-5 Mini 提供了一个平衡成本和功能的选项,适用于编码、代理和一般查询。其基准显示在多模态和指令跟随上的进步,但数学和长上下文领域有空间改进。安全机制覆盖高风险领域,尽管残余风险需要持续监控。开发者可通过 OpenAI API 访问它,以测试具体用例。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码