GP

GPT-5-mini

基础大模型

GPT-5-mini

发布时间: 2025-08-07

998
模型参数(Parameters)
未披露
最高上下文长度(Context Length)
400K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

400K tokens

最长输出结果

131072 tokens

模型类型

基础大模型

发布时间

2025-08-07

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode) 深度思考(Deeper Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
文本 0.25 美元/100 万tokens 2 美元/100 万tokens
缓存计费 Cache
模态 输入 Cache 输出 Cache
文本 0.025 美元/100 万tokens --

GPT-5-mini模型在各大评测榜单的评分

综合评估

共 6 项评测
MMLU Pro thinking
78
48 / 105
LiveBench normal
71.86
11 / 48
GPQA Diamond thinking
69
74 / 133
HLE thinking
5
64 / 68
HLE normal
0
68 / 68
GPQA Diamond normal
0
131 / 133

编程与软件工程

共 1 项评测
LiveCodeBench thinking
55
59 / 94

数学推理

共 6 项评测
AIME2025 normal
47
78 / 93
AIME2025 thinking
47
78 / 93
FrontierMath medium
19.30
6 / 48
19
8 / 48
4.20
6 / 25
2.10
11 / 25

Agent能力评测

共 1 项评测
Terminal-Bench thinking
14
34 / 36

发布机构

GPT-5-mini模型解读

OpenAI 在 2025 年 8 月 7 日发布了 GPT-5 系列模型,其中 GPT-5 Mini 是该系列的一个较小版本。它针对处理较轻量的推理任务设计,在 OpenAI 的 API 中可用,包括 gpt-5-main-mini 和 gpt-5-thinking-mini 两种形式。前者用于一般查询,后者用于需要更长内部思考链的复杂问题。GPT-5 Mini 取代了之前的 GPT-4o-mini 模型。

技术规格

GPT-5 Mini 支持文本和图像输入,但输出仅限于文本。它的输入令牌上限为 272,000 个,输出令牌上限为 128,000 个,其中包括用于推理的不可见令牌,总上下文长度达到 400,000 个令牌。模型的知识截止日期为 2024 年 5 月 30 日。

在 API 使用中,开发者可以选择四个推理级别:minimal、low、medium 或 high。这些级别允许调整响应速度和深度。模型支持多项功能,包括并行工具调用、内置工具(如网页搜索和文件搜索)、结构化输出、提示缓存以及批处理 API。它还提供推理摘要选项,通过 API 参数如 "reasoning": {"summary": "auto"} 来生成。

训练过程涉及多样化数据集,包括公开互联网信息、第三方合作伙伴数据和用户生成内容。数据经过质量过滤、风险缓解和个人信息减少处理。安全训练使用 safe-completions 方法,专注于输出安全而非简单拒绝,尤其适用于生物或网络安全等双重用途场景。

参数数量未公开,但 GPT-5 Mini 被设计为紧凑版本,以平衡性能、成本和延迟。

能力

GPT-5 Mini 处理写作、编码和健康相关查询等常见任务。它在指令跟随方面有所改进,能更好地执行用户指定的步骤。模型支持多模态输入,如图像分析,并在工具使用中表现稳定,例如链式工具调用或并行处理。

在编码领域,它能生成代码、修复 bug、编辑代码库,并回答复杂代码问题。对于代理任务,它适合长运行序列,如多轮背景代理或客户服务环境中的工具交互。健康查询方面,它在现实健康对话中提供响应,并在多语言支持上覆盖 13 种语言,使用零样本链式思考提示。

模型还减少了幻觉,即自信陈述不实事实的情况,尤其在无浏览工具时。它能承认任务不可行性,并在工具失败时给出诚实反馈。

基准结果

以下表格列出 GPT-5 Mini 在几个典型基准上的成绩。这些成绩使用高推理努力级别计算,除非另有说明。表格选择了智能、多模态、编码和指令跟随等类别中的代表性指标。

类别基准名称成绩

智能AIME ’25(无工具)91.1%

智能GPQA diamond(无工具)82.3%

多模态MMMU81.6%

多模态VideoMMMU(最大 256 帧)82.5%

编码SWE-bench Verified71.0%

指令跟随Scale multichallenge62.3%

指令跟随COLLIE98.5%

这些结果显示 GPT-5 Mini 在多模态和指令跟随任务中得分较高,但在某些数学挑战中得分较低。

第三方红队测试显示,模型在生物武器化提示上拒绝率达 96.7%,但存在少量越狱风险,已部分修复。网络安全方面,它解决简单场景但无法自动化对硬化目标的操作。

定价和可用性

API 定价为输入 0.25 美元/百万令牌,输出 2.00 美元/百万令牌。前几分钟缓存的输入令牌享受 90% 折扣。它在 OpenAI 的 Chat Completions API、Responses API 和 Codex CLI 中可用,也集成到 Microsoft 平台如 GitHub Copilot 和 Azure AI Foundry。

在 ChatGPT 中,它作为使用限制后的备用模型,通过路由器选择。

局限性

GPT-5 Mini 在某些不允许内容领域显示安全回归,如非暴力仇恨分数 0.851(低于 GPT-4o 的 0.882)。生物风险评估显示,它接近提升新手到严重危害的阈值,尽管有缓解措施。

幻觉在无浏览设置中持续存在,率为 0.9%-3.7%。在自改进基准如 OPQA 上得分 2%,未达高阈值。提示注入漏洞存在,攻击成功率达 75.5% 在多查询场景。

模型可能过度拒绝良性查询,并依赖开发者使用安全标识符以检测恶意使用。

总结

GPT-5 Mini 提供了一个平衡成本和功能的选项,适用于编码、代理和一般查询。其基准显示在多模态和指令跟随上的进步,但数学和长上下文领域有空间改进。安全机制覆盖高风险领域,尽管残余风险需要持续监控。开发者可通过 OpenAI API 访问它,以测试具体用例。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat