GPT-5-mini
支持
400K tokens
131072 tokens
基础大模型
2025-08-07
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | 0.25 美元/100 万tokens | 2 美元/100 万tokens |
| 模态 | 输入 Cache | 输出 Cache |
|---|---|---|
| 文本 | 0.025 美元/100 万tokens |
OpenAI 在 2025 年 8 月 7 日发布了 GPT-5 系列模型,其中 GPT-5 Mini 是该系列的一个较小版本。它针对处理较轻量的推理任务设计,在 OpenAI 的 API 中可用,包括 gpt-5-main-mini 和 gpt-5-thinking-mini 两种形式。前者用于一般查询,后者用于需要更长内部思考链的复杂问题。GPT-5 Mini 取代了之前的 GPT-4o-mini 模型。
GPT-5 Mini 支持文本和图像输入,但输出仅限于文本。它的输入令牌上限为 272,000 个,输出令牌上限为 128,000 个,其中包括用于推理的不可见令牌,总上下文长度达到 400,000 个令牌。模型的知识截止日期为 2024 年 5 月 30 日。
在 API 使用中,开发者可以选择四个推理级别:minimal、low、medium 或 high。这些级别允许调整响应速度和深度。模型支持多项功能,包括并行工具调用、内置工具(如网页搜索和文件搜索)、结构化输出、提示缓存以及批处理 API。它还提供推理摘要选项,通过 API 参数如 "reasoning": {"summary": "auto"} 来生成。
训练过程涉及多样化数据集,包括公开互联网信息、第三方合作伙伴数据和用户生成内容。数据经过质量过滤、风险缓解和个人信息减少处理。安全训练使用 safe-completions 方法,专注于输出安全而非简单拒绝,尤其适用于生物或网络安全等双重用途场景。
参数数量未公开,但 GPT-5 Mini 被设计为紧凑版本,以平衡性能、成本和延迟。
GPT-5 Mini 处理写作、编码和健康相关查询等常见任务。它在指令跟随方面有所改进,能更好地执行用户指定的步骤。模型支持多模态输入,如图像分析,并在工具使用中表现稳定,例如链式工具调用或并行处理。
在编码领域,它能生成代码、修复 bug、编辑代码库,并回答复杂代码问题。对于代理任务,它适合长运行序列,如多轮背景代理或客户服务环境中的工具交互。健康查询方面,它在现实健康对话中提供响应,并在多语言支持上覆盖 13 种语言,使用零样本链式思考提示。
模型还减少了幻觉,即自信陈述不实事实的情况,尤其在无浏览工具时。它能承认任务不可行性,并在工具失败时给出诚实反馈。
以下表格列出 GPT-5 Mini 在几个典型基准上的成绩。这些成绩使用高推理努力级别计算,除非另有说明。表格选择了智能、多模态、编码和指令跟随等类别中的代表性指标。
类别基准名称成绩
智能AIME ’25(无工具)91.1%
智能GPQA diamond(无工具)82.3%
多模态MMMU81.6%
多模态VideoMMMU(最大 256 帧)82.5%
编码SWE-bench Verified71.0%
指令跟随Scale multichallenge62.3%
指令跟随COLLIE98.5%
这些结果显示 GPT-5 Mini 在多模态和指令跟随任务中得分较高,但在某些数学挑战中得分较低。
第三方红队测试显示,模型在生物武器化提示上拒绝率达 96.7%,但存在少量越狱风险,已部分修复。网络安全方面,它解决简单场景但无法自动化对硬化目标的操作。
API 定价为输入 0.25 美元/百万令牌,输出 2.00 美元/百万令牌。前几分钟缓存的输入令牌享受 90% 折扣。它在 OpenAI 的 Chat Completions API、Responses API 和 Codex CLI 中可用,也集成到 Microsoft 平台如 GitHub Copilot 和 Azure AI Foundry。
在 ChatGPT 中,它作为使用限制后的备用模型,通过路由器选择。
GPT-5 Mini 在某些不允许内容领域显示安全回归,如非暴力仇恨分数 0.851(低于 GPT-4o 的 0.882)。生物风险评估显示,它接近提升新手到严重危害的阈值,尽管有缓解措施。
幻觉在无浏览设置中持续存在,率为 0.9%-3.7%。在自改进基准如 OPQA 上得分 2%,未达高阈值。提示注入漏洞存在,攻击成功率达 75.5% 在多查询场景。
模型可能过度拒绝良性查询,并依赖开发者使用安全标识符以检测恶意使用。
GPT-5 Mini 提供了一个平衡成本和功能的选项,适用于编码、代理和一般查询。其基准显示在多模态和指令跟随上的进步,但数学和长上下文领域有空间改进。安全机制覆盖高风险领域,尽管残余风险需要持续监控。开发者可通过 OpenAI API 访问它,以测试具体用例。
关注DataLearnerAI微信公众号,接受最新大模型资讯