GPT-5-mini

Name: GPT-5-mini
Author: OpenAI

基础大模型GPT MiniGPT-5

GPT-5-mini

发布时间: 2025-08-07更新于: 2026-06-15 07:18:15.1162,355

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

400K

中文支持

支持

推理能力

GPT-5-mini 是由 OpenAI 发布的 AI 模型，发布时间为 2025-08-07，定位为基础大模型，上下文长度为 400K，采用不开源许可，在 CodeClash 上取得 1200.00 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-5-mini

模型基本信息

推理过程

支持

思考模式

不支持思考模式

上下文长度

400K tokens

最大输出长度

128K tokens

模型类型

基础大模型

输入/输出模态

文本、图像 → 文本

发布时间

2025-08-07

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

GPT-5-mini

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://chat.openai.com/

GPT-5-mini

官方介绍与博客

官方论文

Introducing GPT-5

DataLearnerAI博客

OpenAI发布GPT-5：这是一个包含实时路由的AI系统，而不仅仅是一个模型

GPT-5-mini

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

GPT-5-mini

评测结果

GPT-5-mini 当前已收录的代表性评测结果包括 FrontierMath（18 / 60，得分 19.30）、FrontierMath - Tier 4（35 / 80，得分 6.30）、LiveBench（51 / 115，得分 65.91）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 8 项评测

评测名称 / 模式

得分

排名/总数

69 / 126

120 / 180

178 / 180

常规模式

66 / 115

LiveBench

低

53.07

85 / 115

LiveBench

高

65.91

51 / 115

HLE

159 / 163

HLE

163 / 163

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

CodeClash

常规模式工具

1200

5 / 8

LiveCodeBench

84 / 120

数学推理

共 6 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

90 / 106

AIME2025

90 / 106

FrontierMath

19.30

18 / 60

FrontierMath

20 / 60

FrontierMath - Tier 4

中

4.20

40 / 80

FrontierMath - Tier 4

高

6.30

35 / 80

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal-Bench

33 / 35

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

Pinch Bench

思考模式工具

80.30

23 / 37

查看评测深度分析与其他模型对比

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

GPT-5-mini

发布机构

OpenAI

查看发布机构详情

GPT-5-mini

模型解读

OpenAI 在 2025 年 8 月 7 日发布了 GPT-5 系列模型，其中 GPT-5 Mini 是该系列的一个较小版本。它针对处理较轻量的推理任务设计，在 OpenAI 的 API 中可用，包括 gpt-5-main-mini 和 gpt-5-thinking-mini 两种形式。前者用于一般查询，后者用于需要更长内部思考链的复杂问题。GPT-5 Mini 取代了之前的 GPT-4o-mini 模型。

技术规格

GPT-5 Mini 支持文本和图像输入，但输出仅限于文本。它的输入令牌上限为 272,000 个，输出令牌上限为 128,000 个，其中包括用于推理的不可见令牌，总上下文长度达到 400,000 个令牌。模型的知识截止日期为 2024 年 5 月 30 日。

在 API 使用中，开发者可以选择四个推理级别：minimal、low、medium 或 high。这些级别允许调整响应速度和深度。模型支持多项功能，包括并行工具调用、内置工具（如网页搜索和文件搜索）、结构化输出、提示缓存以及批处理 API。它还提供推理摘要选项，通过 API 参数如 "reasoning": {"summary": "auto"} 来生成。

训练过程涉及多样化数据集，包括公开互联网信息、第三方合作伙伴数据和用户生成内容。数据经过质量过滤、风险缓解和个人信息减少处理。安全训练使用 safe-completions 方法，专注于输出安全而非简单拒绝，尤其适用于生物或网络安全等双重用途场景。

参数数量未公开，但 GPT-5 Mini 被设计为紧凑版本，以平衡性能、成本和延迟。

能力

GPT-5 Mini 处理写作、编码和健康相关查询等常见任务。它在指令跟随方面有所改进，能更好地执行用户指定的步骤。模型支持多模态输入，如图像分析，并在工具使用中表现稳定，例如链式工具调用或并行处理。

在编码领域，它能生成代码、修复 bug、编辑代码库，并回答复杂代码问题。对于代理任务，它适合长运行序列，如多轮背景代理或客户服务环境中的工具交互。健康查询方面，它在现实健康对话中提供响应，并在多语言支持上覆盖 13 种语言，使用零样本链式思考提示。

模型还减少了幻觉，即自信陈述不实事实的情况，尤其在无浏览工具时。它能承认任务不可行性，并在工具失败时给出诚实反馈。

基准结果

以下表格列出 GPT-5 Mini 在几个典型基准上的成绩。这些成绩使用高推理努力级别计算，除非另有说明。表格选择了智能、多模态、编码和指令跟随等类别中的代表性指标。

类别基准名称成绩

智能AIME ’25（无工具）91.1%

智能GPQA diamond（无工具）82.3%

多模态MMMU81.6%

多模态VideoMMMU（最大 256 帧）82.5%

编码SWE-bench Verified71.0%

指令跟随Scale multichallenge62.3%

指令跟随COLLIE98.5%

这些结果显示 GPT-5 Mini 在多模态和指令跟随任务中得分较高，但在某些数学挑战中得分较低。

第三方红队测试显示，模型在生物武器化提示上拒绝率达 96.7%，但存在少量越狱风险，已部分修复。网络安全方面，它解决简单场景但无法自动化对硬化目标的操作。

定价和可用性

API 定价为输入 0.25 美元/百万令牌，输出 2.00 美元/百万令牌。前几分钟缓存的输入令牌享受 90% 折扣。它在 OpenAI 的 Chat Completions API、Responses API 和 Codex CLI 中可用，也集成到 Microsoft 平台如 GitHub Copilot 和 Azure AI Foundry。

在 ChatGPT 中，它作为使用限制后的备用模型，通过路由器选择。

局限性

GPT-5 Mini 在某些不允许内容领域显示安全回归，如非暴力仇恨分数 0.851（低于 GPT-4o 的 0.882）。生物风险评估显示，它接近提升新手到严重危害的阈值，尽管有缓解措施。

幻觉在无浏览设置中持续存在，率为 0.9%-3.7%。在自改进基准如 OPQA 上得分 2%，未达高阈值。提示注入漏洞存在，攻击成功率达 75.5% 在多查询场景。

模型可能过度拒绝良性查询，并依赖开发者使用安全标识符以检测恶意使用。

总结

GPT-5 Mini 提供了一个平衡成本和功能的选项，适用于编码、代理和一般查询。其基准显示在多模态和指令跟随上的进步，但数学和长上下文领域有空间改进。安全机制覆盖高风险领域，尽管残余风险需要持续监控。开发者可通过 OpenAI API 访问它，以测试具体用例。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送