GPT-5-Pro

Name: GPT-5-Pro
Author: OpenAI

推理大模型GPT ProGPT-5

GPT-5-Pro

发布时间: 2025-08-07更新于: 2026-06-15 07:18:14.7881,209

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

400K

中文支持

支持

推理能力

GPT-5-Pro 是由 OpenAI 发布的 AI 模型，发布时间为 2025-08-07，定位为推理大模型，上下文长度为 400K，采用不开源许可，在 AIME2025 上取得 100.00 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-5-Pro

模型基本信息

推理过程

支持

思考模式

不支持思考模式

上下文长度

400K tokens

最大输出长度

125K tokens

模型类型

推理大模型

输入/输出模态

文本、图像 → 文本

发布时间

2025-08-07

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

GPT-5-Pro

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://chatgpt.com/

GPT-5-Pro

官方介绍与博客

官方论文

Introducing GPT-5

DataLearnerAI博客

OpenAI发布GPT-5：这是一个包含实时路由的AI系统，而不仅仅是一个模型

GPT-5-Pro

API接口信息

接口速度

1/5

暂无公开的 API 定价信息。

GPT-5-Pro

评测结果

GPT-5-Pro 当前已收录的代表性评测结果包括 AIME2025（1 / 106，得分 100）、GPQA Diamond（25 / 180，得分 89.40）、Simple Bench（14 / 63，得分 61.60）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 7 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

89.40

25 / 180

GPQA Diamond

88.40

28 / 180

LiveBench

常规模式

70.48

35 / 115

ARC-AGI

70.20

27 / 65

HLE

49 / 163

HLE

30.70

77 / 163

ARC-AGI-2

32 / 59

数学推理

共 4 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

100

1 / 106

AIME2025

96.70

19 / 106

FrontierMath - Tier 4

常规模式

14.60

23 / 80

FrontierMath - Tier 4

14.60

23 / 80

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

思考模式

61.60

14 / 63

查看评测深度分析与其他模型对比

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

GPT-5-Pro

发布机构

OpenAI

查看发布机构详情

GPT-5-Pro

模型解读

OpenAI 于 2025 年 8 月 7 日发布了 GPT-5 系列模型，其中 GPT-5 Pro 是该系列的一个变体。该模型针对复杂任务设计，主要通过扩展推理机制来处理高难度问题。以下内容基于公开信息，对 GPT-5 Pro 的发布细节、技术参数和评测结果进行说明。

发布和访问方式

GPT-5 Pro 与 GPT-5 一起推出，作为 OpenAI ChatGPT 系统的组成部分。GPT-5 替换了之前的 GPT-4o、o3 和其他模型，成为 ChatGPT 的默认选项。GPT-5 Pro 专为 Pro 订阅用户提供，订阅费用为每月 200 美元。该订阅包括对 GPT-5 Pro 的无限访问，以及对 GPT-5 的更高使用限额。免费用户和 Plus 用户（每月 20 美元）无法直接访问 GPT-5 Pro，但可以有限使用 GPT-5 的推理模式。

通过 API，开发者可以使用 GPT-5 的变体，如 gpt-5 和 gpt-5-mini，但 GPT-5 Pro 的 API 访问也限于 Pro 级别。模型在 Microsoft Azure AI 超级计算机上训练，并在 ChatGPT、Codex CLI 和 Microsoft 平台（如 Microsoft 365 Copilot 和 GitHub Copilot）上可用。 rollout 从 2025 年 8 月 7 日开始，免费用户需等待几天才能完全启用推理功能。

技术规格

GPT-5 Pro 基于 GPT-5 的架构构建，使用多阶段模型路由系统。该系统包括一个快速模型处理简单查询，以及一个推理模型处理复杂提示。GPT-5 Pro 进一步扩展了推理过程，通过并行测试时计算来分配更多资源，从而生成更全面的响应。

上下文长度：最大 400,000 个令牌，包括 272,000 个输入令牌和 128,000 个输出令牌（包括推理令牌）。
参数数量：OpenAI 未公布具体参数规模，但 GPT-5 系列整体使用万亿级参数训练。
训练数据：未公开细节，但模型在真实世界编码任务和开发者反馈上进行了微调，支持多模态输入如文本、图像、视频和音频。
API 参数：
工具支持：内置工具包括网络搜索、文件搜索和图像生成（DALL-E 3）。支持自定义工具，使用纯文本而非 JSON，并可通过正则表达式或上下文无关文法约束。模型能并行调用工具，并在工具调用前后输出前言消息以更新进度。
其他特性：支持流式输出、结构化输出、提示缓存和批量 API。模型在多语言、空间推理和科学任务上进行了优化。安全机制包括“安全完成”训练，模型会优先提供有帮助的响应，同时遵守边界。

与 GPT-5 相比，GPT-5 Pro 的主要区别在于更长的推理时间和更高的计算分配，适用于需要低错误率的场景。

评测结果

GPT-5 Pro 在多个基准测试中表现出色，特别是科学、数学和编码任务。以下是关键结果，基于高推理努力设置。除非注明，所有测试使用工具或无工具模式。

数学和科学基准

AIME 2025（无工具）：88.4%。使用 Python 工具时达到 100%。
GPQA Diamond（无工具）：88.4%。使用 Python 工具时为 89.4%。
FrontierMath（使用 Python 工具）：32.1%（Tier 1-3 水平）。
HMMT 2025（无工具）：93.3%。使用 Python 工具时为 100%。

编码基准

SWE-bench Verified：74.9%（使用思考模式）。在前端编码任务中，比 o3 模型好 70% 的时间。
Aider Polyglot：88.0%（差异编辑任务）。

多模态和代理基准

MMMU：84.2%（多模态理解，包括图像和视频）。
MMMU-Pro（平均标准和视觉集）：78.4%。
VideoMMMU（最大 256 帧）：84.6%。
ERQA（具身推理 QA）：65.7%。
τ²-bench（平均跨行业工具调用）：80.1%（电信 96.7%、航空 62.6%、零售 81.1%）。
Humanity’s Last Exam（使用工具和推理）：42%。

可靠性和幻觉基准

LongFact-Concepts（无工具，幻觉率）：1.0%（比 o3 低 80%）。
FactScore（无工具，幻觉率）：2.8%。
HealthBench Hard：46.2%（医疗场景）。
在 1000 个经济价值推理提示的评估中，外部专家在 67.8% 的情况下偏好 GPT-5 Pro 胜过 GPT-5 的思考模式。GPT-5 Pro 的重大错误率比标准 GPT-5 低 22%。

这些结果显示 GPT-5 Pro 在专家级任务中优于 o3 和 GPT-4o，尤其在使用工具时。测试方法包括高推理努力设置，并使用 o3-mini 等作为评分器以提高准确性。

用例

GPT-5 Pro 适用于需要深入分析的任务，例如：

复杂编码和调试大型代码库。
科学和数学研究，包括研究生级问题解决。
医疗咨询，提供基于上下文的响应。
经济知识工作，如法律、物流和工程任务。
多模态分析，如解释图表或视频。

在 API 中，它支持代理式工作流和长上下文任务。开发者可通过 Codex CLI 或集成到 GitHub Copilot 中使用。

总结

GPT-5 Pro 是 OpenAI 2025 年模型系列的一部分，专注于扩展推理以处理高难度查询。其 400,000 令牌上下文和工具集成使其适合专业应用。基准结果显示它在数学、编码和多模态任务中取得较高分数，但访问限于付费订阅。更多细节可参考 OpenAI 官方文档。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送