DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Contents
Contents
  1. Home/
  2. Blog List/
  3. Blog Detail

OpenAI发布GPT-5:这是一个包含实时路由的AI系统,而不仅仅是一个模型

2025/08/08 08:45:13
511 views
GPTGPT-5GPT-5ReasoningOpenAI

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

OpenAI内部通用大模型已经可以拿到国际数学奥利匹克竞赛金牌:AI推理能力已经接近人类顶级水平【辟谣,该数据是预测】重磅!疑似GPT-5评测结果泄露,超过当前所有模型评分,人类最后难题得分56.6,比当前最好模型还要高27%,大幅超过Gemini 2.5 Pro,Grok 4 Heavy等OpenAI发布最强大模型OpenAI o3-pro:业界评价该模型解决复杂问题效果很好,但是回复一句“Hi”也需要三分钟AI盛世如你所愿!昨天2个最新的开源“GPT”模型发布!GPT-4来了!微软德国CTO透露GPT-4将是多模态模型,并于下周发布!最强AI对话系统ChatGPT不完全使用指南——已发掘功能展览!OpenAI发布最新最强大的AI对话系统——GPT3.5微调的产物ChatGPT来自OpenAI官方的GPT-5编码提示词优化实践:6 条“更懂开发者”的提示工程技巧GPT-5 模式与配额全解析:自动与手动 Thinking 的区别、不同用户的使用配额问题等Sam Altman宣布未来几周将发布GPT-4.5,几个月后发布GPT-5,未来免费用户也可以无限量使用GPT-5!

Hot Blogs

1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)2回归模型中的交互项简介(Interactions in Regression)3贝塔分布(Beta Distribution)简介及其应用4矩母函数简介(Moment-generating function)5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程6使用R语言进行K-means聚类并分析结果7深度学习技巧之Early Stopping(早停法)8H5文件简介和使用9手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署10Wishart分布简介

几个小时前,OpenAI发布了全新一代大模型GPT-5系列。本次发布的是一个全新的AI系统,而非一个单独的模型系列。GPT-5背后包含了5个不同的模型系列或者版本,分别是GPT-5-Pro、GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-Chat。

其中GPT-5-Pro使用更多算力并行推理完成非常复杂的任务。

  • GPT-5是一个统一的AI系统
  • GPT-5包含3个不同的模型,还有2个特殊的版本
  • GPT-5系列模型的核心特点
  • GPT-5的评测结果
  • GPT-5的安全性与可靠性的升级
  • GPT-5总结

GPT-5是一个统一的AI系统

GPT-5最引人注目的创新之一是其“统一系统”架构。这意味着它不再是单一的模式,而是一个集成了多个模型的智能系统。系统内部包含一个能够快速响应大多数问题的标准模型,以及一个用于处理复杂、高难度问题的深度“思考模型”(GPT-5 thinking)。

简单来说,GPT-5的模型是一个模型支持思考推理模式和非思考推理模式。

此外,GPT-5还有一个实时的智能路由器会根据用户提问的类型、复杂程度以及是否需要使用工具等因素,在毫秒之间决定调用哪个模型。比如,当用户发出“请深入思考这个问题”之类的指令时,系统会自动启用深度思考模型。这种设计确保了用户总能以最高效的方式获得最优质的答案。这个看起来并不是一个大模型的任务,似乎有点像正则?

GPT-5包含3个不同的模型,还有2个特殊的版本

其实GPT-5包含了3个不同版本的模型,介绍如下:

GPT-5模型版本适应场景
GPT-5复杂推理、广泛的世界知识以及代码密集型或多步骤代理任务
GPT-5-mini成本优化的推理和聊天;平衡速度、成本和能力
GPT-5-nano高吞吐量任务,特别是简单的指令遵循或分类

同时,OpenAI还有2个不同模式的GPT-5,分别是GPT-5 Chat和GPT-5-Pro。前者是ChatGPT中的GPT-5模型,后者则是使用多个推理并行执行的GPT-5专业版本。其中,GPT-5-Pro仅通过ChatGPT网页版提供,面向Pro付费用户。

同时,官网还给出了GPT-5模型的替代关系:

先前的模型对应的GPT-5模型
GPT-4ogpt-5-main
GPT-4o-minigpt-5-main-mini
OpenAI o3gpt-5-thinking
OpenAI o4-minigpt-5-thinking-mini
GPT-4.1-nanogpt-5-thinking-nano
OpenAI o3 Progpt-5-thinking-pro

可以看到,OpenAI是将原有的不同的模型系列,整合到了一个模型中,然后GPT-5支持不同的模式后来替代这些旧模型。

GPT-5系列模型的核心特点

GPT-5在多个领域展现了卓越的性能,尤其在以下三个方面取得了显著进步:

  1. 编程与开发:GPT-5是迄今为止OpenAI最强大的编程模型。 它在处理复杂的前端代码生成、大型代码库调试等方面表现尤为出色。测试者发现,GPT-5仅通过单个提示就能创建出界面美观、响应迅速的网站、应用甚至迷你游戏,并对UI设计中的空间感、排版和留白有更好的理解。

  2. 创意写作与表达:作为一名写作协作者,GPT-5的能力达到了新的高度。它能够更好地处理具有结构模糊性的写作任务,例如创作无韵律的五音步诗或自然的自由诗,将文学形式与清晰的表达力融为一体。 这使得它在起草和编辑报告、邮件等日常写作任务时也更加得心应手。

  3. 健康领域:在处理健康相关问题时,GPT-5展现了更高的准确性和可靠性。 它在权威的HealthBench评估中得分远超以往所有模型。 新模型更像一个主动的“思想伙伴”,会主动标记潜在问题并提问,以提供更有帮助的回答。 当然,OpenAI也强调,GPT-5不能取代专业的医疗人员,而是作为帮助用户理解信息、做好准备的辅助工具。

GPT-5的评测结果

GPT-5的评测数据很多,官方给的数据也不是很全面。我们先挑选几个可以对比的模式进行对比。

首先是非推理模式下,GPT-5和GPT-4o的对比结果:

GPT-5和GPT-4o对比结果
GPT-5和GPT-4o对比结果
数据来源:https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?modelInputString=626,429&benchmarkInputString=32,31

可以看到,如果不使用思考模式和工具,那么GPQA Diamond这种困难的科学问题上,GPT-5提升10%左右(70.1 -> 77.8),而在人类最后难题HLE上提升18.8%左右(5.3->6.3)。如果允许GPT-5使用推理模式和工具,那么提升更明显了,两个评测的提升分别可以达到24.5%和564%!

在都可以使用工具的情况下,我们找到了AIME 2025的测试(美国高中数学竞赛邀请赛):

GPT-5使用工具和GPT-4o使用工具对比
GPT-5使用工具和GPT-4o使用工具对比
数据来源:https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?modelInputString=626,429&benchmarkInputString=42

提升也是十分明显的。

最后,我们看一下使用并行推理的GPT-5-Pro和之前最强的类似模式的Grok 4 Heavy和Gemini 2.5 Pro Deeper Thinking的对比。Grok 4是马斯克旗下xAI公司发布的一个并行推理且使用工具解决问题的一个Agent系统,而Gemini 2.5 Pro Deeper Thinking也是类似,三者都是针对复杂问题使用多个并行推理任务完成的模式。

GPT-5 Pro和其它模型的对比
GPT-5 Pro和其它模型的对比
数据来源:https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?modelInputString=661,620,646&benchmarkInputString=42,31,32

可以看到,没有使用工具的GPT-5-Pro与其它两个模型的对比都不太好。而使用工具之后GPT-5-Pro似乎与其它模型的差距也不大。

GPT-5的安全性与可靠性的升级

为了构建一个更稳健、可靠和有益的模型,OpenAI在GPT-5的安全性方面投入了大量精力:

  • 大幅减少幻觉:GPT-5产生事实性错误的频率显著低于以往模型。在一项测试中,其包含事实错误的回答比GPT-4o少了约45%。
  • 回应更诚实:当面对无法完成或信息不足的任务时,GPT-5能更诚实地承认其局限性,而不是像旧模型那样编造答案。
  • 全新的“安全完成”训练:GPT-5引入了一种新的安全训练范式。它不再是简单地拒绝敏感问题,而是学会在安全边界内尽可能提供有帮助的、高层次的回答,从而更好地处理那些具有两用性的问题(如生物学)。
  • 减少“谄媚”行为:新模型减少了不必要的附和、过度的表情符号和奉承,使其交流风格更像一个有帮助且具备博士级智力的朋友。

这些虽然归属安全和可靠性,但是在实际解决问题中对用户的体验来说非常有价值。特别是幻觉方面,与OpenAI o3模型相比,大幅下降:

GPT-5总结

GPT-5 通过统一路由、深度推理分级、安全补全机制,将 GPT-4o 时代的速度与多模态体验进一步推向高可靠、高专业度场景。对开发者而言,更大的上下文、更灵活的控制、以及显著降低的幻觉与阿谀,意味着从应用到 Agent 架构都能获得直接红利。现在就可以:

  1. 在 ChatGPT 体验默认模型并观察思考路径差异;
  2. 在 API 将 model=gpt-5 替换到现有工作流,或按需切换 mini / nano;
  3. 参考 Cookbook 的新提示模式,验证输出一致性与成本;
  4. 关注 System Card 提到的安全最佳实践,将“安全补全”理念融入产品设计。

关于GPT-5更多信息可以参考DataLearnerAI模型信息卡: https://www.datalearner.com/ai-models/pretrained-models/gpt-5 https://www.datalearner.com/ai-models/pretrained-models/gpt-5-pro