重磅!OpenAI发布正式版o1模型,推理能力再次提升,且开启商业化使用,每个月200美元不限量使用!

标签:#ChatGPTPro##o1##o1-preview##OpenAIo1# 时间:2024/12/06 07:35:14 作者:小木

几个小时前,OpenAI开启了今年密集的产品发布时间,本次发布会持续12天,直播12天。几个小时前,第一个发布的产品宣布,那就是OpenAI o1模型的正式版。同时也开启了一个全新的ChatGPT付费计划,即ChatGPT Pro,每个月200美元,可以不限量使用所有模型。


[TOC]

OpenAI o1模型正式版简介

2024年9月13日,OpenAI官方宣布研发了一个强大的推理大模型,即OpenAI o1。但是九月份开始发布的时候,这个模型还是预览版本,分为o1-mini和o1-preview。彼时,该模型还未完成训练,但是已经展示出了惊人的推理能力。

o1模型是OpenAI训练的一个全新的在推理能力有大幅提升的模型。该模型通过“思维链”(chain of thought)模式训练模型,以实现高效的数据训练过程。关于此前o1 preview的详细介绍参考DataLearner之前的2篇博客:

  1. 重磅!OpenAI发布最强推理模型“OpenAI o1”(代号草莓),大模型逻辑推理能力大幅提升,官方宣称超越部分人类博士水平!
  2. OpenAI最新的推理大模型o1与GPT-4o有什么区别?o1一定比o1 mini更强吗?一文总结OpenAI对o1模型的官方答疑

o1 系列模型通过强化学习(Reinforcement Learning)进行训练,可以有效提升复杂推理能力。o1模型在回答问题前会先进行“思考”,即在响应用户之前生成一系列推理步骤(chain of thought),以提高回答的准确性和逻辑性。

OpenAI o1模型与o1 preview模型的差异

本次OpenAI发布的o1正式版模型,在此前o1 preivew的基础上能力再次提升。

首先,在机器学习评测基础上(涵盖数学、科学和编码)o1模型的能力大幅增强:


如上图显示,AIME(美国面向中学生的邀请式竞赛,3个小时15道题)得分上,o1模型能力大幅增强,在专业模式下(用更多算力让o1可以进行更深入思考的模式)得分达到86分,此前的测试中,GPT-4o这部分得分才13.4分,而o1的专业模式(o1 pro mode)达到了86分,是GPT-4o的6倍多。

复杂代码测试codeforces也是如此,这个评测中,GPT-4o得分11分,而o1专业模式达到了90分,近乎9倍的编程能力提升!只是,这个能力上o1与o1 pro mode差别不大。

最后一个是GPQA Diamond测试,这是一个涵盖生物、物理和化学领域的AI评测数据集,它的难度近似博士水平。这个评测中,o1正式版和o1 pro mode提升相对有限,最高79分,不过人类专家这个测试也就69.7分,而GPT-4o是56.1分。

总结一下,正式版OpenAI o1模型其相比o1 preview的主要变化如下:

  1. 模型的运行速度更快:官方解释,正式版o1比o1 preview的推理速度更快,每秒生成的tokens数量更多,其主要原因是推理过程(more concise in its thinking)更简洁,因此响应更快;
  2. 代码、数学和推理等方面能力得到了提升:OpenAI内部测试显示,在现实的困难问题上,其错误率相比o1 preivew下降了34%;

OpenAI o1模型的训练数据

本次OpenAI官方的o1模型的信息显示,o1与o1-mini都使用了多种数据集进行预训练,数据来源包括:

  • 公开数据(Publicly Available Data):从网络和开源数据集中获取的信息,这些数据提供了广泛的常识性和技术性内容,如推理相关数据和科学文献。
  • 专有数据(Proprietary Data):通过合作伙伴关系获取的高价值非公开数据,这些数据通常包括付费内容、专业领域存档以及其他特定行业的数据集,能够为模型提供更深层次的行业知识和特定用例支持。
  • 自定义数据(Custom Datasets):由 OpenAI 自主开发的定制数据集,用于弥补公开和专有数据中的不足,针对特定任务优化模型性能。

这种多样化的数据组合为模型提供了广泛的知识覆盖和可靠的推理能力,提升了复杂任务处理的能力。

具体来说,针对每种训练数据的解释如下:

公开数据的选择与作用

o1模型使用了一系列公开可用的数据集,例如:

  • 网络数据:涵盖了广泛的日常知识和信息。
  • 科学文献:包括技术性和研究领域的文献,用于提高模型的技术理解能力。

这些数据帮助模型既能掌握通用知识,也能处理技术性问题,支持复杂推理任务。

专有数据的获取与价值

通过与合作伙伴建立数据共享关系,模型能够访问非公开的专有数据:

  • 付费内容(Paywalled Content):例如新闻平台和专业期刊中的内容。
  • 专业档案(Specialized Archives):如医疗、法律、金融等领域的文档。
  • 行业特定数据:提供对特定领域应用场景的深入理解。

这些高价值数据扩展了模型的知识深度,使其能够胜任行业相关的复杂任务。

但OpenAI没有披露自己生成数据的任何细节。

OpenAI o1模型的多语言能力增强

值得关注的一点是,本次发布的正式版o1模型的多语言能力进一步增强!OpenAI使用人工翻译后的MMLU评测数据集来测试o1的多语言能力,MMLU测试集被翻译成了14中语言(此前MMLU的多语言测试是让Azure Translate翻译的,有钱了就是不一样)。如下表所示:

Language (语言) o1 (模型) o1-preview GPT-4o o1-mini GPT-4o-mini
Arabic (阿拉伯语) 0.8900 0.8821 0.8155 0.7945 0.7089
Bengali (孟加拉语) 0.8734 0.8622 0.8007 0.7725 0.6577
Chinese (Simplified) (简体中文) 0.8892 0.8800 0.8335 0.8180 0.7305
English (not translated) (英语) 0.9230 0.9080 0.8870 0.8520 0.8200
French (法语) 0.8932 0.8861 0.8437 0.8212 0.7659
German (德语) 0.8904 0.8573 0.8292 0.8122 0.7431
Hindi (印地语) 0.8833 0.8782 0.8061 0.7887 0.6916
Indonesian (印度尼西亚语) 0.8861 0.8821 0.8344 0.8174 0.7452
Italian (意大利语) 0.8970 0.8872 0.8435 0.8222 0.7640
Japanese (日语) 0.8887 0.8788 0.8287 0.8129 0.7255
Korean (韩语) 0.8824 0.8815 0.8262 0.8020 0.7203
Portuguese (Brazil) (巴西葡萄牙语) 0.8952 0.8859 0.8427 0.8243 0.7677
Spanish (西班牙语) 0.8992 0.8893 0.8493 0.8303 0.7737
Swahili (斯瓦希里语) 0.8540 0.8479 0.7708 0.7015 0.6191
Yoruba (约鲁巴语) 0.7538 0.7373 0.6195 0.5807 0.4583

测试结果显示,o1 和 o1-preview 在多语言能力上显著优于 GPT-4o。而o1-mini的表现甚至也超过了GPT-4o-mini。

这里有一个小小的好消息,OpenAI把他们翻译的MMLU测试集开源了:https://www.github.com/openai/simple-evals 这也是本次发布会唯一开源的东西,也可能是很长时间内OpenAI难得的开源内容了。

OpenAI发布ChatGPT Pro订阅计划

除了o1模型外,本次OpenAI还新推出了一个全新的付费计划,即ChatGPT Plus会员,此前付费计划中只有Plus和Team版本。新增的Pro付费计划费用达到了200美元一个月!非常贵,但是不限量使用所有模型,包括o1模型。

特性/计划 免费版本 ChatGPT Plus ChatGPT Team ChatGPT Pro
名称 Free Plus Team Pro
价格 USD $0/month USD $20/month USD $25 per person/month (按年付费则是25美元一个人一个月) 200美元一个月
主题 适合刚开始使用 ChatGPT 的人 包含 Free 计划中的所有内容,另外还有:不限制访问的GPT-4和内部Chat共享模板 包含 Plus 计划中的所有内容,另外还有workspace和管理功能 专业人士
访问权限 - 不限量GPT-4o mini
- 有限访问GPT-4o
- 标准语音模式
- 更多GPT-4o消息
- 限量访问o1与o1 mini
- 有限次数高级语音模式
- 比plus更多GPT-4o消息
- 限量访问o1与o1 mini
- 有限次数高级语音模式
- 无限制访问GPT-4o与o1模型
- o1 pro mode
- 无限制高级语音模式

从这个表格看,ChatGPT Pro版本价格是ChatGPT Plus的10倍,但是可以无限制访问所有模型,并且独占o1 pro mode模式,这是利用更多算力实现更好结果的模式。但这个价格也是一般人难以承受的!

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送