重磅!OpenAI发布正式版o1模型,推理能力再次提升,且开启商业化使用,每个月200美元不限量使用!
几个小时前,OpenAI开启了今年密集的产品发布时间,本次发布会持续12天,直播12天。几个小时前,第一个发布的产品宣布,那就是OpenAI o1模型的正式版。同时也开启了一个全新的ChatGPT付费计划,即ChatGPT Pro,每个月200美元,可以不限量使用所有模型。

加载中...
几个小时前,OpenAI开启了今年密集的产品发布时间,本次发布会持续12天,直播12天。几个小时前,第一个发布的产品宣布,那就是OpenAI o1模型的正式版。同时也开启了一个全新的ChatGPT付费计划,即ChatGPT Pro,每个月200美元,可以不限量使用所有模型。

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

2024年9月13日,OpenAI官方宣布研发了一个强大的推理大模型,即OpenAI o1。但是九月份开始发布的时候,这个模型还是预览版本,分为o1-mini和o1-preview。彼时,该模型还未完成训练,但是已经展示出了惊人的推理能力。
o1模型是OpenAI训练的一个全新的在推理能力有大幅提升的模型。该模型通过“思维链”(chain of thought)模式训练模型,以实现高效的数据训练过程。关于此前o1 preview的详细介绍参考DataLearner之前的2篇博客:
o1 系列模型通过强化学习(Reinforcement Learning)进行训练,可以有效提升复杂推理能力。o1模型在回答问题前会先进行“思考”,即在响应用户之前生成一系列推理步骤(chain of thought),以提高回答的准确性和逻辑性。
本次OpenAI发布的o1正式版模型,在此前o1 preivew的基础上能力再次提升。
首先,在机器学习评测基础上(涵盖数学、科学和编码)o1模型的能力大幅增强:

复杂代码测试codeforces也是如此,这个评测中,GPT-4o得分11分,而o1专业模式达到了90分,近乎9倍的编程能力提升!只是,这个能力上o1与o1 pro mode差别不大。
最后一个是GPQA Diamond测试,这是一个涵盖生物、物理和化学领域的AI评测数据集,它的难度近似博士水平。这个评测中,o1正式版和o1 pro mode提升相对有限,最高79分,不过人类专家这个测试也就69.7分,而GPT-4o是56.1分。
总结一下,正式版OpenAI o1模型其相比o1 preview的主要变化如下:
本次OpenAI官方的o1模型的信息显示,o1与o1-mini都使用了多种数据集进行预训练,数据来源包括:
这种多样化的数据组合为模型提供了广泛的知识覆盖和可靠的推理能力,提升了复杂任务处理的能力。
具体来说,针对每种训练数据的解释如下:
o1模型使用了一系列公开可用的数据集,例如:
这些数据帮助模型既能掌握通用知识,也能处理技术性问题,支持复杂推理任务。
通过与合作伙伴建立数据共享关系,模型能够访问非公开的专有数据:
这些高价值数据扩展了模型的知识深度,使其能够胜任行业相关的复杂任务。
但OpenAI没有披露自己生成数据的任何细节。
值得关注的一点是,本次发布的正式版o1模型的多语言能力进一步增强!OpenAI使用人工翻译后的MMLU评测数据集来测试o1的多语言能力,MMLU测试集被翻译成了14中语言(此前MMLU的多语言测试是让Azure Translate翻译的,有钱了就是不一样)。如下表所示:
测试结果显示,o1 和 o1-preview 在多语言能力上显著优于 GPT-4o。而o1-mini的表现甚至也超过了GPT-4o-mini。
这里有一个小小的好消息,OpenAI把他们翻译的MMLU测试集开源了:https://www.github.com/openai/simple-evals 这也是本次发布会唯一开源的东西,也可能是很长时间内OpenAI难得的开源内容了。
除了o1模型外,本次OpenAI还新推出了一个全新的付费计划,即ChatGPT Plus会员,此前付费计划中只有Plus和Team版本。新增的Pro付费计划费用达到了200美元一个月!非常贵,但是不限量使用所有模型,包括o1模型。
从这个表格看,ChatGPT Pro版本价格是ChatGPT Plus的10倍,但是可以无限制访问所有模型,并且独占o1 pro mode模式,这是利用更多算力实现更好结果的模式。但这个价格也是一般人难以承受的!
| 0.8932 |
| 0.8861 |
| 0.8437 |
| 0.8212 |
| 0.7659 |
| German (德语) | 0.8904 | 0.8573 | 0.8292 | 0.8122 | 0.7431 |
| Hindi (印地语) | 0.8833 | 0.8782 | 0.8061 | 0.7887 | 0.6916 |
| Indonesian (印度尼西亚语) | 0.8861 | 0.8821 | 0.8344 | 0.8174 | 0.7452 |
| Italian (意大利语) | 0.8970 | 0.8872 | 0.8435 | 0.8222 | 0.7640 |
| Japanese (日语) | 0.8887 | 0.8788 | 0.8287 | 0.8129 | 0.7255 |
| Korean (韩语) | 0.8824 | 0.8815 | 0.8262 | 0.8020 | 0.7203 |
| Portuguese (Brazil) (巴西葡萄牙语) | 0.8952 | 0.8859 | 0.8427 | 0.8243 | 0.7677 |
| Spanish (西班牙语) | 0.8992 | 0.8893 | 0.8493 | 0.8303 | 0.7737 |
| Swahili (斯瓦希里语) | 0.8540 | 0.8479 | 0.7708 | 0.7015 | 0.6191 |
| Yoruba (约鲁巴语) | 0.7538 | 0.7373 | 0.6195 | 0.5807 | 0.4583 |