重磅!OpenAI发布最强推理模型“OpenAI o1”(代号草莓),大模型逻辑推理能力大幅提升,官方宣称超越部分人类博士水平!
OpenAI发布了一个全新的针对逻辑推理优化的大语言模型o1模型。官方宣称其推理能力相比较当前的大语言模型(GPT-4o)有了大幅提升。OpenAI宣称o1模型在编程竞赛问题(Codeforces)中排名第89百分位,在美国数学奥林匹克(AIME)的资格赛中位列美国前500名,并且在物理、 生物和化学问题的基准测试(GPQA)上超越了人类博士水平的准确率。

OpenAI o1模型简介
o1模型是OpenAI训练的一个全新的在推理能力有大幅提升的模型。该模型通过“思维链”(chain of thought)模式训练模型,以实现高效的数据训练过程。
OpenAI的“o1”模型在数学推理方面有了大幅提升,各种数学、编程方面的评测都大幅超过当前已有的模型。以国际奥林匹克数学竞赛(International Mathematics Olympiad,IMO)为例,GPT-4o当前只能解决其中13%的问题,但是OpenAI o1可以解决83%的问题!提升十分明显!
但,当前o1模型本身最大的缺点是推理时间很长。下图展示了OpenAI o1模型技术与当前技术最大的区别。

在复杂推理任务方面,这是一个重大进步,代表了AI能力的新水平。基于这一突破,OpenAI将这个系列重新命名为OpenAI o1,并将计数器重置为1。



