OpenAI的推理大模型o1模型的强有力竞争者!DeepSeekAI发布DeepSeek-R1-Lite-Preview~实测结果令人惊喜!

标签:#DeepSeek-R1-Lite-Preview##DeepSeekAI##o1##OpenAIo1##推理大模型# 时间:2024/11/28 13:40:52 作者:小木

OpenAI的o1模型被认为是大模型领域中推理能力最强的代表之一,由于其强大的数学逻辑推理能力,被认为是大模型未来的进化方向。而就在2个月之后的11月快结束的时间里,幻方量化旗下人工智能企业DeepSeekAI发布了全新的DeepSeek-R1-Lite-Preview模型,号称是o1模型的有力挑战者。该模型利用了类似的o1的思维链思索过程,推理能力大幅增强。DataLearnerAI将在本文中对该模型进行介绍,并进行几个简单的对比结果测试。



关于OpenAI的o1模型可以参考此前DataLearnerAI的介绍博客:
1、重磅!OpenAI发布最强推理模型“OpenAI o1”(代号草莓),大模型逻辑推理能力大幅提升,官方宣称超越部分人类博士水平!
2、OpenAI最新的推理大模型o1与GPT-4o有什么区别?o1一定比o1 mini更强吗?一文总结OpenAI对o1模型的官方答疑

[TOC]

DeepSeek-R1-Lite-Preview模型简介

DeepSeek-R1-Lite-Preview是DeepSeekAI在2024年11月20日宣布的一个全新的大语言模型,官方发布这个模型的时候并没有进行大规模的宣称和介绍,只是在官方的更新日志中提到,这个模型与OpenAI推理模型o1在AIME和数学基准测试中具有差不多的性能。

AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。

在官方的测试结果中,DeepSeek-R1-Lite-Preview的AIME 2024得分52.5分,比OpenAI的o1-preview模型的44.6分高近8分,比GPT-4o的9.3分高出很多。

在MATH的基准测试(Hendrycks等人在2021年推出的数学数据集,有125000个美国数学竞赛题目)中得分达到91.6分,也是高于o1-preview。

此外,在其它复杂的任务场景,如何代码基准测试Codeforces等方面,DeepSeek-R1-Lite-Preview模型效果表现也很好。

DeepSeek-R1-Lite-Preview模型的能力随着推理长度的增长而变强

根据OpenAI官方的描述,o1模型的训练使用了一种新的AI训练方法,强调了思维链和强化学习的重要性,以及计算资源对性能的影响。OpenAI认为,如果允许更长的推理时间,那么模型的表现越好,这样就暗示了模型本身可能存在一个“思考”-“改进”的过程!这就是所谓的Inference Scaling Laws(推理缩放定律)。

DeepSeekAI也有类似的结论,官方的测试显示DeepSeek-R1-Lite-Preview模型的能力会随着推理长度的增加而显著增强。下图是官方给的测试结果。



从这个图可以看到,随着推理结果长度的增加,DeepSeek-R1-Lite-Preview模型能力显著增长,在推理长度超过10K的时候,DeepSeek-R1-Lite-Preview模型的能力是超过了OpenAI的o1模型的。不过,由于目前官方没有给出详细的结果,我们还不确定这样的测试背景。毕竟在OpenAI的官方测试中,也有类似的随着推理结果数量和长度的增长,模型能力也会更强。

DeepSeek-R1-Lite-Preview在代码和复杂逻辑的实测效果

为了测试DeepSeek-R1-Lite-Preview模型在复杂任务的效果,DataLearnerAI的团队成员进行了2个测试,分别是生成一个复杂的网页效果,以及一个复杂的数学分析案例。

大模型聊天网页测试

这个测试的结果是让模型生成一个类似ChatGPT的大模型聊天网页,要求是纯粹的HTML+JS+CSS实现,没有限制使用外部第三方的库,但是要求可以本地测试。

这个网页的功能需求说明包含了五个部分,分别是聊天区域、工具调用的展示、上下文管理、自适应布局以及动画效果等。要求的内容比较多。我们测试了GPT-4o、Gemini Experimental 1121(谷歌最新的实验模型,效果据说很强)、Claude Sonnet 3.5以及DeepSeek-R1-Lite-Preview。

首先,我们给出四个模型的测试功能结果:

模型 基本对话功能 回车发送消息 主题切换 流式输出 模拟工具步骤
GPT-4o
Gemini Experimental 1121
Claude Sonnet 3.5
DeepSeek-R1-Lite-Preview

从这个测试可以看到,这几个模型都能完成核心功能。但是,一些细节有差别,其中谷歌的模型Gemini Experimental 1121能力是最完整的。其它模型都缺少了一点点内容,其中GPT-4o模型没有支持回车按键之后发送消息,十分的可惜。

除了功能外,我们还有几个对比结果:

模型 生成文件数量 生成的代码行数 是否引用第三方库 一次性成功 美观程度
GPT-4o 3 218 还行
Gemini Experimental 1121 3 544 一般
Claude Sonnet 3.5 1 603 最好看
DeepSeek-R1-Lite-Preview 3 402 一般

这里我们第一个关注的是生成结果的代码行数。虽然GPT-4o模型在前面少了一个简单的功能,但是它没有使用第三方库,且代码最少。而其它的模型都使用了第三方的库。在prompt中,我们有提到需要便于本地测试。此外,Claude模型生成的结果第一次运行出错了,让它自己修复了一下。最后一个问题是谷歌的模型,虽然功能完整,但是生成过程分成了三次,每次都需要提示继续生成。

就美观程度来说,Claude模型的结果是最好的,完成度最高,它还有对话头像,且对话框居中并且永远在浏览器中间下方,体验非常好。GPT-4o还可以,剩余两个,只能说很丑了。

下图是展示结果:

GPT-4o的页面截图

Gemini的页面截图

Claude页面截图

DeepSeek-R1-Lite-Preview的页面截图

数据分析测试

为了测试DeepSeek-R1-Lite-Preview模型在复杂的数据分析推理的效果,我们也测试了一个模糊的数据分析问题。我们给出了几组用户连续2个月的不同的电信业务使用情况,然后问,哪个用户使用的业务量下降最多。

测试数据如下:

userId month voiceCallOutgoingMinutes voiceCallIncomingMinutes roamingMinutes smsSent smsReceived dataUsageDomesticMB dataUsageInternationalMB
1001 2024-01 320 180 15 60 75 10240 500
1001 2024-02 290 200 25 50 65 8900 400
1002 2024-01 150 100 0 40 50 5600 300
1002 2024-02 200 150 5 55 70 7200 200
1003 2024-01 400 300 30 80 90 12500 700
1003 2024-02 380 250 20 70 85 11000 650
1004 2024-01 100 120 10 20 25 3500 150
1004 2024-02 90 110 8 18 22 4000 180
1005 2024-01 500 450 40 100 110 15000 900
1005 2024-02 480 430 35 90 105 14000 850

这个问题其实很复杂,也缺少明确的含义。原因是考虑业务使用下降需要考虑不同业务的差异,下降最多其实是可以有多个不同的答案的。这里1001用户的业务下降百分比其实比较多。但是1003用户的流量绝对值下降最大,所以有干扰。

最终测试结果,DeepSeek-R1-Lite-Preview的分析过程非常不错,基本考虑了所有的场景。而只看结果的话,Claude和Gemini的模型应该是更合理~

GPT-4o的分析结果

GPT-4o模型直接把通话时长、流量使用等不同业务的变化结果相加,这个显然是不合理的。毕竟,语音10分钟和流量1000MB是不一样的。


GPT-4o根据绝对值给出的是1003用户下降最多。

Gemini的分析结果

相比较GPT-4o,Gemini的分析要合理一点,它给出了所有用户每一个业务的下降绝对值和百分比,然后用下降幅度来表示,最终认为1001用户下降最多。


Claude Sonnet 3.5的分析结果

Claude Sonnet 3.5的结果类似,也是使用了下降百分比的方式计算,给出了最终是1001用户下降最为明显。


DeepSeek-R1-Lite-Preview的分析结果

DeepSeek-R1-Lite-Preview的分析使用了66秒的时间,它给出了思维链过程。这个过程非常有意思。

首先,DeepSeek-R1-Lite-Preview分析了这个问题,给出了不同的思路的差异:

好,我有一组用户的数据,我需要找出业务使用下降最多的用户。首先,我得理解这些数据是什么意思。表格里有用户ID、月份,然后是各种业务的使用情况,比如语音通话的主叫和被叫分钟数,漫游分钟数,短信发送和接收数量,以及国内和国际的数据使用量,单位是MB。

我的目标是找出在2024年1月到2月期间,哪个用户的业务使用下降得最多。那我得比较每个用户在这两个月的各项业务使用情况,看看哪些业务减少了,减少了多少。

首先,我需要确定哪些业务可以用来衡量“业务使用”。看起来,所有的列除了userId和month,都是业务使用的指标。可能需要综合考虑这些指标的变化。

但是,不同的业务可能有不同的重要性,比如数据使用可能比短信更重要,或者语音通话更重要,这得根据具体情况来定。不过题目没有说要按权重来算,可能需要简单地比较各项业务的使用量变化。

也许可以计算每个用户在各项业务上的下降量,然后把它们加起来,看哪个用户的总下降量最大。

这个分析其实很不错了。然后,它使用绝对值去给出结果,分析得到1003用户下降最多。然后又觉得不合适,开始计算下降百分比,最后觉得每个业务单独计算下降百分比然后相加不好,给出了新的逻辑,即计算每个业务的下降量,然后加总所有业务的下降量,再除以所有业务在1月的总量,得到总的下降比例。。不能说这个思路有问题,但和1也没啥区别,属于不合理的内容。综合这三个结果,给出了1003用户下降最多。


从这些测试也可以看出来,谷歌即将发布的Gemini模型也是很强的。

DeepSeek-R1-Lite-Preview总结

根据上面的分析和总结,我们可以看到,DeepSeek-R1-Lite-Preview并不是当前最优秀的模型,但是其分析过程和效果已经是和全球最强的模型不相上下了。其中,网页的结果虽然有点丑,但是功能上还是不错的。而分析数据的结果,虽然结论不合理,但是思维链过程是很精彩的。

目前已经可以在DeepSeek官网使用这个模型:https://chat.deepseek.com/ ​,开启DeepThink即可。

最重要的,官方给出的信息是,未来DeepSeek-R1-Lite-Preview会开源!而根据这个名称是Lite来看,其实可能这个模型本身的规模没有那么大,那背后是否有更强的DeepSeek-R1呢?非常期待。

关于DeepSeek-R1-Lite-Preview模型的更多信息可以关注DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/DeepSeek-R1-Lite-Preview

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客