阿里开源推理大模型QwQ-32B-Preview:开源领域对OpenAI o1模型奋起直追,能力接近o1-mini,超过GPT-4o!

标签:#o1##QwQ##QwQ-32B-Preview##推理大模型# 时间:2024/11/28 13:40:41 作者:小木

随着OpenAI发布推理大模型o1,专注于推理能力的大模型开始被广泛关注。基于思维链探索的推理大模型也不断涌现。此前,DeepSeekAI与上海人工智能实验室都发布过推理大模型,也展现了很不错的推理能力,虽然DeepSeekAI官方承诺该模型会开源,但是目前还没有发布。今天,阿里开源了一个全新的推理大模型QwQ-32B-Preview,其推理能力在评测结果上超过o1-mini,是目前开源领域最强的推理大模型(也可能是目前唯一)。


QwQ-32B-Preview模型简介

QwQ-32B-Preview是Qwen团队开发的一个实验性研究模型,专注于推进人工智能推理能力。可以理解为OpenAI o1模型的开源版本。

关于OpenAI o1模型的详细介绍参考此前DataLearnerAI的博客:
1、重磅!OpenAI发布最强推理模型“OpenAI o1”(代号草莓),大模型逻辑推理能力大幅提升,官方宣称超越部分人类博士水平!
2、OpenAI最新的推理大模型o1与GPT-4o有什么区别?o1一定比o1 mini更强吗?一文总结OpenAI对o1模型的官方答疑

QwQ-32B-Preview与o1模型非常类似,即如果允许模型使用更长的时间进行“思考”,那么模型的推理能力也会大幅提高。这就是OpenAI o1模型里面说的inference scaling law,即推理缩放规律,推理长度越长,模型的效果越好。

QwQ-32B-Preview模型是一个预览版本,模型本身与Qwen2.5的架构应该是一致,具体架构参数如下:

QwQ-32B-Preview模型参数名 QwQ-32B-Preview模型参数详细结果
模型类型 Causal Language Models
训练阶段 Pretraining & Post-training
模型架构 Transformers with RoPE, SwiGLU, RMSNorm, and Attention QKV bias
参数数量 32.5B
不含embedding的参数数量 31.0B
层数 64
Attention Heads数量 (GQA) 40 for Q and 8 for KV
上下文长度 Full 32,768 tokens

从这个架构参数来看,QwQ-32B-Preview与Qwen2.5-32B非常接近。那么大概率是模型的训练数据有了很大的变化。

QwQ-32B-Preview主要通过详细和自省的方式来解决问题,具体表现为:

  • 多步骤推理:,QwQ-32B-Preview不直接给出结论,而是通过一个类似人类的思考过程,逐步推导出解决方案。它会考虑不同的可能性、采取不同的策略,并且在过程中进行反思和调整。这种方式模仿了人类在面对复杂问题时的思考模式,即非直线型的探索和调整。

  • 自省:QwQ-32B-Preview在推理过程中会对自己采取的策略和步骤进行自我检查和反思。通过不断地评估当前的推理路径,模型能够做出更合理的调整。这类似于人类在思考时会时常停下来反思自己的推理是否合理。

总的来说,QwQ-32B-Preview的这种推理方式看起来更像是“思考”的过程,而不是简单的“回答”。它更注重推理的过程,而不仅仅是给出答案,这与传统的模型输出直接答案的方式有所不同。

QwQ-32B-Preview模型的评测结果

QwQ-32B-Preview模型在推理能力方面效果显著,即使与GPT-4o、Claude Sonnet 3.5和Qwen2.5-72B比较也是非常优秀的。

QwQ-32B-Preview模型与业界其它模型在各种推理评测基准的表现如下:

模型名称 QwQ 32B-preview OpenAI ol-preview OpenAI ol-mini GPT-4o Claude Sonnet 3.5 Qwen2.5-72B Instruct
GPQA分数 65.2 72.3 60 53.6 65.0 49
AIME分数 50 44.6 56.7 9.3 16.0 23.3
MATH-500 90.6 85.5 90.0 76.6 78.3 82.6
LiveCodeBench 50.0 53.6 58.0 33.4 36.3 30.4

上述评测都是针对复杂问题的推理能力的评测,简介如下:

GPQA:研究生级Google-Proof问答基准,这是一个通过小学级问题评估科学问题解决能力的具有挑战性的基准。
AIME:美国数学邀请赛,测试包括算术、代数、计数、几何、数论和概率在内的中学数学主题的数学问题解决能力。
MATH-500:MATH基准的500个测试用例,一个全面测试数学问题解决能力的数据集。
LiveCodeBench:一个在真实世界编程场景中评估代码生成和问题解决能力的具有挑战性的基准。

基于上面的评测结果我们可以看到:QwQ 32B-preview在数学推理和复杂问题求解方面表现出色,但在对编程任务的处理能力上相对较弱。与OpenAI的模型相比,QwQ 32B-preview在一些任务(如GPQA)中的表现处于中等水平,虽然不如OpenAI的最强模型,但也展现出了强大的潜力。AIME分数的表现显示其在多任务处理上有较好的均衡性。总的来说,QwQ 32B-preview适合在需要数学推理和数据分析的任务中使用,但对于编程任务,可能需要进一步的优化。

QwQ 32B-preview的局限和挑战

Qwen团队也很坦诚地指出了QwQ 32B-preview模型的局限性,主要包括:

  1. 语言混合:模型可能会在处理语言时出现不同语言的混合。比如在多语言环境下,QwQ可能无法始终准确地区分语言边界,导致其输出中出现语言切换不当的问题。这通常是因为多语言模型在跨语言推理时可能无法有效地处理上下文或语境的转换。

  2. 递归推理的风险:递归推理是指模型在推理过程中反复调用自身的逻辑步骤,形成闭环或无限循环的过程。如果模型在推理时没有有效的终止机制,就可能导致推理过程陷入无休止的递归中。这不仅会浪费计算资源,还可能导致错误的推理结果。

  3. 需要进一步完善安全机制:在当前版本中,QwQ的安全机制可能存在漏洞,可能会被恶意用户利用进行不正当操作。比如,用户可能通过引导模型进入某些危险或不安全的推理路径,造成系统的不稳定或错误行为。因此,研究团队意识到需要加强模型的安全性,避免潜在的滥用。

  4. 常识推理的提升空间:尽管QwQ能够进行复杂的推理,但在常识推理方面,模型仍然存在一些不足。常识推理通常涉及对日常生活中的基本理解,而当前模型在这一方面可能缺乏足够的准确性,导致在一些常见场景中无法做出符合人类常识的反应。

QwQ 32B-preview的实际测试表现

我们用此前测试DeepSeek-R1-Lite-Preview模型的例子来测试QwQ 32B-preview的推理能力。

我们给出几组用户连续2个月的不同的电信业务使用情况,然后问,哪个用户使用的业务量下降最多。这个问题其实很复杂,也缺少明确的含义。原因是考虑业务使用下降需要考虑不同业务的差异,下降最多其实是可以有多个不同的答案的,而且语音下降10分钟和流量下降1GB是不能简单一起对比的(关于这个测试的详细参考此前的博客:OpenAI的推理大模型o1模型的强有力竞争者!DeepSeekAI发布DeepSeek-R1-Lite-Preview~实测结果令人惊喜!)。

QwQ 32B-preview对于这个问题的解答给了两个逻辑,第一个是把每个业务下降的数值求和(显然不合理),然后觉得不好,又计算不同业务下降百分比,然后求和,但是不管怎么说似乎都不对,最后模型给出建议是当前情况:

但是,这样转换可能不准确,因为不同的业务使用量之间没有直接的可比性。
或者,可以给不同的业务使用量赋予不同的权重,然后计算加权总使用量。
但这需要更多的信息,比如每项业务的相对重要性或价值。
在缺乏更多信息的情况下,可能最简单的方法是计算每项业务使用量的绝对下降量,然后求和。
根据之前的计算,用户1003的总下降量为-1695,是所有用户中下降最多的。
因此,业务使用下降最多的用户是用户1003。

怎么说呢,这意味着,QwQ 32B-preview似乎意识到当前不合理,但是给出了一个它觉得还可以的答案。

QwQ 32B-preview总结

关于QwQ 32B-preview模型更多信息参考DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/QwQ-32B-Preview

虽然这个模型还有很多问题,与OpenAI o1似乎有差距,但是,这毕竟是以Apache2.0协议开源的模型,意味着可以自由商业应用。这也是当前开源领域最强的推理大模型了。只能说,Qwen团队实力很强,业界影响力也很大,值得期待正式版的能力。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客