马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4!

标签:#Grok##Grok-1##Grok-1.5##xAI##马斯克# 时间:2024/03/29 09:21:54 作者:小木

Grok系列是马斯克旗下的人工智能企业xAI发布的大语言模型,在推特上给大家使用。第一个版本,Grok-1前端时间 开源,效果一般。就在刚才,xAI宣布他们开始内测Grok-1.5,即将全面商用!


Grok-1.5介绍

目前,官网没有公布Grok-1.5的任何技术细节,只说了这个版本的Grok-1.5在推理和其它任务解决的能力方面大幅提升。下图展示了Grok-1.5和其它模型的对比结果:


可以看到,在综合理解能力MMLU评测上,Grok-1.5达到了81.3分的成绩,超过了MistralAI当前最好的模型Mixtral Large,而数学推理能力GSM8K的成绩达到了90分!与GPT-4、Claude-3 Sonnet几乎差不多。

相比较此前的Grok-1,用来3124个参数得到的惨淡结果,这个提升非常明显!关于Grok-1信息参考:https://www.datalearner.com/blog/1051710739726469

Grok-1.5在DataLearnerAI综合评测排行

在DataLearnerAI收集的全球大模型综合评测数据上,Grok-1.5表现也非常好。按照GSM8K排序,结果如下:


数据来源:https://www.datalearner.com/ai-models/llm-evaluation

可以看到,GSM8K在目前的评测上,Grok-1.5已经是全球第四,最好的模型之一了。其它评测结果也是类似,说明Grok-1.5已经达到了第一梯队。而按照编程能力评测的结果,以Human Eval排序为例,结果如下:


数据来源:https://www.datalearner.com/ai-models/llm-coding-evaluation

可以看到,Grok-1.5依然排名很高,作为一个综合基础大模型,这样的成绩非常好。略超Claude3-Sonnet!

Grok-1.5支持最高128K上下文

另一个值得关注的是,Grok-1.5支持最高128K的上下文长度。相比较第一代8K也大幅提升。在大海捞针测试中,表现很好:


Grok-1.5的具体发布情况

目前xAI官方说Grok-1.5将会邀请早期测试者测试,后续逐渐扩大到所有用户。至于后续是否开源,目前没有信息!希望下一代Grok出来之前能让Grok-1.5开源!

关于Grok-1.5的后续情况参考DataLearnerAI的Grok-1.5模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Grok-1_5

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送