马斯克创造的新的大模型企业xAI的大模型GrokAI模型评测结果出炉~MMLU与代码评分超过ChatGPT-3.5

xAI是马斯克在2023年3月份创办的一家大模型初创企业。因为ChatGPT过于火爆，离开OpenAI之后马斯克又再次开始推出大模型，就是这个Grok。xAI今天也宣布了Grok模型的细节。其在多个知名榜单评测上的得分结果超过了ChatGPT-3.5水平。本文详细介绍一下这个模型。

Grok简介

Grok是一个以《银河系漫游指南》为模型的AI，旨在回答几乎所有问题，更难的是，它甚至能够建议要问什么问题！而这个建议问什么问题的功能很有可能是此前透露的SuperPrompt（参考：马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力？新消息泄露该模型支持2.5万个字符上下文！）。

目前官方宣布的Grok模型包含两个版本：

| Grok版本 | 简介 | 参数量 | DataLearner模型信息卡地址 | | ------------ | ------------ | ------------ | | Grok-0 | 初始版本 | 330亿 | https://www.datalearner.com/ai-models/pretrained-models/Grok-0 | | Grok-1 | 新版本 | 未透露 | https://www.datalearner.com/ai-models/pretrained-models/Grok-1 |

Grok-1是一个基于自回归Transformer的模型，预训练用于执行下一个词预测。该模型随后通过人类和早期Grok-0模型的大量反馈进行了微调。最初的Grok-1具有8,192个词的上下文长度。

根据官方的消息，xAI成立之后立即开始训练Grok-0模型，这个模型参数为330亿，只用了LLaMA2一般的资源就接近了LL aMA2-70B的水平。因此，在最近2个月，他们重新训练了一个新的模型Grok-1，这个模型没有透露参数量，但是评估结果显示它的评分超过了ChatGPT-3.5。

Grok的在语义理解和数学推理的评测结果

官方已经公布了Grok的评分，DataLearnerAI已经第一时间同步，官方公布了MMLU、GSM8K和HumanEval的评分。

在综合评测上，如下图所示：

数据来源：https://www.datalearner.com/ai-models/llm-evaluation

上图是按照MMLU评分排序结果，可以看到Grok-1模型的得分73.0，超过了ChatGPT-3.5，仅次于GPT-4和Google的PaLM2模型。十分强悍。在GSM8K得分62.9，也是超过了ChatGPT-3.5，排名第四（第三是智谱AI前段时间开源的ChatGLM3-6B：https://www.datalearner.com/ai-models/pretrained-models/ChatGLM3-6B-Base ）。

这里的MMLU是英文理解和通用知识相关评测，GSM8K则是 OpenAI发布的大模型数学推理能力评测基准，涵盖了8500个中学水平的高质量数学题数据集。具体评测指标解释参考：DataLearner大模型综合评测对比表！国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害~

相比较而言，Grok-0就得分低一点，但也是评测排行很靠前的位置，具体大家参考排行网址：https://www.datalearner.com/ai-models/llm-evaluation

Grok的在编程水平的评测结果

Grok-1的编程水平也很好。根据官方公布的数值，Grok-1在HumanEval的评测上得分63.2，超过了GPT-3.5的48.1。

如下图所示，是DataLearnerAI编程水平排行按HumanEval排行的结果：

数据来源：https://www.datalearner.com/ai-models/llm-coding-evaluation

可以看到，除了专用代码优化的模型，Grok-1得分仅次于GPT-4，远超ChatGPT-3.5模型。不过，专用优化的编程模型从这里看也是十分强大。

Grok的工程实践

官方还透露了xAI为训练Grok而搭建的一整套基础设施。为了创建Grok，xAI基于Kubernetes、Rust和JAX构建了一个自定义的训练和推断堆栈。

为了应对在深度学习训练过程中可能出现的硬件故障，比如GPU的各种问题，Grok采用了定制的分布式系统来确保故障可以立即被识别并自动处理。

GPU出现故障的方式多种多样：制造缺陷、连接松动、配置不当、内存芯片退化、偶尔的随机位翻转等等。在训练过程中，我们需要跨数以万计的GPU同步计算，持续数月之久，而所有这些故障模式因规模的增大而变得频繁。从这可以看出xAI的确是做了很多努力。

关于Grok-1模型在实际应用的特点，大家参考之前的总结：马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力？新消息泄露该模型支持2.5万个字符上下文！

Grok简介

Grok的在语义理解和数学推理的评测结果

Grok的在编程水平的评测结果

Grok的工程实践

DataLearner 官方微信