DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

马斯克创造的新的大模型企业xAI的大模型GrokAI模型评测结果出炉~MMLU与代码评分超过ChatGPT-3.5

2023/11/05 13:55:38
1,754 阅读
GrokGrok-1xAI马斯克

xAI是马斯克在2023年3月份创办的一家大模型初创企业。因为ChatGPT过于火爆,离开OpenAI之后马斯克又再次开始推出大模型,就是这个Grok。xAI今天也宣布了Grok模型的细节。其在多个知名榜单评测上的得分结果超过了ChatGPT-3.5水平。本文详细介绍一下这个模型。

xAI发布Grok模型
xAI发布Grok模型
  • Grok简介
  • Grok的在语义理解和数学推理的评测结果
  • Grok的在编程水平的评测结果
  • Grok的工程实践

Grok简介

Grok是一个以《银河系漫游指南》为模型的AI,旨在回答几乎所有问题,更难的是,它甚至能够建议要问什么问题!而这个建议问什么问题的功能很有可能是此前透露的SuperPrompt(参考:马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力?新消息泄露该模型支持2.5万个字符上下文!)。

目前官方宣布的Grok模型包含两个版本:

| Grok版本 | 简介 | 参数量 | DataLearner模型信息卡地址 | | ------------ | ------------ | ------------ | | Grok-0 | 初始版本 | 330亿 | https://www.datalearner.com/ai-models/pretrained-models/Grok-0 | | Grok-1 | 新版本 | 未透露 | https://www.datalearner.com/ai-models/pretrained-models/Grok-1 |

Grok-1是一个基于自回归Transformer的模型,预训练用于执行下一个词预测。该模型随后通过人类和早期Grok-0模型的大量反馈进行了微调。最初的Grok-1具有8,192个词的上下文长度。

根据官方的消息,xAI成立之后立即开始训练Grok-0模型,这个模型参数为330亿,只用了LLaMA2一般的资源就接近了LL aMA2-70B的水平。因此,在最近2个月,他们重新训练了一个新的模型Grok-1,这个模型没有透露参数量,但是评估结果显示它的评分超过了ChatGPT-3.5。

Grok的在语义理解和数学推理的评测结果

官方已经公布了Grok的评分,DataLearnerAI已经第一时间同步,官方公布了MMLU、GSM8K和HumanEval的评分。

在综合评测上,如下图所示:

Grok模型在MMLU等榜单的评分
Grok模型在MMLU等榜单的评分
数据来源:https://www.datalearner.com/ai-models/llm-evaluation

上图是按照MMLU评分排序结果,可以看到Grok-1模型的得分73.0,超过了ChatGPT-3.5,仅次于GPT-4和Google的PaLM2模型。十分强悍。在GSM8K得分62.9,也是超过了ChatGPT-3.5,排名第四(第三是智谱AI前段时间开源的ChatGLM3-6B:https://www.datalearner.com/ai-models/pretrained-models/ChatGLM3-6B-Base )。

这里的MMLU是英文理解和通用知识相关评测,GSM8K则是 OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。具体评测指标解释参考:DataLearner大模型综合评测对比表!国产大模型与全球最强大模型大比拼:语义理解、数学推理同台竞技,究竟谁更厉害~

相比较而言,Grok-0就得分低一点,但也是评测排行很靠前的位置,具体大家参考排行网址:https://www.datalearner.com/ai-models/llm-evaluation

Grok的在编程水平的评测结果

Grok-1的编程水平也很好。根据官方公布的数值,Grok-1在HumanEval的评测上得分63.2,超过了GPT-3.5的48.1。

如下图所示,是DataLearnerAI编程水平排行按HumanEval排行的结果:

数据来源:https://www.datalearner.com/ai-models/llm-coding-evaluation

可以看到,除了专用代码优化的模型,Grok-1得分仅次于GPT-4,远超ChatGPT-3.5模型。不过,专用优化的编程模型从这里看也是十分强大。

Grok的工程实践

官方还透露了xAI为训练Grok而搭建的一整套基础设施。为了创建Grok,xAI基于Kubernetes、Rust和JAX构建了一个自定义的训练和推断堆栈。

为了应对在深度学习训练过程中可能出现的硬件故障,比如GPU的各种问题,Grok采用了定制的分布式系统来确保故障可以立即被识别并自动处理。

GPU出现故障的方式多种多样:制造缺陷、连接松动、配置不当、内存芯片退化、偶尔的随机位翻转等等。在训练过程中,我们需要跨数以万计的GPU同步计算,持续数月之久,而所有这些故障模式因规模的增大而变得频繁。从这可以看出xAI的确是做了很多努力。

关于Grok-1模型在实际应用的特点,大家参考之前的总结:马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力?新消息泄露该模型支持2.5万个字符上下文!

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4!
  • 马斯克大模型企业xAI开源Grok-1,截止目前全球规模最大的MoE大模型,词汇表超过13万!
  • 重磅!马斯克宣布本周开源xAI开发的大语言模型Grok!
  • 马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力?新消息泄露该模型支持2.5万个字符上下文!
  • AIME 2025满分,xAI正式发布Grok模型,其中Grok 4 Heavy评测超越当前所有大模型,美国数学竞赛满分!一年3000美元订阅费!
  • Grok-4未发布评测结果已泄露:2个版本,支持长推理输出,但是最高上下文仅132K,泄露的评测数据显示Grok4是迄今为止得分最高的大模型,甚至大幅超越Gemini 2.5 Pro!

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署