MistralAI发布了Mixtral 8×7B MoE模型的论文,更详细的参数和对比结果~

标签:#MistralAI##Mixtral##专家混合模型# 时间:2024/01/09 12:39:17 作者:小木

在人工智能快速发展的今天,创新型模型如Mixtral 8x7B的出现,不仅推动了技术的进步,还为未来的AI应用开辟了新的可能性。这款基于Sparse Mixture of Experts(SMoE)架构的模型,不仅在技术层面上实现了创新,还在实际应用中展示了卓越的性能。尽管一个月前这个模型就发布,但是MistralAI今天才上传了这个模型的论文,我们可以看到更详细的信息。


以下是该模型关键特性的简要表格:

  1. 架构:基于Transformer的混合专家层。每层有8个前馈块(专家)。一个路由网络在每层为每个token选择两个专家。

  2. 参数

    • 总参数数:47B
    • 推理时活动参数:13B
    • 前馈维度:4096
    • 层数:32
    • 头部维度:128
    • 隐藏维度:14336
    • 头部数量:32
    • KV头部:8
    • 上下文长度:32768 tokens
    • 词汇量:32000
    • 专家数量:8
    • 顶部K专家:2
  3. 性能

    • 在多个基准测试中超越或匹配Llama 2 70B和GPT-3.5。
    • 在数学、代码生成和多语言理解方面显示出优越的能力。
    • 包括一个为指令优化的版本,Mixtral 8x7B – Instruct,在人类评估基准测试中超越了其他多个模型。
  4. 效率

    • 在小批量大小时具有更快的推理速度。
    • 由于稀疏使用参数,在大批量大小时具有更高的吞吐量。
  5. 许可证:根据Apache 2.0许可证发布。

Mixtral结果很好,对比如下:

基准测试 Mixtral Llama 2 70B GPT-3.5
MMLU 70.6% 69.9% 70.0%
HellaSwag 84.4% 85.4% 85.5%
WinoGrande 77.2% 80.4% 81.6%
PIQA 83.6% 82.6% -
ARC-Easy 83.1% 79.9% -
Natural Questions 30.6% 25.4% -
TriviaQA 71.5% 73.0% -
Code (Humaneval) 40.2% 29.3% -
数学 (MATH数据集) 28.4% 13.8% -
GSM8K 74.4% 69.6% -

从表格可以更直观地看出Mixtral在多个基准测试上的表现对比。尤其在代码生成和数学题目上明显优于Llama 2 70B。

  • Mixtral 8x7B模型在多个评测任务上表现优异,包括常识推理、世界知识、阅读理解、数学和代码生成等领域。
  • 在比较中,Mixtral 8x7B在几乎所有评测任务上都与或超过了Llama 2 70B和GPT-3.5的表现。
  • 特别是在数学和代码生成任务上,Mixtral 8x7B表现显著优于Llama 2 70B。
  • 在多语言基准测试中,Mixtral 8x7B在处理法语、德语、西班牙语和意大利语时表现出色,超过了Llama 2 70B。

这些结果显示了Mixtral 8x7B在多样化任务上的强大性能,尤其是在需要高级数学和编程能力的任务上。由于无法直接提供详细的表格内容,如需深入了解具体的评测结果,请参考原论文的相关章节。

这个模型代表了语言建模方面的重大进步,特别是在有效处理大量参数和在多样化任务中的表现方面。

论文地址:https://arxiv.org/pdf/2401.04088.pdf

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送