MistralAI发布了Mixtral 8×7B MoE模型的论文,更详细的参数和对比结果~
在人工智能快速发展的今天,创新型模型如Mixtral 8x7B的出现,不仅推动了技术的进步,还为未来的AI应用开辟了新的可能性。这款基于Sparse Mixture of Experts(SMoE)架构的模型,不仅在技术层面上实现了创新,还在实际应用中展示了卓越的性能。尽管一个月前这个模型就发布,但是MistralAI今天才上传了这个模型的论文,我们可以看到更详细的信息。

以下是该模型关键特性的简要表格:
架构:基于Transformer的混合专家层。每层有8个前馈块(专家)。一个路由网络在每层为每个token选择两个专家。
参数:
- 总参数数:47B
- 推理时活动参数:13B
- 前馈维度:4096
- 层数:32
- 头部维度:128
- 隐藏维度:14336
- 头部数量:32
- KV头部:8
- 上下文长度:32768 tokens
- 词汇量:32000
- 专家数量:8
- 顶部K专家:2
性能:
- 在多个基准测试中超越或匹配Llama 2 70B和GPT-3.5。
- 在数学、代码生成和多语言理解方面显示出优越的能力。
- 包括一个为指令优化的版本,Mixtral 8x7B – Instruct,在人类评估基准测试中超越了其他多个模型。
效率:
- 在小批量大小时具有更快的推理速度。
- 由于稀疏使用参数,在大批量大小时具有更高的吞吐量。
许可证:根据Apache 2.0许可证发布。
Mixtral结果很好,对比如下:
基准测试 | Mixtral | Llama 2 70B | GPT-3.5 |
---|---|---|---|
MMLU | 70.6% | 69.9% | 70.0% |
HellaSwag | 84.4% | 85.4% | 85.5% |
WinoGrande | 77.2% | 80.4% | 81.6% |
PIQA | 83.6% | 82.6% | - |
ARC-Easy | 83.1% | 79.9% | - |
Natural Questions | 30.6% | 25.4% | - |
TriviaQA | 71.5% | 73.0% | - |
Code (Humaneval) | 40.2% | 29.3% | - |
数学 (MATH数据集) | 28.4% | 13.8% | - |
GSM8K | 74.4% | 69.6% | - |
从表格可以更直观地看出Mixtral在多个基准测试上的表现对比。尤其在代码生成和数学题目上明显优于Llama 2 70B。
- Mixtral 8x7B模型在多个评测任务上表现优异,包括常识推理、世界知识、阅读理解、数学和代码生成等领域。
- 在比较中,Mixtral 8x7B在几乎所有评测任务上都与或超过了Llama 2 70B和GPT-3.5的表现。
- 特别是在数学和代码生成任务上,Mixtral 8x7B表现显著优于Llama 2 70B。
- 在多语言基准测试中,Mixtral 8x7B在处理法语、德语、西班牙语和意大利语时表现出色,超过了Llama 2 70B。
这些结果显示了Mixtral 8x7B在多样化任务上的强大性能,尤其是在需要高级数学和编程能力的任务上。由于无法直接提供详细的表格内容,如需深入了解具体的评测结果,请参考原论文的相关章节。
这个模型代表了语言建模方面的重大进步,特别是在有效处理大量参数和在多样化任务中的表现方面。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
