DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

MistralAI的混合专家大模型Mistral-7B×8-MoE详细介绍,效果超过LLaMA2-70B和GPT-3.5,推理速度快6倍

2023/12/11 23:24:12
1,747 阅读
Mistral-7B×8-MoEMistralAIMoE混合专家模型

12月8日晚上,MistralAI在他们的推特账号上发布了一个磁力链接,大家下载之后根据名字推断这是一个混合专家模型(Mixture of Experts,MoE)(详情参考DataLearnerAI此前的介绍:MistralAI开源全球首个(可能)基于MoE(Mixture of Experts)技术的大模型:预训练下载链接全球直发,但实测表现似乎一般!)。这种模型因为较低的成本和更高的性能被认为是大模型技术中非常重要的路径。也是GPT-4可能的方案。MistralAI在今天发布了博客,正式介绍了这个强大的模型。

  • Mistral-7B×8-MoE的特点
  • Mistral-7B×8-MoE评估效果
  • Mistral-7B×8-MoE的多语言能力
  • 混合专家技术为Mistral-7B×8-MoE带来的价值
  • Mistral-7B×8-MoE资源和其它信息

Mistral-7B×8-MoE的特点

根据官方的介绍,Mistral-7B×8-MoE是一个高质量稀疏型的专家混合模型。是8个70亿参数规模大模型的混合。它的主要特点如下:

  • 它可以非常优雅地处理32K上下文数据
  • 除了英语外,在法语、德语、意大利语和西班牙语表现也很好
  • 在代码能力上表现很强
  • 指令微调后MT-Bench的得分8.3分(GPT-3.5是8.32、LLaMA2 70B是6.86)

在MoE模型中,有两个关键组件:

  • 专家(Experts):这些是网络中的小型子网络,每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式,如完全连接的网络、卷积网络等。

  • 门控机制(Gating Mechanism):这是一个智能路由系统,负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性,动态地将数据分配给不同的专家。

官方介绍,这个模型是基于网络数据预训练的,其中,专家网络和门控路由是同时训练的。

Mistral-7B×8-MoE评估效果

此次,官方详细公布了Mistral-7B×8-MoE在各个评测数据集上的评测效果。结果如下:

评测数据集LLAMA 270BGPT-3.5Mixtral 8x7B
MMLU (MCQ in 57 subjects)69.9%70.0%70.6%
HellaSwag (10-shot)87.1%85.5%86.7%
ARC Challenge (25-shot)85.1%85.2%85.8%
WinoGrande (5-shot)83.2%81.6%81.2%
MBPP (pass@1)49.8%52.2%60.7%
GSM-8K (5-shot)53.6%57.1%58.4%
MT Bench (for Instruct Models)6.868.328.30

从这个角度看,Mistral-7B×8-MoE与GPT-3.5、LLaMA2-70B是一个水平的。

Mistral-7B×8-MoE和LLaMA系列更加详细的对比:

可以看到,Mistral-7B×8-MoE模型在各方面的指标都很不错,几乎与LLaMA2-70B在一个水平,但是由于每次只有120亿参数在工作,这意味着它的成本要远低于LLaMA2 70B,官方的说法是推理速度比LLaMA2 70B快6倍!

下图是DataLearnerAI大模型评测排行结果:

Mistral-7B-MoE模型评测排行
Mistral-7B-MoE模型评测排行
**数据来源:https://www.datalearner.com/ai-models/llm-evaluation**

而代码生成能力的结果,则和CodeLLaMA2-34B在一个水平,要知道,这是一个基座大模型,不是编程大模型,这个结果非常不错,具体参考DataLearnerAI的大模型编程能力排行:https://www.datalearner.com/ai-models/llm-coding-evaluation

Mistral-7B×8-MoE的多语言能力

除了前面的常规评测外,Mistral-7B×8-MoE另一个吸引人的特点是它多语言支持效果很好。目前在法语、西班牙语、德语、意大利语上的表现都非常亮眼。

不愧是法国企业,在支持欧洲语言上非常棒。从图中也可以看到,Mistral-7B×8-MoE在法语、德语、西班牙语和意大利语表现比LLaMA2-70B系列明显更优!

混合专家技术为Mistral-7B×8-MoE带来的价值

Mistral-7B×8-MoE模型在多个评测基准上都超过了LLaMA2 70B模型,但是它的推理速度比LLaMA2-70B快6倍。因此是一个性能与速度兼备的大模型。

根据官方的介绍,Mistral-7B×8-MoE实际的参数为450亿,但是每次运行只会利用其中120亿参数(单个模型在56.5亿,但是可能有共享参数,每个token会被2个模型处理)。因此,这个模型的推理速度和成本与120亿参数规模的大模型是一样的。

如果GPT-3.5是1750亿的话,这意味着,Mistral-7B×8-MoE混合专家模型,可以每次只需要120亿参数参与推理就可以达到700亿的LLaMA2、1750亿的GPT-3.5的水平。而代码能力则和340亿的编程大模型CodeLLaMA2-34B差不多!这个成本与性能表现十分强悍!

Mistral-7B×8-MoE资源和其它信息

首先,Mistral-7B×8-MoE的官方HF库上有兼容vLLM的权重,非常快。而且支持bitsandbytes的8-bit和4-bit量化使用。并且支持Flash Attention 2。

Mistral-7B×8-MoE模型开源协议是Apache2.0,商用友好,更多Mistral-7B×8-MoE信息参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Mistral-7B-MoE

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • MistralAI发布全新编程大模型:24B开源Devstral Small 1.1在SWE-Bench Verified评分超过旧版DeepSeek R1,编程大模型新的替代
  • MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B:评测结果与GPT-4o-mini与Gemma 3 27B有来有回,开源且免费商用,支持24种语言
  • Mistral AI开源全新的120亿参数的Mistral NeMo模型,Mistral 7B模型的继任者!完全免费开源!中文能力大幅增强!
  • MistralAI正式官宣开源全球最大的混合专家大模型Mixtral 8x22B,官方模型上架HuggingFace,包含指令微调后的版本!
  • Mixtral-8×7B-MoE模型升级新版本,MistralAI开源全球最大混合专家模型Mixtral-8×22B-MoE
  • 73亿参数顶级开源模型Mistral-7B升级到v0.2版本,性能与上下文长度均有增强。
  • MistralAI可能即将发布新的大语言模型,Mistral Next悄悄登场Chat Arena!
  • MistralAI发布了Mixtral 8×7B MoE模型的论文,更详细的参数和对比结果~

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署