MI

Mixtral-8×22B-MoE

基础大模型Mixtral-8

Mixtral-8×22B-MoE

发布时间: 2024-04-17更新于: 2024-04-17 22:33:37803
在线体验GitHubHugging FaceCompare
模型参数
1410亿
上下文长度
64K
中文支持
不支持
推理能力

Mixtral-8×22B-MoE 是由 MistralAI 发布的 AI 模型,发布时间为 2024-04-17,定位为 基础大模型,参数规模约为 1410亿,上下文长度为 64K,模型文件大小约 262GB,采用 Apache 2.0 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Mixtral-8×22B-MoE

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
64K tokens
最大输出长度
暂无数据
模型类型
基础大模型
输入/输出模态
暂无数据
发布时间
2024-04-17
模型文件大小
262GB
MoE架构
总参数 / 激活参数
1410亿 / 不涉及
知识截止
暂无数据
Mixtral-8×22B-MoE

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0- 免费商用授权
GitHub 源码
暂无GitHub开源地址
在线体验
暂无在线体验地址
Mixtral-8×22B-MoE

官方介绍与博客

Mixtral-8×22B-MoE

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
Mixtral-8×22B-MoE

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

Mixtral-8×22B-MoE

发布机构

Mixtral-8×22B-MoE

模型解读

Mixtral-8×7B-MoE是由MistralAI开源的一个MoE架构大语言模型,因为它良好的开源协议和非常好的性能获得了广泛的关注。就在刚才,Mixtral-8×7B-MoE的继任者出现,MistralAI开源了全新的Mixtral-8×22B-MoE大模型。

目前该模型依然是以磁力链接让大家下载,没有提供任何新的消息,不过根据磁链文件信息,有几个简单的信息:

  1. Mixtral-8×22B-MoE依然是8个专家组成的混合专家大模型;
  2. 每个专家参数规模220亿,是原来70亿参数的3倍,因此总的参数量达到了1760亿!
  3. 如果依然是每次激活2个专家,这意味着每次推理的参数规模是440亿,比此前120亿参数规模大幅增加,有理由相信模型能力更强!
  4. Mixtral-8×7B-MoE模型的输入是32K,而这个模型的配置文件显示,上下文输入达到了64K!上下文长度翻倍!
  5. 根据这个参数估计,Mixtral-8×22B-MoE模型推理半精度的显存需要350GB!成本非常高!但是按照下载链接的物理文件达到262GB的话,应该是不到300G显存即可!

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码