Mixtral-8×22B-MoE
模型参数
1410亿
上下文长度
64K
中文支持
不支持
推理能力
Mixtral-8×22B-MoE 是由 MistralAI 发布的 AI 模型,发布时间为 2024-04-17,定位为 基础大模型,参数规模约为 1410亿,上下文长度为 64K,模型文件大小约 262GB,采用 Apache 2.0 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
Mixtral-8×22B-MoE
模型基本信息
推理过程
不支持
思考模式
不支持思考模式
上下文长度
64K tokens
最大输出长度
暂无数据
模型类型
基础大模型
输入/输出模态
暂无数据
发布时间
2024-04-17
模型文件大小
262GB
MoE架构
否
总参数 / 激活参数
1410亿 / 不涉及
知识截止
暂无数据
Mixtral-8×22B-MoE
开源和体验地址
Mixtral-8×22B-MoE
官方介绍与博客
Mixtral-8×22B-MoE
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
Mixtral-8×22B-MoE
评测结果
当前尚无可展示的评测数据。
和其他模型对比
暂时没有为该模型整理的相关对比页面。
想自定义其他组合?打开对比工具
Mixtral-8×22B-MoE
发布机构
MistralAI
查看发布机构详情 Mixtral-8×22B-MoE
模型解读
Mixtral-8×7B-MoE是由MistralAI开源的一个MoE架构大语言模型,因为它良好的开源协议和非常好的性能获得了广泛的关注。就在刚才,Mixtral-8×7B-MoE的继任者出现,MistralAI开源了全新的Mixtral-8×22B-MoE大模型。
目前该模型依然是以磁力链接让大家下载,没有提供任何新的消息,不过根据磁链文件信息,有几个简单的信息:
- Mixtral-8×22B-MoE依然是8个专家组成的混合专家大模型;
- 每个专家参数规模220亿,是原来70亿参数的3倍,因此总的参数量达到了1760亿!
- 如果依然是每次激活2个专家,这意味着每次推理的参数规模是440亿,比此前120亿参数规模大幅增加,有理由相信模型能力更强!
- Mixtral-8×7B-MoE模型的输入是32K,而这个模型的配置文件显示,上下文输入达到了64K!上下文长度翻倍!
- 根据这个参数估计,Mixtral-8×22B-MoE模型推理半精度的显存需要350GB!成本非常高!但是按照下载链接的物理文件达到262GB的话,应该是不到300G显存即可!
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
