除了Mistral-7B-MoE外,MistralAI还有更强大的模型,未宣布的Mistral-medium比混合专家模型更强!
MistralAI开源的混合专家模型Mistral-7B×8-MoE在本周吸引了大量的关注。这个模型不仅是稍有的基于混合专家技术开源的大模型,而且有较高的性能、较低的推理成本、支持法语、德语等特性(详情参考:MistralAI的混合专家大模型Mistral-7B×8-MoE详细介绍,效果超过LLaMA2-70B和GPT-3.5,推理速度快6倍)。

但是,昨天MistralAI发布的不仅仅是这个混合专家模型,还有他们的平台服务La plateforme。在这里他们透露了MistralAI还有更加强大的模型。
La Platform简介
La Platform其实就是MistralAI提供的官方的大模型服务,包括当前MistralAI的各种大模型接口,主要是指令优化后的模型(也就是适合做对话或者指令类任务,而不是基座模型)。目前,官方已经提供的模型包含3个:分别是Mistral-tiny、Mistral-small和Mistral-medium。而前两者都是此前开源的Mistral-7B-Instrcut v0.2(https://www.datalearner.com/ai-models/pretrained-models/Mistral-7B-Instruct )和本次开源的Mistral 7B MoE(https://www.datalearner.com/ai-models/pretrained-models/Mistral-7B-MoE )。
但是,官方提供的信息显示,还有一个Mistral-Medium大模型也会在平台,提供,这个模型当前没有开源或者细节信息。
下图是几个模型的对比:
评测基准 | GPT-3.5 | Mistral Small | Mistral Medium |
---|---|---|---|
MMLU | 70.0% | 70.6% | 75.3% |
HellaSwag | 85.5% | 86.7% | 88.0% |
ARC Challenge | 85.2% | 86.7% | 88.0% |
WinoGrande | 81.6% | 81.2% | 88.9% |
MBPP | 52.2% | 60.7% | 62.3% |
GSM-8K | 57.1% | 58.4% | 66.7% |
MT Bench | 8.32 | 8.30 | 8.61 |
可以看到,这个Mistral-Medium是一个比混合专家模型Mistral-7B×8 MoE更加强大的模型。各项评测上都超过了当前的混合专家模型。由于官方没有公布这个模型的细节,因此,目前也不知道它具体的信息。
但是,MT-Bench是8.6分的话,已经是接近GPT-4,超过Claude和GPT-3.5了。而从命名看,这虽然是MistralAI目前最高质量的模型,但是只算是medium模型,那按照惯例,应该还有Large模型,Large模型的效果值得期待,是否可以更加接近GPT-4令人想象。
MistralAI的几个模型的资源消耗和价格
目前,Mistral-AI开源的两个模型,官方都给出了具体的资源消耗情况:
模型名称 | 模型参数 | 运行时参数 | 推理最小显存 (GB) |
---|---|---|---|
Mistral-7B-v0.2 | 73亿 | 73亿 | 16 |
Mistral-7Bx8-v0.1 | 467亿 | 129亿 | 100 |
可以看到,混合专家模型最少也需要100GB的显存才可以运行。
官方托管的MistralAI几个模型服务价格和GPT对比,如下:
Model | Input | Output |
---|---|---|
mistral-tiny | 0.14€ / 100万tokens | 0.42€ / 100万tokens |
mistral-small | 0.6€ / 100万tokens | 1.8€ /100万 tokens |
mistral-medium | 2.5€ / 100万tokens | 7.5€ / 100万 tokens |
gpt-4-1106-preview | $10/100万tokens | $30/100万tokens |
gpt-3.5-turbo-1106 | $1/100万tokens | $2/100万tokens |
目前按照1欧元换1.08美元的话,mistral-medium的价格是100万的输入+输出是10.8美元,而GPT-3.5是3美元。也就是说,Mistral-Medium接口是GPT-3.5价格的3倍。但是是GPT-4价格的1/4。
按照这个定价,如果有Large版本的Mistral-Large模型,价格可能和GPT-4差不多了。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
