截止目前可能是全球最快的大语言模型推理服务:实机演示Groq公司每秒500个tokens输出的450亿参数的Mixtral 8×7B模型
大模型的推理速度是当前制约大模型应用的一个非常重要的问题。在很多的应用场景中(如复杂的接口调用、很多信息处理)的场景,更快的大模型响应速度通常意味着更好的体验。但是,在实际中我们可用的场景下,大多数大语言模型的推理速度都非常有限。慢的有每秒30个tokens,快的一般也不会超过每秒100个tokens。而最近,美国加州一家企业Groq推出了他们的大模型服务,可以达到每秒接近500个tokens的响应速度,非常震撼。
Groq大模型服务简介
首先,Groq并不是一家专门做大模型服务的初创企业,而是一家芯片公司。此前,他们的产品只在小部分人中得知。为了让更多的人了解他们的芯片的强大,他们发布了大语言模型服务,目前托管了三个开源模型,分别是Mixtral 8×7B - 32K、Llama2-70B-4K和Mistral 7B - 8K。这三个模型也是当前最强的开源模型之一。
而Groq的这三个模型最大的特点是速度非常快,其中Mixtral 8×7B - 32K作为一个有450多亿参数(推理时有120亿参数被使用)的模型,其生成tokens的速度最高达到每秒500个tokens左右,正常也有400多个tokens,这意味着它每秒可以生成400个单词左右,可以说是飞速生成。
下图是我们测试的一个逻辑推理问题:




