聊天大模型的输出速度应该是多少?单张显卡最多可以支持多少个人同时聊天?来自贾扬清最新的讨论
大模型应用中一个非常重要的问题就是大模型的响应速度。尤其是作为聊天应用来说,在用户输入之后,大模型可以在多短的时间内给出回应对于用户体验来说影响巨大。这里有2个问题经常会被大家所关注,一个是大模型每秒输出多少个tokens就可以满足用户的日常聊天使用,另一个问题是单张显卡最多可以支撑多少个用户的聊天需求。在前几天的vllm meetup上,贾扬清给出了一些讨论,他认为我们目前可能高估了大模型的聊天应用成本。

适合人类阅读的大模型输出速度
其实大模型的输出速度在不同的场景下要求可能是不一样的。在日常交互的场景中,大模型的输出速度只要满足用户的阅读速度一般就可以。
而成年人的平均阅读速度在每分钟200-300个单词之间,不过不同的人差别很大,下图展示了一些研究结论:

可以看到,根据相关的研究,高中生的阅读速度是每分钟300个单词左右,而成年人在每分钟350个单词左右,约等于每秒5.5个单词左右。这意味着,如果大模型的输出速度在每秒有5-6个单词即可满足日常的阅读。
根据贾扬清的测试,LLaMA2-7B在A10显卡上单次请求下,每秒可以生成40个tokens(约30个单词),完全超出了人类的阅读需求。如果采用并发请求,即使有128个并发,模型每秒依然有10个tokens的输出速度,也是完全满足聊天需求的。


