标签为 #大模型聊天速度# 的博客

聚焦人工智能、大模型与深度学习的精选内容，涵盖技术解析、行业洞察和实践经验，帮助你快速掌握值得关注的AI资讯。

聊天大模型的输出速度应该是多少？单张显卡最多可以支持多少个人同时聊天？来自贾扬清最新的讨论

大模型应用中一个非常重要的问题就是大模型的响应速度。尤其是作为聊天应用来说，在用户输入之后，大模型可以在多短的时间内给出回应对于用户体验来说影响巨大。这里有2个问题经常会被大家所关注，一个是大模型每秒输出多少个tokens就可以满足用户的日常聊天使用，另一个问题是单张显卡最多可以支撑多少个用户的聊天需求。在前几天的vllm meetup上，贾扬清给出了一些讨论，他认为我们目前可能高估了大模型的聊天应用成本。

2023/10/10 23:35:25 阅读 2031

大模型性能/大模型聊天速度

最新博客

聊天大模型的输出速度应该是多少？单张显卡最多可以支持多少个人同时聊天？来自贾扬清最新的讨论