标签

「大模型推理」相关文章

汇总「大模型推理」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#大模型推理

OpenAI开始提供大模型（GPT系列模型）的提示缓存（Prompt Caching）：GPT-4o系列模型输入价格下降一半，访问速度提升80%

在大模型的应用中，处理复杂请求往往伴随着较高的延迟和成本，尤其是当请求内容存在大量重复部分时。这种“慢请求”的问题，特别是在长提示和高频交互的场景中，显得尤为突出。为了应对这一挑战，OpenAI 最近推出了 **提示缓存（Prompt Caching）** 功能。这项新技术通过缓存模型处理过的相同前缀部分，避免了重复计算，从而大幅减少了请求的响应时间和相关成本。特别是对于包含静态内容的长提示请求，提示缓存能够显著提高效率，降低运行开销。本文将详细介绍这项功能的工作原理、支持的模型，以及如何通过合理的提示结

2024/12/18 22:06:071,064

#OpenAI #PromptCaching

传闻OpenAI内部大模型推理能力获得进展，Q*项目进化成Strawberry！并且距离发布时间更近了！

尽管各家大模型技术进展神速，但是在复杂任务的推理上，大模型目前依然较弱。在去年底，各方消息透露，OpenAI内部有一个称为Q\*的项目取得了重大的突破，可以大幅提高大模型的推理能力。但是，几个月过去了，这个当时吸引了大量讨论的项目没有任何信息。直到昨天，Reuters披露了Q\*项目的进展，这个项目已经变为Strawberry！并且距离发布时间更近了！

2024/07/14 19:30:10798

#OpenAI #Q*

截止目前可能是全球最快的大语言模型推理服务：实机演示Groq公司每秒500个tokens输出的450亿参数的Mixtral 8×7B模型

大模型的推理速度是当前制约大模型应用的一个非常重要的问题。在很多的应用场景中（如复杂的接口调用、很多信息处理）的场景，更快的大模型响应速度通常意味着更好的体验。但是，在实际中我们可用的场景下，大多数大语言模型的推理速度都非常有限。慢的有每秒30个tokens，快的一般也不会超过每秒100个tokens。而最近，美国加州一家企业Groq推出了他们的大模型服务，可以达到每秒接近500个tokens的响应速度，非常震撼。

2024/02/19 18:25:081,727

#Groq #LPU