标签

「推理」相关文章（第2页）

汇总「推理」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#推理

截止目前可能是全球最快的大语言模型推理服务：实机演示Groq公司每秒500个tokens输出的450亿参数的Mixtral 8×7B模型

大模型的推理速度是当前制约大模型应用的一个非常重要的问题。在很多的应用场景中（如复杂的接口调用、很多信息处理）的场景，更快的大模型响应速度通常意味着更好的体验。但是，在实际中我们可用的场景下，大多数大语言模型的推理速度都非常有限。慢的有每秒30个tokens，快的一般也不会超过每秒100个tokens。而最近，美国加州一家企业Groq推出了他们的大模型服务，可以达到每秒接近500个tokens的响应速度，非常震撼。

2024/02/19 18:25:081,697

#Groq #LPU

不同参数规模大语言模型在不同微调方法下所需要的显存总结

大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任务，识别特定的指令等。但是大模型的微调需要的显存较高，而且比较难以估计。与推理不同，微调过程微调方法的选择以及输入序列的长度、批次大小都会影响微调显存的需求。本文根据LLaMA Factory的数据总结一下大模型微调的显存要求。

2023/12/22 22:12:583,429

#大模型微调 #微调显存

TensorRT-LLM：英伟达推出的专为提升大模型推理速度优化的全新框架

随着大型语言模型（LLM）如 GPT-3 和 BERT 在 AI 领域的崛起，如何在实际应用中高效地进行模型推断成为了一个关键问题。为此，英伟达推出了全新的大模型推理提速框架TensorRT-LM，可以将现有的大模型推理速度提升4倍！

2023/09/10 18:41:092,922

#TensorRT-LLM #TensorRT

数学推理能力超过ChatGPT-3.5：微软与中科院研究人员合作最新的开源大模型WizardMath发布！开源模型第一，免费商用授权！

WizardLM是微软联合北京大学开源的一个大语言模型。此前，发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中，前者是针对指令优化的大模型，而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列，主要是针对数学推理优化的大模型。在GSM8K的评测上，WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型，得分十分逆天！

2023/08/13 23:45:441,678

#WizardLM #WizardMath

12倍推理速度提升！Meta AI开源全新的AI推理引擎AITemplate

为了提高AI模型的推理速度，降低在不同GPU硬件部署的成本，Meta AI研究人员在昨天发布了一个全新的AI推理引擎AITemplate（AIT），该引擎是一个Python框架，它在各种广泛使用的人工智能模型（如卷积神经网络、变换器和扩散器）上提供接近硬件原生的Tensor Core（英伟达GPU）和Matrix Core（AMD GPU）性能。

2022/10/04 13:28:272,939

#AITemplate #AI推理速度