最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

使用LangChain做大模型开发的一些问题：来自Hacker News的激烈讨论~

LangChain是当前大模型应用开发领域里面最火热的框架。由于其提供了丰富的数据访问接口、各种大模型的交互接口以及很多构造大模型应用所需要的方法与实践工具，受到了很多人的关注。然而，今天Hacker News上的一位开发者直接提出LangChain是一个无用的框架，引起了很多人的共鸣。很多人都表示，在实际开发中，LangChain有很多问题，可能并不适合用来做大模型应用开发。

2023/07/09 23:15:29

1907

LangChain/LLM应用开发

吴恩达AI系列短课再添精品课程：如何基于LangChain使用LLM构建私有数据的问答系统和聊天机器人

吴恩达的DeepLearningAI在今天和LangChain的创始人一起合作发布了一个最新的基于LangChain使用LLM构建私有数据的问答系统和聊天机器人的课程（课程名：《LangChain: Chat with Your Data》）。LangChain是大语言模型应用开发领域目前最火的开源库。集成十分多的优秀特性，可以帮助我们非常简单构建LLM的应用。

2023/07/06 11:33:10

1335

LangChain/LLM/吴恩达/教程

支持超长上下文输入的大语言模型评测和总结——ChatGLM2-6B表现惨烈，最强的依然是商业模型GPT-3.5与Claude-1.3

目前开源领域已经有一些模型宣称支持了8K甚至是更长的上下文。那么这些模型在长上下文的支持上表现到底如何？最近LM-SYS发布了LongChat-7B和LangChat-13B模型，最高支持16K的上下文输入。为了评估这两个模型在长上下文的表现，他们对很多模型在长上下文的表现做了评测，让我们看看这些模型的表现到底怎么样。

2023/07/02 09:40:48

3530

LLM/long-context/开源大模型/超长上下文

国产大模型进展神速！清华大学NLP小组发布顶尖多模态大模型：VisCPM，支持文本生成图片与多模态对话，图片理解能力优秀！

大模型的发展正在从单纯的语言模型向多模态大模型快速发展。尽管GPT-4号称也是一个多模态大模型，但是受限于GPU资源，GPT-4没有开放任何多模态的能力（参考：https://www.datalearner.com/blog/1051685866651273 ）。目前大家所能接触到的多模态大模型很少。今天，清华大学NLP小组带来了新的选择，发布了VisCPM系列多模态大模型。VisCPM系列包含2类多模态大模型，分别针对多模态对话和文本生成图片进行优化。

2023/06/30 21:36:23

2428

CPM-Bee/VisCPM/多模态大模型

强烈推荐！清华大学100亿参数规模的免费商用授权大模型：CPM-Bee 10B

最近几个月，国产大语言模型进步十分迅速。不过，大多数企业发布的大模型均为商业产品，少数开源的LLM则有较高的商业授权费用或者商用限制。对于希望使用LLM能力的中小企业以及个人来说都不是很合适。本次给大家介绍的是目前国产开源领域里面一个十分优秀且具有潜力的大语言模型CPM-Bee 10B。该模型来自清华大学NLP实验室，参数规模100亿，最重要的是对个人和企业用户均提供免费商用授权，十分友好！

2023/06/28 23:33:08

2691

CPM-Bee/国产大模型/开源大模型

重磅！第二代ChatGLM发布！清华大学THUDM发布ChatGLM2-6B：更快更准，更低成本更长输入！

ChatGLM-6B是国产开源大模型领域最强大的的大语言模型。因其优秀的效果和较低的资源占用在国内引起了很多的关注。2023年6月25日，清华大学KEG和数据挖掘小组（THUDM）发布了第二代ChatGLM2-6B。

2023/06/25 22:45:14

6186

ChatGLM-6B/ChatGLM2-6B

国产开源中文大语言模型再添重磅玩家：清华大学NLP实验室发布开源可商用大语言模型CPM-Bee

5月27日，OpenBMB发布了一个最高有100亿参数规模的开源大语言模型CPM-BEE，OpenBMB是清华大学NLP实验室联合智源研究院成立的一个开源组织。该模型针对高质量中文数据集做了训练优化，支持中英文。根据官方的测试结果，其英文测试水平约等于LLaMA-13B，中文评测结果优秀。

2023/05/31 23:07:40

2837

CPM-Bee/中文大模型/国产大模型/大语言模型

Falcon-40B：截止目前最强大的开源大语言模型，超越MetaAI的LLaMA-65B的开源大语言模型

昨天，HuggingFace的大语言模型排行榜上突然出现了一个评分超过LLaMA-65B的大语言模型：Falcon-40B，引起了广泛的关注。本文将简要的介绍一下这个模型。截止2023年5月27日，Falcon-40B模型（400亿参数）在推理、理解等4项Open LLM Leaderloard任务上评价得分第一，超过了之前最强大的LLaMA-65B模型。

2023/05/27 22:11:32

2568

Falcon-40B/LLM/大语言模型

让大语言模型为文本处理提提速：Scikit-learn与LLM的合体Scikit-LLM开源项目发布

虽然LLM在很多任务上很好用，但是实际应用中我们常见的文本分类、文本标注等工作目前却依然缺少一个可以利用LLM能力的好方法。LLM的强大并没有在工程落地上比肩传统的机器学习处理框架。上周，一个叫Scikit-LLM新的开源项目发布，将传统优秀的Scikit-learn框架与LLM结合，带来了LLM落地的新方法。

2023/05/24 23:19:40

689

LLM/Scikit-Learn/Scikit-LLM

手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

ChatGLM-6B是清华大学知识工程和数据挖掘小组发布的一个类似ChatGPT的开源对话机器人，由于该模型是经过约1T标识符的中英文训练，且大部分都是中文，因此十分适合国内使用。本文将详细记录如何在Windows环境下基于GPU和CPU两种方式部署使用ChatGLM-6B，并说明如何规避其中的问题。

2023/05/21 17:14:02

41229

ChatGLM/VisualGLM/部署

ChatGLM-6B升级！清华大学开源VisualGLM-6B：一个可以在本地运行的读懂图片的语言模型！

今天，THUDM开源了ChatGLM-6B的多模态升级版模型VisualGLM-6B。这是一个多模态对话语言模型，支持图像、中文和英文。VisualGLM-6B的特别之处在于它能够整合视觉和语言信息。可以用来理解图片，解析图片内容。

2023/05/19 00:27:34

4639

ChatGLM-6B/VisualGLM-6B/图片理解/多模态模型

HuggingFace宣布在transformers库中引入首个RNN模型：RWKV，一个结合了RNN与Transformer双重优点的模型

RWKV是一个结合了RNN与Transformer双重优点的模型架构。由香港大学物理系毕业的彭博首次提出。简单来说，RWKV是一个RNN架构的模型，但是可以像transformer一样高效训练。今天，HuggingFace官方宣布在transformers库中首次引入RNN这样的模型，足见RWKV模型的价值。

2023/05/15 23:11:38

2303

HuggingFace/RWKV/transformers

MBA与数据分析师危矣？最新内测版本的ChatGPT已经可以针对excel自动做数据分析和异常分析了！

2023年3月23日OpenAI官方宣布ChatGPT即将支持Plugin模式。这是一种用插件的方式来解锁ChatGPT的能力，包括让ChatGPT可以浏览网页、从本地商店订购食材等。今天，沃顿商学院教授Ethan Mollick在推特上公布了自己收到了ChatGPT内测邀请，并使用它的代码解释器（Python Interpreter)插件让ChatGPT针对一份excel数据完成了非常专业的数据分析的工作。

2023/04/29 23:53:59

1258

ChatGPT/ChatGPT插件

ChatGPT的强有力挑战者HuggingChat发布——速度很快，不过水平略差~~

HuggingFace是近几年最火热的AI社区，在短短几年时间里已经称为AI模型的GitHub。目前，HuggingFace上已经托管了18万多的模型、3万多的数据集以及4万多的模型demo（spaces）。今天，HuggingFace发布了HuggingChat，声称要做最好的开源AI Chat项目，并且对所有人开放。

2023/04/26 22:31:25

1482

HuggingChat/开源大模型

能否用85000美元从头开始训练一个打败ChatGPT的模型，并在浏览器中运行？

尽管当前ChatGPT和GPT-4非常火热，但是高昂的训练成本和部署成本其实导致大部分个人、学术工作者以及中小企业难以去开发自己的模型。使得使用OpenAI的官方服务几乎成为了一种无可替代的选择。本文介绍的是一种低成本开发高效ChatGPT的思路，我认为它适合一些科研机构去做，也适合中小企业创新的方式。这里提到的思路涉及了一些最近发表的成果和业界的一些实践产出，大家可以参考！

2023/04/24 22:47:18

1297

Alpaca/ChatGPT/LLaMA/大模型/大语言模型/生成模型