最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

强烈推荐！清华大学100亿参数规模的免费商用授权大模型：CPM-Bee 10B

最近几个月，国产大语言模型进步十分迅速。不过，大多数企业发布的大模型均为商业产品，少数开源的LLM则有较高的商业授权费用或者商用限制。对于希望使用LLM能力的中小企业以及个人来说都不是很合适。本次给大家介绍的是目前国产开源领域里面一个十分优秀且具有潜力的大语言模型CPM-Bee 10B。该模型来自清华大学NLP实验室，参数规模100亿，最重要的是对个人和企业用户均提供免费商用授权，十分友好！

2023/06/28 23:33:08

2759

#CPM-Bee##国产大模型##开源大模型#

重磅！第二代ChatGLM发布！清华大学THUDM发布ChatGLM2-6B：更快更准，更低成本更长输入！

ChatGLM-6B是国产开源大模型领域最强大的的大语言模型。因其优秀的效果和较低的资源占用在国内引起了很多的关注。2023年6月25日，清华大学KEG和数据挖掘小组（THUDM）发布了第二代ChatGLM2-6B。

2023/06/25 22:45:14

6324

#ChatGLM-6B##ChatGLM2-6B#

语音模型的GPT时刻：MetaAI发布的基础语音大模型Voicebox简介及其模型说明

今天，MetaAI发布了一个新的语音处理领域的生成式大模型Voicebox，可以像GPT那样用生成式的方式处理语音（speech）数据的相关任务，包括语音编辑、跨风格语音生成等语音数据处理相关的很多任务。这可能就是语音处理领域的GPT时刻！

2023/06/17 21:27:04

1851

#生成式模型##语音模型##音频大模型#

一张图总结大语言模型的技术分类、现状和开源情况

4月26日，亚马逊联合其它高校科研人员发表了一篇关于如何使用ChatGPT完成下游论文。里面使用了一个非常直观明了的大语言模型进化图总结了目前当前大语言模型的技术架构分类和开源现状，十分受欢迎。因此，4月30日，作者再次更新这幅图，增加了更多的大语言模型。

2023/06/13 09:41:41

8514

#LLM##大语言模型#

国产开源大模型再添重要玩家：BAAI发布开源可商用大模型Aquila

BAAI全称北京智源人工智能研究院（Beijing Academy of Artificial Intelligence），是国内非常重要的一个人工智能研究机构。此前发布了悟道系列数据集和大模型。在最近，他们开源了一个全新的国产开源大语言模型Aquila系列模型。该模型基于大量的中英文数据集训练，是一个完全开源可商用国产大语言模型。

2023/06/13 08:25:14

1818

#Aquila##国产大模型##大模型#

SlimPajama：CerebrasAI开源最新可商用的高质量大语言模型训练数据集，含6270亿个tokens！

大语言模型训练的一个重要前提就是高质量超大规模的数据集。为了促进开源大模型生态的发展，Cerebras新发布了一个超大规模的文本数据集SlimPajama，SlimPajama可以作为大语言模型的训练数据集，具有很高的质量。除了SlimPajama数据集外，Cerebras此次还开源了处理原始数据的脚本，包括去重和预处理部分。官方认为，这是目前第一个开源处理万亿规模数据集的清理和MinHashLSH去重工具。

2023/06/11 23:16:02

3074

#大模型训练##大规模数据集#

仅需一行代码即可微调大语言模型——LightningAI发布全新Python库Lit-Parrot

大模型微调依然是针对大量私有数据或者特定领域不可缺少的方法。就在前不久，LightningAI发布了一个轻量级大模型微调库Lit-Parrot，仅需一行代码即可微调当前开源大模型。

2023/06/08 23:22:01

1246

#Fine-tuning##Lit-Parrot##大模型微调#

截至目前最强的70亿参数大语言模型：开源可商用的RedPajam 7B完全版发布！

RedPajama模型是TOGETHER发布的一个开源可商用的大模型。2023年6月6日，TOGETHER在官方宣布该模型完成训练，经过测试，该模型目前超过所有7B规模的大模型，比LLaMA-7B和Falcon-7B的效果还要好！

2023/06/07 23:15:35

1048

#RedPajama#

OpenAI CEO详解今明两年GPT发展计划：10万美元部署私有ChatGPT、最高支持100万tokens、建立微调模型应用市场

前段时间，OpenAI的CEO Sam Altman与二十多位开发者一起聊了很多关于OpenAI的API和产品的规划问题。Sam Altman透露了一些非常重要的OpenAI的发展方向，包括GPT产品功能的未来规划等。目前这份原始博客内容已经应OpenAI的要求被删除，这里我们简单总结一下这些内容。

2023/06/04 16:19:04

2376

#GPT-4##OpenAI#

吴恩达宣布和OpenAI、LangChain、Lamini三家公司一起推出三门全新AI短视频课程：ChatGPT API、LangChain和Diffusion Models

今天，吴恩达在推特上宣布和OpenAI、LangChain以及Lamini三家公司共同推出了3门短视频课程，分别是《使用ChatGPT API构建系统》、《基于LangChain的大语言模型应用与开发》和《Diffusion模型是如何工作的》。三门课程都是1个小时的短视频课程，而且配有详细的Jupyter Notebook使用方法。

2023/06/01 23:27:32

1680

#AI教程##吴恩达##生成式AI短课程#

来自Microsoft Build 2023：大语言模型是如何被训练出来的以及语言模型如何变成ChatGPT——State of GPT详解

在今年的Microsoft Build 2023大会上，来自OpenAI的研究员Andrej Karpathy在5月24日的一场汇报中用了40分钟讲解了ChatGPT是如何被训练的，其中包含了训练一个能支持与用户对话的GPT的全流程以及涉及到的一些技术。信息含量丰富，本文根据这份演讲总结。

2023/06/01 10:10:49

2435

#LLM##RLHF#

国产开源中文大语言模型再添重磅玩家：清华大学NLP实验室发布开源可商用大语言模型CPM-Bee

5月27日，OpenBMB发布了一个最高有100亿参数规模的开源大语言模型CPM-BEE，OpenBMB是清华大学NLP实验室联合智源研究院成立的一个开源组织。该模型针对高质量中文数据集做了训练优化，支持中英文。根据官方的测试结果，其英文测试水平约等于LLaMA-13B，中文评测结果优秀。

2023/05/31 23:07:40

2908

#CPM-Bee##中文大模型##国产大模型##大语言模型#

tokens危机到来该怎么办？新加坡国立大学最新研究：为什么当前的大语言模型的训练都只有1次epoch？多次epochs的大模型训练是否有必要？

epoch是一个重要的深度学习概念，它指的是模型训练过程中完成的一次全体训练样本的全部训练迭代。然而，在LLM时代，很多模型的epoch只有1次或者几次。这似乎与我们之前理解的模型训练充分有不一致。那么，为什么这些大语言模型的epoch次数都很少。如果我们自己训练大语言模型，那么epoch次数设置为1是否足够，我们是否需要更多的训练？

2023/05/31 00:33:36

3204

#tokens##大语言模型##正则化##训练技术#

开源界最新力作！230万篇arXiv的论文标题和摘要的所有embeddings向量数据集免费开放！

今天，一位年仅20岁的小哥willdepue 开源了230万arXiv论文的标题和摘要的embedding向量数据集，完全开源。该数据集包含截止2023年5月4日的所有arXiv上的论文标题和摘要的embedding结果，使用的是开源的Instructor XL抽取。未来将开放更多其它相关数据的embedding结果

2023/05/29 22:04:26

1308

#embedding##开源##论文数据#

Falcon-40B：截止目前最强大的开源大语言模型，超越MetaAI的LLaMA-65B的开源大语言模型

昨天，HuggingFace的大语言模型排行榜上突然出现了一个评分超过LLaMA-65B的大语言模型：Falcon-40B，引起了广泛的关注。本文将简要的介绍一下这个模型。截止2023年5月27日，Falcon-40B模型（400亿参数）在推理、理解等4项Open LLM Leaderloard任务上评价得分第一，超过了之前最强大的LLaMA-65B模型。

2023/05/27 22:11:32

2677

#Falcon-40B##LLM##大语言模型#