最新AI大模型咨询与技术解读——来自DataLearnerAI

数学推理能力超过ChatGPT-3.5：微软与中科院研究人员合作最新的开源大模型WizardMath发布！开源模型第一，免费商用授权！

WizardLM是微软联合北京大学开源的一个大语言模型。此前，发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中，前者是针对指令优化的大模型，而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列，主要是针对数学推理优化的大模型。在GSM8K的评测上，WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型，得分十分逆天！

2023/08/13 23:45:44 阅读 1405

WizardLM/WizardMath/数学推理大模型

Embedding开源模型重磅玩家：北京智源人工智能研究院最新Embedding模型发布！登顶MTEB，免费商用授权！

Embedding模型作为大语言模型（Large Language Model，LLM）的一个重要辅助，是很多LLM应用必不可少的部分。但是，现实中开源的Emebdding模型却很少。最近，北京智源人工智能研究院（BAAI）开源了BGE系列Embedding模型，不仅在MTEB排行榜中登顶冠军，还是免费商用授权的大模型，支持中文，应该可以满足相当多人的需要。

2023/08/08 20:26:46 阅读 3645

BGE/Embedding/Embedding大模型

超越所有开源编程大模型和GPT-3.5！华为发布150亿参数规模的编程大模型PanGu-Coder2

华为盘古大模型一直是国内大模型领域比较早的先行者，不过由于该模型并不针对个人开放，因此很少有人可以体验到该模型的效果。但是，盘古大模型一直在不断发展。2023年7月27日，华为发布最新的论文，展示了新一代盘古大模型的编程能力。该模型名字为PanGu-Coder2，论文的数据显示该模型目前超越所有开源编程大模型的效果，也超过GPT-3.5，接近GPT-4。

2023/07/29 00:02:54 阅读 1926

盘古大模型/编程大模型

CerebrasAI开源可以在iPhone上运行的30亿参数大模型：BTLM-3B-8K，免费可商用，支持最高8K上下文输入，仅需3GB显存

大模型的进展非常快，但是如何在移动端部署和使用依然是一个非常大的挑战。今天，CerebrasAI联合Opentensor一起开源了一个30亿参数规模的模型BTLM-3B-8K，官方宣称其性能接近70亿参数规模的大模型，但是运行的资源却很低，最低量化版本只需要不到4GB显存即可。

2023/07/25 17:10:34 阅读 983

BTLM-3B-8K/大模型压缩/移动大模型

智谱AI发布第二代CodeGeeX编程大模型：CodeGeeX2-6B，最低6GB显存可运行，基于ChatGLM2-6B微调

编程大模型是大语言模型的一个非常重要的应用。刚刚，清华大学系创业企业智谱AI开源了最新的一个编程大模型，CodeGeeX2-6B。这是基于ChatGLM2-6B微调的针对编程领域的大模型。

2023/07/25 15:26:41 阅读 2651

ChatGLM2-6B/CodeGeeX/CodeGeeX2-6B/编程大模型

智源人工智能研究院开源可商用的编程大模型：悟道·天鹰AquilaCode系列，超过清华大学CodeGeeX

Aquila-7B是北京人工智能研究院（BAAI）开源的一个可商用大语言模型。因为其良好的推理效果和友好的商用协议，使用的人较多。今天，BAAI再次开源2个基于Aquila-7B微调的编程大模型：AquilaCode-7B-multi和AquilaCode-7B-py。

2023/07/24 12:59:32 阅读 1279

Aquila/编程大模型

GPT4All：一个可以直接在本地运行各大商业友好的开源大模型解决方案

NomicAI推出了GPT4All这款软件，它是一款可以在本地运行各种开源大语言模型的软件。GPT4All将大型语言模型的强大能力带到普通用户的电脑上，无需联网，无需昂贵的硬件，只需几个简单的步骤，你就可以使用当前业界最强大的开源模型。

2023/07/15 22:53:29 阅读 7394

GPT4All/大模型软件/本地大模型

如何基于PyTorch来优化大模型训练的内存（显存）使用：8种方法总结

大模型虽然效果很好，但是对资源的消耗却非常高。更麻烦的其实不是训练过程慢，而是峰值内存（显存）的消耗直接决定了我们的硬件是否可以来针对大模型进行训练。最近LightningAI官方总结了使用Fabric降低大模型训练内存的方法。但是，它也适用于其它场景。因此，本文总结一下相关的方法。

2023/07/04 22:24:11 阅读 3804

大模型微调/模型压缩

突破英特尔CPU+英伟达GPU的大模型训练硬件组合：苹果与AMD都有新进展！

大语言模型的训练和微调的硬件资源要求很高。现行主流的大模型训练硬件一般采用英特尔的CPU+英伟达的GPU进行。主要原因在于二者提供了符合大模型训练所需的计算架构和底层的加速库。但是，最近苹果M2 Ultra和AMD的显卡进展让我们看到了一些新的希望。

2023/07/02 23:08:46 阅读 2192

大模型训练/生态/英伟达/英特尔

支持超长上下文输入的大语言模型评测和总结——ChatGLM2-6B表现惨烈，最强的依然是商业模型GPT-3.5与Claude-1.3

目前开源领域已经有一些模型宣称支持了8K甚至是更长的上下文。那么这些模型在长上下文的支持上表现到底如何？最近LM-SYS发布了LongChat-7B和LangChat-13B模型，最高支持16K的上下文输入。为了评估这两个模型在长上下文的表现，他们对很多模型在长上下文的表现做了评测，让我们看看这些模型的表现到底怎么样。

2023/07/02 09:40:48 阅读 3724

LLM/long-context/开源大模型/超长上下文

国产大模型进展神速！清华大学NLP小组发布顶尖多模态大模型：VisCPM，支持文本生成图片与多模态对话，图片理解能力优秀！

大模型的发展正在从单纯的语言模型向多模态大模型快速发展。尽管GPT-4号称也是一个多模态大模型，但是受限于GPU资源，GPT-4没有开放任何多模态的能力（参考：https://www.datalearner.com/blog/1051685866651273 ）。目前大家所能接触到的多模态大模型很少。今天，清华大学NLP小组带来了新的选择，发布了VisCPM系列多模态大模型。VisCPM系列包含2类多模态大模型，分别针对多模态对话和文本生成图片进行优化。

2023/06/30 21:36:23 阅读 2532

CPM-Bee/VisCPM/多模态大模型

文本理解与代码补全都很强！Salesforce开源支持8K上下文输入的大语言模型XGen-7B！

Salesforce是全球最大的CRM企业，但是在开源大模型领域，它也是一个不可忽视的力量。今天，Salesforce宣布开源全新的XGen-7B模型，是一个同时在文本理解和代码补全任务上都表现很好的模型，在MMLU任务和代码生成任务上都表现十分优秀。最重要的是，它的2个基座模型XGen-7B-4K-Base和XGen-7B-8K-Base都是完全开源可商用的大模型。

2023/06/30 00:22:23 阅读 1176

LLM/XGen/大语言模型/编程大模型

强烈推荐！清华大学100亿参数规模的免费商用授权大模型：CPM-Bee 10B

最近几个月，国产大语言模型进步十分迅速。不过，大多数企业发布的大模型均为商业产品，少数开源的LLM则有较高的商业授权费用或者商用限制。对于希望使用LLM能力的中小企业以及个人来说都不是很合适。本次给大家介绍的是目前国产开源领域里面一个十分优秀且具有潜力的大语言模型CPM-Bee 10B。该模型来自清华大学NLP实验室，参数规模100亿，最重要的是对个人和企业用户均提供免费商用授权，十分友好！

2023/06/28 23:33:08 阅读 2817

CPM-Bee/国产大模型/开源大模型

语音模型的GPT时刻：MetaAI发布的基础语音大模型Voicebox简介及其模型说明

今天，MetaAI发布了一个新的语音处理领域的生成式大模型Voicebox，可以像GPT那样用生成式的方式处理语音（speech）数据的相关任务，包括语音编辑、跨风格语音生成等语音数据处理相关的很多任务。这可能就是语音处理领域的GPT时刻！

2023/06/17 21:27:04 阅读 1888

生成式模型/语音模型/音频大模型

国产开源大模型再添重要玩家：BAAI发布开源可商用大模型Aquila

BAAI全称北京智源人工智能研究院（Beijing Academy of Artificial Intelligence），是国内非常重要的一个人工智能研究机构。此前发布了悟道系列数据集和大模型。在最近，他们开源了一个全新的国产开源大语言模型Aquila系列模型。该模型基于大量的中英文数据集训练，是一个完全开源可商用国产大语言模型。

2023/06/13 08:25:14 阅读 1854

Aquila/国产大模型/大模型

SlimPajama：CerebrasAI开源最新可商用的高质量大语言模型训练数据集，含6270亿个tokens！

大语言模型训练的一个重要前提就是高质量超大规模的数据集。为了促进开源大模型生态的发展，Cerebras新发布了一个超大规模的文本数据集SlimPajama，SlimPajama可以作为大语言模型的训练数据集，具有很高的质量。除了SlimPajama数据集外，Cerebras此次还开源了处理原始数据的脚本，包括去重和预处理部分。官方认为，这是目前第一个开源处理万亿规模数据集的清理和MinHashLSH去重工具。

2023/06/11 23:16:02 阅读 3177

大模型训练/大规模数据集

仅需一行代码即可微调大语言模型——LightningAI发布全新Python库Lit-Parrot

大模型微调依然是针对大量私有数据或者特定领域不可缺少的方法。就在前不久，LightningAI发布了一个轻量级大模型微调库Lit-Parrot，仅需一行代码即可微调当前开源大模型。

2023/06/08 23:22:01 阅读 1314

Fine-tuning/Lit-Parrot/大模型微调

国产开源中文大语言模型再添重磅玩家：清华大学NLP实验室发布开源可商用大语言模型CPM-Bee

5月27日，OpenBMB发布了一个最高有100亿参数规模的开源大语言模型CPM-BEE，OpenBMB是清华大学NLP实验室联合智源研究院成立的一个开源组织。该模型针对高质量中文数据集做了训练优化，支持中英文。根据官方的测试结果，其英文测试水平约等于LLaMA-13B，中文评测结果优秀。

2023/05/31 23:07:40 阅读 2959

CPM-Bee/中文大模型/国产大模型/大语言模型

华盛顿大学提出QLoRA及开源预训练模型Guanaco：将650亿参数规模的大模型微调的显存需求从780G降低到48G！单张显卡可用！

前段时间，康奈尔大学开源了LLMTune框架（https://www.datalearner.com/blog/1051684078977779 ），这是一个可以在48G显存的显卡上微调650亿参数的LLaMA模型的框架，不过它们采用的方法是将650亿参数的LLaMA模型进行4bit量化之后进行微调的。今天华盛顿大学的NLP小组则提出了QLoRA方法，依然是支持在48G显存的显卡上微调650亿参数的LLaMA模型，不过根据论文的描述，基于QLoRA方法微调的模型结果性能基本没有损失！

2023/05/25 23:52:47 阅读 2420

fine-tuning/LoRA/QLoRA/大模型微调/模型压缩

抛弃RLHF？MetaAI发布最新大语言模型训练方法：LIMA——仅使用Prompts-Response来微调大模型

MetaAI最近公布了一个新的大语言模型预训练方法（LIMA: Less Is More for Alignment）。它最大的特点是不使用ChatGPT那样的（Reinforcement Learning from Human Feedback，RLHF）方法进行对齐训练。而是利用1000个精选的prompts与response来对模型进行微调，但却表现出了极其强大的性能。能够从训练数据中的少数几个示例中学习遵循特定的响应格式，包括从规划旅行行程到推测关于交替历史的复杂查询。

2023/05/22 23:21:05 阅读 1378

LIMA/LLaMA/大模型微调

目前业界支持中文大语言模型开源和商用许可协议总结

目前，业界开源的大语言模型越来越多，性能也越来越强大。然而，这些开源模型大多数由国外的机构贡献，对于英文的支持没有任何问题。但是，对于中文的支持则是有好有坏。本文将基于主流的开源大模型进行分析，介绍当前支持中文的开源大模型，并对其使用方式和主要能力进行总结。

2023/05/21 22:45:14 阅读 7811

中文大模型/大模型

康奈尔大学发布可以在一张消费级显卡上微调650亿参数规模大模型的框架：LLMTune

Cornell Tech开源了LLMTune，这是一个可以在消费级显卡上微调大模型的框架，经过测试，可以在48G显存的显卡上微调4bit的650亿参数的LLaMA模型！

2023/05/14 23:42:57 阅读 2648

PEFT/大模型微调

通用人工智能（AGI）再往前一步：MetaAI发布新的能听会说的多模态AI大模型ImageBind

当前，大语言模型主要是基于生成式自然语言处理模型为主。少部分多模态模型可以处理文本、图片和视频信息。但是，AI模型目前还无法像人类一样接受周围的多模态信息进行处理，如图像、文本、声音等。但是，昨天MetaAI发布了一个可以听说读写的AI大模型ImageBind，它可以同时处理6种数据，并输出。本文将简单介绍一下这个模型。

2023/05/10 13:32:14 阅读 1046

AGI/ImageBind/多模态大模型

当前业界最优秀的8个编程大模型简介：从最早的DeepMind的AlphaCode到最新的StarCoder全解析~

大语言模型中一个非常重要的内容就是关于代码的支持。通常，基于代码数据训练的模型不仅在代码补全方面有着更好地支持，也可能是大语言模型逻辑能力的部分来源。本文将总结目前业界专门针对代码补全（生成）方面而做的8个大模型。

2023/05/07 23:47:24 阅读 6274

编程/编程大模型

最新博客