人工智能与大模型最新资讯与技术博客

开源界最新力作！230万篇arXiv的论文标题和摘要的所有embeddings向量数据集免费开放！

今天，一位年仅20岁的小哥willdepue 开源了230万arXiv论文的标题和摘要的embedding向量数据集，完全开源。该数据集包含截止2023年5月4日的所有arXiv上的论文标题和摘要的embedding结果，使用的是开源的Instructor XL抽取。未来将开放更多其它相关数据的embedding结果

2023/05/29 22:04:26 阅读 1373

embedding/开源/论文数据

Falcon-40B：截止目前最强大的开源大语言模型，超越MetaAI的LLaMA-65B的开源大语言模型

昨天，HuggingFace的大语言模型排行榜上突然出现了一个评分超过LLaMA-65B的大语言模型：Falcon-40B，引起了广泛的关注。本文将简要的介绍一下这个模型。截止2023年5月27日，Falcon-40B模型（400亿参数）在推理、理解等4项Open LLM Leaderloard任务上评价得分第一，超过了之前最强大的LLaMA-65B模型。

2023/05/27 22:11:32 阅读 2748

Falcon-40B/LLM/大语言模型

华盛顿大学提出QLoRA及开源预训练模型Guanaco：将650亿参数规模的大模型微调的显存需求从780G降低到48G！单张显卡可用！

前段时间，康奈尔大学开源了LLMTune框架（https://www.datalearner.com/blog/1051684078977779 ），这是一个可以在48G显存的显卡上微调650亿参数的LLaMA模型的框架，不过它们采用的方法是将650亿参数的LLaMA模型进行4bit量化之后进行微调的。今天华盛顿大学的NLP小组则提出了QLoRA方法，依然是支持在48G显存的显卡上微调650亿参数的LLaMA模型，不过根据论文的描述，基于QLoRA方法微调的模型结果性能基本没有损失！

2023/05/25 23:52:47 阅读 2420

fine-tuning/LoRA/QLoRA/大模型微调/模型压缩

让大语言模型为文本处理提提速：Scikit-learn与LLM的合体Scikit-LLM开源项目发布

虽然LLM在很多任务上很好用，但是实际应用中我们常见的文本分类、文本标注等工作目前却依然缺少一个可以利用LLM能力的好方法。LLM的强大并没有在工程落地上比肩传统的机器学习处理框架。上周，一个叫Scikit-LLM新的开源项目发布，将传统优秀的Scikit-learn框架与LLM结合，带来了LLM落地的新方法。

2023/05/24 23:19:40 阅读 771

LLM/Scikit-Learn/Scikit-LLM

MetaAI发布语音识别错误率是OpenAI的Whisper模型的一半且支持1107种语言的ASR模型：MMS

今天，Meta的首席AI科学家Yann LeCun在推特上宣布了MetaAI的最新研究成果：MMS，一个支持1107种语言的自动语音识别模型和语音合成模型，该模型自动语音识别的单词错误率只有OpenAI开源的Whisper的一半！但是支持的语言却有1107种，是Whisper的11倍！代码与预训练结果已开源，不过不可以商用哦~

2023/05/24 00:00:09 阅读 1953

ASR/MetaAI/MMS/TTS/语言识别

抛弃RLHF？MetaAI发布最新大语言模型训练方法：LIMA——仅使用Prompts-Response来微调大模型

MetaAI最近公布了一个新的大语言模型预训练方法（LIMA: Less Is More for Alignment）。它最大的特点是不使用ChatGPT那样的（Reinforcement Learning from Human Feedback，RLHF）方法进行对齐训练。而是利用1000个精选的prompts与response来对模型进行微调，但却表现出了极其强大的性能。能够从训练数据中的少数几个示例中学习遵循特定的响应格式，包括从规划旅行行程到推测关于交替历史的复杂查询。

2023/05/22 23:21:05 阅读 1378

LIMA/LLaMA/大模型微调

目前业界支持中文大语言模型开源和商用许可协议总结

目前，业界开源的大语言模型越来越多，性能也越来越强大。然而，这些开源模型大多数由国外的机构贡献，对于英文的支持没有任何问题。但是，对于中文的支持则是有好有坏。本文将基于主流的开源大模型进行分析，介绍当前支持中文的开源大模型，并对其使用方式和主要能力进行总结。

2023/05/21 22:45:14 阅读 7811

中文大模型/大模型

手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

ChatGLM-6B是清华大学知识工程和数据挖掘小组发布的一个类似ChatGPT的开源对话机器人，由于该模型是经过约1T标识符的中英文训练，且大部分都是中文，因此十分适合国内使用。本文将详细记录如何在Windows环境下基于GPU和CPU两种方式部署使用ChatGLM-6B，并说明如何规避其中的问题。

2023/05/21 17:14:02 阅读 41643

ChatGLM/VisualGLM/部署

个人网站申请免费ssl证书最靠谱的办法

如今，不支持https的网站基本都无法访问，https网站需要在服务端保存ssl证书才可以建立。这个原理本文不多说。目前，各大云服务厂商也提供ssl证书的发放和管理，但都是收费的。对于个人网站来说，基于第三方的服务申请免费证书其实是合适的。但是，国内申请证书并不好用。本文主要记录一个最简单的免费证书申请安装方法。

2023/05/21 15:08:40 阅读 1152

ssl证书

ChatGLM-6B升级！清华大学开源VisualGLM-6B：一个可以在本地运行的读懂图片的语言模型！

今天，THUDM开源了ChatGLM-6B的多模态升级版模型VisualGLM-6B。这是一个多模态对话语言模型，支持图像、中文和英文。VisualGLM-6B的特别之处在于它能够整合视觉和语言信息。可以用来理解图片，解析图片内容。

2023/05/19 00:27:34 阅读 4779

ChatGLM-6B/VisualGLM-6B/图片理解/多模态模型

在消费级显卡上微调OpenAI开源的自动语言识别模型Whisper：8GB显存即可针对你自己的数据建立ASR模型

德国的一位博士生开源了一个使用LoRA（Low Rank Adaptation）技术和PEFT（Parameter Efficient Fine Tuning）方法对Whisper模型进行高效微调的项目。可以让大家在消费级显卡（显存8GB）上对OpenAI开源的WhisperV2模型进行微调！

2023/05/17 23:08:02 阅读 3160

ASR/LoRA/PEFT/Whisper/微调

2023年4月业界发布的重要20多个AI模型总结：OpenAssistant、Segment Anything Model、StableLM、AudioGPT等

2022年11月底，OpenAI发布ChatGPT，2023年3月14日，GPT-4发布。这两个模型让全球感受到了AI的力量。而随着MetaAI开源著名的LLaMA，以及斯坦福大学提出Stanford Alpaca之后，业界开始有更多的AI模型发布。本文将对4月份发布的这些重要的模型做一个总结，并就其中部分重要的模型进行进一步介绍。

2023/05/17 20:32:40 阅读 2849

2023年4月份AI模型/AI模型月报

HuggingFace宣布在transformers库中引入首个RNN模型：RWKV，一个结合了RNN与Transformer双重优点的模型

RWKV是一个结合了RNN与Transformer双重优点的模型架构。由香港大学物理系毕业的彭博首次提出。简单来说，RWKV是一个RNN架构的模型，但是可以像transformer一样高效训练。今天，HuggingFace官方宣布在transformers库中首次引入RNN这样的模型，足见RWKV模型的价值。

2023/05/15 23:11:38 阅读 2406

HuggingFace/RWKV/transformers

康奈尔大学发布可以在一张消费级显卡上微调650亿参数规模大模型的框架：LLMTune

Cornell Tech开源了LLMTune，这是一个可以在消费级显卡上微调大模型的框架，经过测试，可以在48G显存的显卡上微调4bit的650亿参数的LLaMA模型！

2023/05/14 23:42:57 阅读 2648

PEFT/大模型微调

预训练模型编程框架Transformers迎来重磅更新：Transformers Agents发布，一个完全的多模态AI Agent！

今天，HuggingFace官方宣布了Transformers最大胆的功能：Transformers Agents。这是继AutoGPT开创性发布之后，AI Agent被业界接受的另一个重要的里程碑。

2023/05/13 00:44:20 阅读 1647

AIAgent/AutoGPT/Transformers

Google反击OpenAI的大杀器！下一代语言模型PaLM 2：增加模型参数并不是提高大模型唯一的路径！

作为PaLM的继任者，PaLM2的发布被谷歌寄予厚望。与OpenAI类似，谷歌官方没有透露很多关于模型的技术细节，虽然发布了一个92页的技术报告，但是，正文内容仅仅27页，引用和作者14页，剩余51页都是展示大量的测试结果。而前面的27页内容中也没有过多的细节描述。尽管如此，这里面依然有几个十分重要的结论供大家参考。

2023/05/11 23:13:53 阅读 1951

Google/PaLM/PaLM2

OpenAI官方最新研究成果：如何用GPT-4这样的语言模型来解释语言模型中的神经元（neurons）

今天，OpenAI官方宣布了一个非常有意思的论文，他们使用GPT-4模型来自动解释GPT-2中每个神经元的含义，试图让语言模型来对语言模型本身的原理进行解释。

2023/05/10 22:30:44 阅读 865

OpenAI/可解释性

通用人工智能（AGI）再往前一步：MetaAI发布新的能听会说的多模态AI大模型ImageBind

当前，大语言模型主要是基于生成式自然语言处理模型为主。少部分多模态模型可以处理文本、图片和视频信息。但是，AI模型目前还无法像人类一样接受周围的多模态信息进行处理，如图像、文本、声音等。但是，昨天MetaAI发布了一个可以听说读写的AI大模型ImageBind，它可以同时处理6种数据，并输出。本文将简单介绍一下这个模型。

2023/05/10 13:32:14 阅读 1046

AGI/ImageBind/多模态大模型

AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要

今天，推特上一位科技博主SullyOmarr分享了一个关于embedding的内容十分火爆。主要介绍为什么embedding对于在目前的AI大模型中很重要。这是一个十分不错的关于embedding知识的介绍。本文将根据SullyOmarr的内容也对embedding做一个简单的介绍，并解释为什么它在大语言模型中十分重要。

2023/05/09 23:46:35 阅读 7983

Embedding/大语言模型/长输入

当前业界最优秀的8个编程大模型简介：从最早的DeepMind的AlphaCode到最新的StarCoder全解析~

大语言模型中一个非常重要的内容就是关于代码的支持。通常，基于代码数据训练的模型不仅在代码补全方面有着更好地支持，也可能是大语言模型逻辑能力的部分来源。本文将总结目前业界专门针对代码补全（生成）方面而做的8个大模型。

2023/05/07 23:47:24 阅读 6274

编程/编程大模型

最新发布！截止目前最强大的最高支持65k输入的开源可商用AI大模型：MPT-7B！

昨天，开源AI模型领域迎来一个重磅玩家，MosaicML发布MPT-7B系列模型，根据官方宣布的测试结果，MPT-7B的水平与MetaAI发布的LLaMA-7B水平差不多，属于当前开源领域最强大的模型。最重要的是，MPT-7B系列中有一个可以支持最多65k上下文输入的开源模型，比GPT-4的32k还高！应该是目前最长的！

2023/05/07 09:20:26 阅读 2549

MPT-7B/开源模型

如何用7.7亿参数的蒸馏模型超过5400亿的大语言模型——Google提出新的模型蒸馏方法：逐步蒸馏（Distilling step-by-step）详解

华盛顿大学研究人员与Google的研究人员一起在5月3日公布了一个新的方法，即逐步蒸馏（Distilling step-by-step），这个方法最大的特点有2个：一是需要更少的数据来做模型的蒸馏（根据论文描述，平均只需要之前方法的一半数据，最多只需要15%的数据就可以达到类似的效果）；而是可以获得更小规模的模型（最多可以比原来模型规模小2000倍！）

2023/05/05 22:03:05 阅读 2634

模型蒸馏

重磅！来自Google内部AI研究人员的焦虑：We Have No Moat And neither does OpenAI

5月4日，网络流传了一个所谓Google内部人员写的内部信，表达了Google和OpenAI这样的公司可能并不能在AI领域获得胜利的焦虑。里面说明了开源的AI模型发展迅速，不管是Google还是OpenAI都没有很好的护城河。

2023/05/05 07:21:47 阅读 2480

Google/OpenAI/开源模型

可能是过去三十年来编程语言最大的革新：新的面向AI的编程语言Mojo发布~

昨天，前苹果工程师、swift编程语言创建者Chris Lattner创立的ModularAI发布了一个新的编程语言Mojo。根据测试，该语言比Python最高提速35000倍！本文将简单介绍一下这个Mojo编程语言。

2023/05/04 22:23:32 阅读 1238

AI编程/Mojo

最新博客