Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

微软发布大语言模型与传统编程语言的集成编程框架——Python版本的Semantic Kernel今日发布

目前的LLM有很多限制，有很多问题并不能很好的解决，例如文本输入长度有限、无法记住很早之前的信息等。而这些问题目前也都缺少合适的解决方案。它们所依赖的技术：如任务规划、提示模板、向量化内存等需要的是编程的智慧。Semantic Kernel就是微软在这个背景下推出的一个结合LLM与传统编程技术的编程框架。

2023/04/24 22:36:511,764

#ChatGPT #SemanticKernel

OpenAI官方教程：如何使用基于embeddings检索来解决GPT无法处理长文本和最新数据的问题

这是OpenAI官方的cookebook最新更新的一篇技术博客，里面说明了为什么我们需要使用embeddings-based的搜索技术来完成问答任务。

2023/04/24 22:36:298,548

#ChatGPT #LLM

2023年4月中旬值得关注的几个AI模型：Dollly2、MiniGPT-4、LLaVA、DINOv2

AI模型的发展速度令人惊讶，几乎每天都会有新的模型发布。而2023年4月中旬也有很多新的模型发布，我们挑出几个重点给大家介绍一下。

2023/04/24 22:36:072,713

#开源模型

开源可商用大模型再添重磅玩家——StabilityAI发布开源大语言模型StableLM

今天，Stability宣布开源StableLM计划，这是一个正在开发过程的大语言模型，但是它是开源可商用的模型。本文将对该模型做简单的介绍！

2023/04/24 22:35:451,192

#StabilityAI #StableLM

如何训练你自己的大语言模型？——来自Replit一线工程师的亲身经验

本文是Replit工程师发表的训练自己的大语言模型的过程的经验和步骤总结。Replit是一家IDE提供商，它们训练LLM的主要目的是解决编程过程的问题。Replit在训练自己的大语言模型时候使用了Databricks、Hugging Face和MosaicML等提供的技术栈。这篇文章提供的都是一线的实际经验，适合ML/AI架构师以及算法工程师学习。

2023/04/24 22:35:152,648

#LLM #模型训练

实际案例说明AI时代大语言模型三种微调技术的区别——Prompt-Tuning、Instruction-Tuning和Chain-of-Thought

Prompt-Tuning、Instruction-Tuning和Chain-of-Thought是近几年十分流行的大模型训练技术，本文主要介绍这三种技术及其差别。

2023/04/24 22:34:1117,076

#大模型训练

500+个优质的ChatGPT的Prompts（模板）

随着ChatGPT的火爆，Prompts概念开始被大家所熟知。早期类似如BERT模型的微调都是通过有监督学习的方式进行。但是随着模型越来越大，冻结大部分参数，根据下游任务做微调对模型的影响越来越小。大家开始发现，让下游任务适应预训练模型的训练结果有更好的性能。而ChatGPT的火爆让大家知道，虽然ChatGPT的能力很强，但是需要很好的提问方式才能让它为你所服务。

2023/03/10 23:09:094,366

#ChatGPT #Prompts

GPT-4来了！微软德国CTO透露GPT-4将是多模态模型，并于下周发布！

万众瞩目的GPT-4即将来临！3月9日晚上在德国举办的一个AI会议。微软德国的员工参与了讨论，在介绍微软云的AI能力的时候，微软德国CTO Andreas Braun透露了GPT-4将在下周发布。

2023/03/10 09:10:08824

#ChatGPT #GPT

2022年必读的AI论文——100个AI领域被引最多的论文分析

尽管AI领域在工业界发展迅速，企业研究机构在拼命的开发相关的产品以推动各自业务的发展。但是他们也在科研领域不断贡献大量的AI论文。Zeta Alpha的一篇博客分析了2022年发表的被引用最多的100篇AI论文，给大家提供一个洞察思路。

2023/03/04 23:36:342,229

#AI #论文

2022年被引次数最多的AI论文列表

本表是Zeta Alpha收集的2022年AI领域被引次数最多的论文列表。

2023/03/04 23:17:371,242

#AI #论文

重磅优惠！打1折！OpenAI开放最新的GPT-3.5和ChatGPT模型API商业服务！

自从2019年OpenAI开始商业化以来，OpenAI的成果越来越封闭，而商业化的进程越来越快。GPT系列的发展正好印证了这个路径。GPT最初的版本包含了论文、代码和预训练结果。GPT-2刚开始也认为可能会造成不好的伤害而在论文官宣了大半年之后才公布了完整模型。到GPT-3的时候也就给了官方介绍博客和论文，模型则是彻底闭源且开始商业化。而今天OpenAI直接官方博客宣布GPT-3.5商业化，连论文都没有了!

2023/03/02 17:08:351,724

#ChatGPT #OpenAI

生成式AI平台的玩家都有哪些？

近几年人工智能的发展已经让大家感受到AI算法不再是实验室的小玩具，它对社会和生活的影响已经在逐步显现。仅几年的AI模型如ChatGPT、DALL·E2、StableDiffusion等都是生成式模型，即基于无标注数据训练的可以根据输入观测数据的模型。而生成式AI平台可能是未来最重要的一种平台能力。本文是由Matt Bornstein, Guido Appenzeller, and Martin Casado等人发布的介绍当前生成式AI平台的相关企业。

2023/03/01 22:55:071,033

#AI

为什么最新的大语言模型（如ChatGPT）都使用强化学习来做微调（finetuning）？

最近，随着ChatGPT的火爆，大语言模型（Large language model）再次被大家所关注。当年BERT横空出世的时候，基于BERT做微调风靡全球。但是，最新的大语言模型如ChatGPT都使用强化学习来做微调，而不是用之前大家所知道的有监督的学习。这是为什么呢？著名AI研究员Sebastian Raschka解释了这样一个很重要的转变。大约有5个原因促使了这一转变。

2023/03/01 20:56:271,799

#ChatGPT #RLHF

即将发布的装备了ChatGPT模型的新版bing都有哪些功能？

今天微软宣布，新版本的Bing将全线接入ChatGPT，试图领先谷歌一步。这篇博客将总结一下带了ChatGPT的新版本Bing将有哪些新功能！

2023/02/09 00:14:531,052

#Bing #ChatGPT

OpenAI开源最新的3D物体生成预训练模型——Point-E

三维物体的生成（3D）其实是AR/VR领域一个非常重要的技术。但是，受限于算力和现有模型的限制，三维物体的生成相比较图像生成来说效率太低。目前，最好的图像生成模型在几秒钟就可以根据文字生成图像结果，但是3D物体的生成通常需要多个GPU小时才可以生成一个对象。为此，OpenAI在今天开源了一个速度极快的3D物体生成模型——Point-E，需要注意的是，这是今年来OpenAI罕见的源代码和预训练结果都开源的一个模型。

2022/12/20 21:13:232,441

#3D生成 #OpenAI

OpenAI发布最新Embedding模型——可惜又是一个收费API

嵌入（Embedding）是深度学习方法处理自然语言文本最重要的方式之一。它将人类的自然语言和文本转换成一个浮点型的向量。向量之间的距离代表了它们的关系。今天，OpenAI宣布了他们的Embedding新模型——text-embedding-ada-002。官方宣称这是目前OpenAI最强的嵌入模型，可以将任意文本转换成一个向量，且效果好于目前所有OpenAI的模型。

2022/12/16 21:30:367,844

#Embedding #OpenAI

OpenAI开源GPT-2的子词标记化神器——tiktoken，一个超级快的（Byte Pair Encoder，BPE）字节对编码Python库

OpenAI在其官方GitHub上公开了一个最新的开源Python库：tiktoken，这个库主要是用力做字节对编码的。相比较HuggingFace的tokenizer，其速度提升了好几倍。

2022/12/16 21:11:164,737

#OpenAI #tokenizer

自然语言处理中常见的字节编码对（Byte-Pair Encoding，BPE）简介

字节对编码（Byte Pair Encoder，BPE），又叫digram coding，是一种在自然语言处理领域经常使用的数据压缩算法。在GPT系列模型中都有用到。主要是将数据中最常连续出现的字节（bytes）替换成数据中没有出现的字节的方法。该算法首先由Philip Gage在1994年提出。在这篇博客中我们将简单介绍一下这个方法。

2022/12/16 20:52:275,086

#NLP #自然语言处理

0基础安装搭建Visual Studio Code开发环境——Python开发环境

Visual Studio Code简称VS Code，是由微软开发的跨平台免费开源的源代码编辑器。相比较Eclipse、PyCharm等软件，它很轻量，并不太像一个完整的IDE（Integrated Development Environment，集成开发环境）。但是，由于其轻量、快速、第三方扩展生态强大等原因，在2015年推出之后就迅速发展成为最受欢迎的开发环境。2019年的Stack Overflow的开发者调查中名列第一，使用占比月50.7%。

2022/12/10 16:58:052,895

#Python #VSCode

OpenAI是一家什么样的企业——OpenAI介绍与成果总结

OpenAI是全球最著名的人工智能研究机构，发布了许多著名的人工智能技术和成果，如大语言模型GPT系列、文本生成图片预训练模型DALL·E系列、语音识别模型Whisper系列等。由于这些模型在各自领域都有相当惊艳的表现，引起了全世界广泛的关注。

2022/12/09 23:13:302,046

#OpenAI

Stable Diffusion2.1发布！

刚刚，StabilityAI宣布Stable Diffusion2.1发布。距离Stable Diffusion2.0大版本发布刚2个星期，2.1版本就发布了，2.1版本有诸多改进功能。

2022/12/08 00:33:512,949

#StabilityAI #StableDiffusion

OpenAI世界最强的语音识别预训练模型WhisperV2即将来临

Whisper是由Open AI训练并开源的语音识别模型，它在英语语音识别方面接近人类水平的鲁棒性和准确性。该模型于2022年9月21日发布之后引起了广大的关注。由于模型的准确性太过惊人，大家已经认为可以直接用于视频的配音制作了。而今天有人发现Whisper的GitHub上有了一个新的提交记录，显示Whisper V2版本即将来临。

2022/12/07 21:51:411,250

#OpenAI #语音识别

最强AI对话系统ChatGPT不完全使用指南——已发掘功能展览！

12月1日OpenAI官宣了其目前最强的AI对话系统之后，大家发现这个强大的系统能做的事情远超过大家的想象。我们也在第一时间发布了相关的博客：https://datalearner.com/blog/1051669904657253 。由于这个系统实在是太过强大，大家发现的能力越来越强。连Musk也在几个小时之前感叹这个系统是so much better at bullshit than they are！在这篇博客中，我们将收集关于这个系统目前的使用案例，给大家一个更加全面的展示结果。

2022/12/04 09:10:4410,322

#ChatGPT #GPT

重磅！PyTorch官宣2.0版本即将发布，最新torch.compile特性说明！

2022年的PyTorch Conference在新奥尔良举办。刚刚会上的keynote官宣PyTorch2.0版本即将到来。PyTorch是目前最流行的深度学习框架之一，它的易用性被广大的用户所喜爱。关于PyTorch2.0，官方透露了一些值得期待的特性。

2022/12/03 09:24:252,360

#pytorch