Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

大语言模型的技术总结系列一：RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型（Large Language Model，LLM）是近几年进展最大的AI模型。早期的深度学习架构语言模型以RNN为主，现在则基本上转成了Transformer的架构。尽管如此，Transformer本身也是有着不同的区别。而本文是大语言模型系列中的一篇，主要介绍RNN模型与Transformer之间的区别。

2023/04/27 22:02:332,928

#LLM #RNN

ChatGPT的强有力挑战者HuggingChat发布——速度很快，不过水平略差~~

HuggingFace是近几年最火热的AI社区，在短短几年时间里已经称为AI模型的GitHub。目前，HuggingFace上已经托管了18万多的模型、3万多的数据集以及4万多的模型demo（spaces）。今天，HuggingFace发布了HuggingChat，声称要做最好的开源AI Chat项目，并且对所有人开放。

2023/04/26 22:31:251,812

#HuggingChat #开源大模型

2023年4月25日的AI技术新进展快报：Chatbot Arena、Track Anything、600+AI工具、RedPajama 7B进展、科大讯飞大模型内测等

最近两天，关于AI技术和产品的进展依然很快。所以，我们本次直接给出一个AI技术进展快报。与大家分享一下最新的AI技术情况。

2023/04/25 22:25:421,842

#大模型进展

Awesome ChatGPT Prompts——一个致力于提供挖掘ChatGPT能力的Prompt收集网站

Awesome ChatGPT Prompts是由JavaScript开发者Fatih Kadir Akın创建的一个网站和应用，里面收集了160多个关于ChatGPT的Prompt模板，可以让ChatGPT变成Linux终端、JavaScript控制台、Excel页面等。这些Prompts收集自优秀的实践案例。

2023/04/24 22:50:342,757

#Prompts

比OpenAI原始的Whisper快70倍的开源语音识别模型Whisper JAX发布！

Whisper是OpenAI在2022年9月份开源的自动语音识别模型。官方宣传其英语的识别水平与人类接近。而2个月后，官方就发布了Whisper V2版本，是第一个版本继续训练2.5倍得到，且加了正则化技术。而今天，一位网友Sanchit Gandhi发布了Whisper JAX，这是对原有版本的优化结果，识别速度最高达到原始模型的70倍！

2023/04/24 22:50:238,278

#ASR #JAX

大语言模型训练之前，数据集的处理步骤包含哪些？以LLaMA模型的数据处理pipeline（CCNet）为例

大语言模型的训练是一个十分复杂的技术，不仅涉及到模型的开发与部署，还涉及到数据的获取。与常规的算法模型不同的是，大语言模型通常需要大量的数据处理步骤。本文是根据英国一位自动工程师总结的大语言模型训练之前的数据处理步骤和决策过程。

2023/04/24 22:50:025,414

#大语言模型 #数据处理

百度文心一言发布，功能尝鲜概览

今天下午，百度发布了文心一言大模型。这是一次对百度来说十分重要的发布会，也几乎是国内当前唯一一家将大模型作为一种大规模的服务推向市场的公司。本文主要介绍刚刚发布的文心一眼相关的能力。

2023/04/24 22:48:431,512

#大模型 #文心一言

PyTorch 2.0发布——一个更快、更加Pythonic和灵活的PyTorch版本，让Tranformer运行更快！

在去年12月2日的PyTorch大会上（参考链接：[重磅！PyTorch官宣2.0版本即将发布，最新torch.compile特性说明！](https://www.datalearner.com/blog/1051670030665432

2023/04/24 22:47:461,836

#python

能否用85000美元从头开始训练一个打败ChatGPT的模型，并在浏览器中运行？

尽管当前ChatGPT和GPT-4非常火热，但是高昂的训练成本和部署成本其实导致大部分个人、学术工作者以及中小企业难以去开发自己的模型。使得使用OpenAI的官方服务几乎成为了一种无可替代的选择。本文介绍的是一种低成本开发高效ChatGPT的思路，我认为它适合一些科研机构去做，也适合中小企业创新的方式。这里提到的思路涉及了一些最近发表的成果和业界的一些实践产出，大家可以参考！

2023/04/24 22:47:181,686

#Alpaca #ChatGPT

AI盛世如你所愿！昨天2个最新的开源“GPT”模型发布！

在最近的24个小时内，有2个开源的自然语言处理领域的开源预训练大模型发布。这两个模型都是类似GPT的Transformer模型，可以完成和ChatGPT类似的能力。最重要的是这2个模型完全开源！

2023/04/24 22:47:011,094

#Cerebras-GPT #GPT

大模型追踪利器！斯坦福大学发布基础大模型追踪图谱Ecosystem Graphs

斯坦福大学发布的基础大模型追踪图谱Ecosystem Graphs，用图谱的方式给大家呈现了模型之间的联系，让人非常清楚明白追踪不同模型之间的关系。

2023/04/24 22:46:281,203

#大模型

“GPT”的模型太多无法选择？让大模型帮你选择大模型！浙江大学发布HuggingGPT！

随着ChatGPT的火爆以及MetaAI开源了LLaMA，各家公司好像一夜之间都有了各种ChatGPT模型的研发实力。而针对不同任务和应用构建的LLM更是层出不穷。那么，如何选择合适的模型完成特定的任务，甚至是使用多个模型完成一个复杂的任务似乎仍然很困难。为此，浙江大学与微软亚洲研究院联合发布了一个大模型写作系统HuggingGPT，可以根据输入的任务帮我们选择合适的大模型解决！

2023/04/24 22:46:063,167

#HuggingGPT #LLM

重磅好消息！推特开源自家的推荐系统算法！

虽然最近一段时间大模型十分火爆，但是传统的推荐依然是当前很多业务的核心能力，就在几个小时前，Twitter官方开源了自己的推荐系统，并详细介绍了它们的推荐算法。本文将简单介绍一下推特的推荐算法和架构！

2023/04/24 22:45:432,409

#信息流推荐 #推荐系统

彭博社发布金融领域的ChatGPT模型——BloombergGPT

彭博社今天发布了一份研究论文，详细介绍了BloombergGPT的开发，这是一个新的大规模生成式人工智能（AI）模型。这个大型语言模型（LLM）经过专门的金融数据训练，支持金融业内的多种自然语言处理（NLP）任务。

2023/04/24 22:45:141,185

#BloombergGPT

斯坦福大学发布2023年人工智能指数报告——The AI Index 2023

The AI Index报告是斯坦福大学发布的人工智能发展研究报告。最早的报告开始于2017年，每年一个版本，主要是总结过去一年人工智能的发展情况。2023年斯坦福The AI Index已经在近日发布。相比较之前的报告，今年的报告新增对Foundation模型的分析。让我们看看斯坦福大学如何总结2022年人工智能领域的发展情况。

2023/04/24 22:44:571,896

#AI报告 #TheAIIndex2023

从阿里专家内部交流纪要看国内AI模型发展现状

本文主要描述了阿里眼中国内各家企业的大模型水平以及一些硬件算力的判断，同时结合部分其它信息整理。里面涉及到当前国内各大企业模型水平判断（如百度文心一言、华为盘古等）以及算力储备信息。

2023/04/24 22:44:343,208

#大模型 #显卡

HuggingFace过去七天最流行的AI模型一览——预训练大模型绝对王者

HuggingFace是目前最火热的AI社区（HuggingFace简介：https://www.datalearner.com/blog/1051636550099750 ），很多人称之为AI模型的GitHub。包括Google、微软等很多知名企业都在上面发布模型。而HuggingFace上提供的流行的模型也是大家应当关注的内容。本文简单介绍一下2023年4月初的七天（当然包括3月底几天）的最流行的9个模型（为什么9个，因为我发现第10个是一个数据集！服了！）。让大家看看地球人都在关注和使用什么模型。

2023/04/24 22:43:314,195

#AI流行趋势

强大的对象分割开源算法！Meta AI开源Segment Anything: Working（SAM）预训练大模型！

SAM全称是Segment Anything Model，由MetaAI最新发布的一个图像分割领域的预训练模型。该模型十分强大，并且有类似GPT那种基于Prompt的工作能力，在图像分割任务上展示了强大的能力！此外，该模型从数据集到训练代码和预训练结果完全开源！真Open的AI！

2023/04/24 22:43:012,221

#MetaAI #图像分割

预训练大语言模型的三种微调技术总结：fine-tuning、parameter-efficient fine-tuning和prompt-tuning

预训练大模型，尤其是大语言模型已经是当前最火热的AI技术。2018年Google发布BERT模型之后，fine-tuning技术也随之流行，即将预训练模型的权重冻结，然后根据具体任务进行微调变得十分有效且被应用在很多场景。而随着ChatGPT的火热，parameter-efficient fine-tuning和prompt-tuning技术似乎也有替代传统fine-tuning的趋势，本篇论文将简单描述预训练模型领域这三种微调技术及其差别。

2023/04/24 22:39:2613,577

#fine-tuning #prompt-tuning

一张图总结OpenAI看好的未来AI应用——OpenAI Startup Fund支持的创业企业简介

OpenAI Startup Fund是OpenAI和微软等合作伙伴在2022年推出的一个创业基金，收到OpenAI Startup Fund投资的初创企业几乎可以等同于OpenAI认为的未来AI应用重要方向。这些企业不仅可以获得资金支持，还可以比其它企业更早使用OpenAI的模型。本文将简要介绍当前OpenAI已经投资的企业，它们可能是未来AI领域重要的角色！

2023/04/24 22:38:511,331

#OpenAI

预训练大模型时代必备技能——Prompt Tuning简介

通过调整提示文本，可以使语言模型更好地理解任务的要求和上下文，从而提高其在特定任务上的表现。Prompt tuning是使大型语言模型更加智能和高效的关键步骤之一。只有通过精心设计和优化提示文本，我们才能充分发挥大型语言模型的潜力，并使其更好地服务于人类的需求。因此，Prompt engineering，这一种新的工程能力也开始变得重要。

2023/04/24 22:38:347,715

#PromptEngineering