统计、机器学习与编程知识的原创博客

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

OpenAI官方Prompt教程：如何让ChatGPT扮演不同角色，完成教学任务

Prompt技巧一直是提升ChatGPT等大语言模型使用效率的最重要方法之一。为此，OpenAI官方也在不断地分享官方的Prompt技巧。2023年的8月31日，OpenAI官方最新分享了一个教室使用的Prompt来帮助老师授课的案例。尽管这是针对老师的Prompt教程，但是其中的设计思路其实也可以广泛运用在客服、问答系统、编程等领域。

2023/09/01 08:50:30

2431

ChatGPTPrompt/Prompt/教师Prompt

Batch Normalization应该在激活函数之前使用还是激活函数之后使用？

Batch Normalization（BN）是深度学习领域最重要的技巧之一，最早由Google的研究人员提出。这个技术可以大大提高深度学习网络的收敛速度。简单来说，BN就是将每一层网络进行归一化，就可以提高整个网络的训练速度，并打乱训练数据，提升精度。但是，BN的使用可以在很多地方，很多人最大的困惑是放在激活函数之前还是激活函数之后使用，著名机器学习领域的博主Santiago总结了这部分需要注意的内容。

2022/11/05 14:42:33

2427

BatchNormalization/深度学习/激活函数

来自Microsoft Build 2023：大语言模型是如何被训练出来的以及语言模型如何变成ChatGPT——State of GPT详解

在今年的Microsoft Build 2023大会上，来自OpenAI的研究员Andrej Karpathy在5月24日的一场汇报中用了40分钟讲解了ChatGPT是如何被训练的，其中包含了训练一个能支持与用户对话的GPT的全流程以及涉及到的一些技术。信息含量丰富，本文根据这份演讲总结。

2023/06/01 10:10:49

2422

LLM/RLHF

TensorRT-LLM：英伟达推出的专为提升大模型推理速度优化的全新框架

随着大型语言模型（LLM）如 GPT-3 和 BERT 在 AI 领域的崛起，如何在实际应用中高效地进行模型推断成为了一个关键问题。为此，英伟达推出了全新的大模型推理提速框架TensorRT-LM，可以将现有的大模型推理速度提升4倍！

2023/09/10 18:41:09

2416

TensorRT/TensorRT-LLM/推理提速

Llama3相比较前两代的模型（Llama1和Llama2）有哪些升级？几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况

Llama3是MetaAI开源的最新一代大语言模型。一发布就引起了全球AI大模型领域的广泛关注。这是MetaAI开源的第三代大语言模型，也是当前最强的开源模型。但相比较第一代和第二代的Llama模型，Llama3的升级之处有哪些？本文以图表的方式总结Llama3的升级之处。

2024/04/21 20:31:56

2414

Llama3/Llama3-400B/Llama3-70B/Llama3-8B-Instruct/MetaAI

Awesome ChatGPT Prompts——一个致力于提供挖掘ChatGPT能力的Prompt收集网站

Awesome ChatGPT Prompts是由JavaScript开发者Fatih Kadir Akın创建的一个网站和应用，里面收集了160多个关于ChatGPT的Prompt模板，可以让ChatGPT变成Linux终端、JavaScript控制台、Excel页面等。这些Prompts收集自优秀的实践案例。

2023/04/24 22:50:34

2400

Prompts

学术工具

为学术新人提供的学术工具列表

2021/04/29 10:19:04

2397

学术/论文检索

重磅！苹果官方发布大模型框架：一个可以充分利用苹果统一内存的新的大模型框架MLX，你的MacBook可以一键运行LLaMA了

苹果刚刚发布了一个全新的机器学习矿机MLX，这是一个类似NumPy数组的框架，目的是可以在苹果的芯片上更加高效地运行各种机器学习模型，当然最主要的目的是大模型。

2023/12/06 22:05:25

2393

MLX/统一内存架构/苹果/苹果大模型

为什么Python可以处理任意长度的整数运算——Python原理详解

在做LeetCode题目的时候，有一类题目是关于大数运算的。比如，全排列计算或者组合运算，在使用C语言或者Java代码解决这类问题的时候都会遇到变量数值超过阈值的情况。一般来说需要自己构造字符串数组或者是其它数组来存储超过长度的数值。但是，使用Python语言处理这类问题时候却毫无压力，这类题目的计算不会有任何问题。本文将从Python底层实现解释这个问题。

2022/05/26 21:06:58

2385

Python

网站开启支持https访问

2018/09/28 15:46:04

2383

web/编程/网站

大语言模型的技术总结系列一：RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型（Large Language Model，LLM）是近几年进展最大的AI模型。早期的深度学习架构语言模型以RNN为主，现在则基本上转成了Transformer的架构。尽管如此，Transformer本身也是有着不同的区别。而本文是大语言模型系列中的一篇，主要介绍RNN模型与Transformer之间的区别。

2023/04/27 22:02:33

2382

LLM/RNN/Transformer

下拉列表和按钮

2018/10/01 21:48:08

2378

下拉列表/按钮

半导体市场概览

美国对华为的制裁让我们看到半导体领域核心技术国产化的重要性，尽管国内互联网发展迅速，也产生了阿里、腾讯、美团等巨头，但是底层的硬件技术依然依赖于西方国家。其实我个人觉得也不是我们多么希望自己自力更生，实在是被逼无奈，时不时断供一下，这谁能受得了。最近个人也在补充这些知识，把一些学习的这些东西记录下来，如有问题也希望大家指出。

2020/06/07 18:10:06

2377

半导体

2023年4月中旬值得关注的几个AI模型：Dollly2、MiniGPT-4、LLaVA、DINOv2

AI模型的发展速度令人惊讶，几乎每天都会有新的模型发布。而2023年4月中旬也有很多新的模型发布，我们挑出几个重点给大家介绍一下。

2023/04/24 22:36:07

2375

开源模型

OpenAI CEO详解今明两年GPT发展计划：10万美元部署私有ChatGPT、最高支持100万tokens、建立微调模型应用市场

前段时间，OpenAI的CEO Sam Altman与二十多位开发者一起聊了很多关于OpenAI的API和产品的规划问题。Sam Altman透露了一些非常重要的OpenAI的发展方向，包括GPT产品功能的未来规划等。目前这份原始博客内容已经应OpenAI的要求被删除，这里我们简单总结一下这些内容。

2023/06/04 16:19:04

2369

GPT-4/OpenAI