统计、机器学习与编程知识的原创博客

华为大模型生态重要一步！PyTorch最新2.1版本宣布支持华为昇腾芯片（HUAWEI Ascend）

大模型的发展一个重要的基础条件是底层硬件计算能力的大幅提高，特别是GPU的发展，与transformer架构的大模型训练非常契合。当前全球最大的GPU供应商英伟达系列的显卡几乎垄断了大模型训练与推理的所有GPU芯片市场。除了英伟达显卡本身算力强悍外，基于英伟达GPU之上构建的CUDA、PyTorch等平台软件生态也是非常重要的一环。而最新的PyTorch2.1版本发布的一个beta特性中包含了对华为昇腾芯片的原生支持，这也是大模型生态多样性发展的一个很重要的信号。

2023/10/09 11:45:03 阅读 2597

NPU/PyTorch/华为/昇腾芯片

网络爬虫需要掌握的基础知识

2016-09-08 22:06:08 阅读 2587

Java/网络爬虫

初学者搭建C语言开发环境

C语言的编程与Java和Python有所差别。C语言的开发环境的搭建与其它也有所不同。本文主要是针对初学者提供一个C语言开发环境的搭建指南。

2021/09/20 21:41:56 阅读 2581

C语言/编程

绝对路径

2018/10/03 22:39:32 阅读 2579

绝对路径

Targeted Topic Modeling for Focused Analysis(TTM的理解)

2017/05/08 21:39:00 阅读 2556

主题模型

最新发布！截止目前最强大的最高支持65k输入的开源可商用AI大模型：MPT-7B！

昨天，开源AI模型领域迎来一个重磅玩家，MosaicML发布MPT-7B系列模型，根据官方宣布的测试结果，MPT-7B的水平与MetaAI发布的LLaMA-7B水平差不多，属于当前开源领域最强大的模型。最重要的是，MPT-7B系列中有一个可以支持最多65k上下文输入的开源模型，比GPT-4的32k还高！应该是目前最长的！

2023/05/07 09:20:26 阅读 2555

MPT-7B/开源模型

后代选择器

2018/10/04 20:54:33 阅读 2545

后代选择器

Batch Normalization应该在激活函数之前使用还是激活函数之后使用？

Batch Normalization（BN）是深度学习领域最重要的技巧之一，最早由Google的研究人员提出。这个技术可以大大提高深度学习网络的收敛速度。简单来说，BN就是将每一层网络进行归一化，就可以提高整个网络的训练速度，并打乱训练数据，提升精度。但是，BN的使用可以在很多地方，很多人最大的困惑是放在激活函数之前还是激活函数之后使用，著名机器学习领域的博主Santiago总结了这部分需要注意的内容。

2022/11/05 14:42:33 阅读 2545

BatchNormalization/深度学习/激活函数

数据科学的Python——keras备忘录发布，含Keras的各种使用样例

2019/07/02 22:14:46 阅读 2538

keras/深度学习

TEST

2020/05/31 14:21:11 阅读 2538

TEST

国产大模型进展神速！清华大学NLP小组发布顶尖多模态大模型：VisCPM，支持文本生成图片与多模态对话，图片理解能力优秀！

大模型的发展正在从单纯的语言模型向多模态大模型快速发展。尽管GPT-4号称也是一个多模态大模型，但是受限于GPU资源，GPT-4没有开放任何多模态的能力（参考：https://www.datalearner.com/blog/1051685866651273 ）。目前大家所能接触到的多模态大模型很少。今天，清华大学NLP小组带来了新的选择，发布了VisCPM系列多模态大模型。VisCPM系列包含2类多模态大模型，分别针对多模态对话和文本生成图片进行优化。

2023/06/30 21:36:23 阅读 2538

CPM-Bee/VisCPM/多模态大模型

12倍推理速度提升！Meta AI开源全新的AI推理引擎AITemplate

为了提高AI模型的推理速度，降低在不同GPU硬件部署的成本，Meta AI研究人员在昨天发布了一个全新的AI推理引擎AITemplate（AIT），该引擎是一个Python框架，它在各种广泛使用的人工智能模型（如卷积神经网络、变换器和扩散器）上提供接近硬件原生的Tensor Core（英伟达GPU）和Matrix Core（AMD GPU）性能。

2022/10/04 13:28:27 阅读 2537

AITemplate/AI推理速度/PyTorch

Llama3相比较前两代的模型（Llama1和Llama2）有哪些升级？几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况

Llama3是MetaAI开源的最新一代大语言模型。一发布就引起了全球AI大模型领域的广泛关注。这是MetaAI开源的第三代大语言模型，也是当前最强的开源模型。但相比较第一代和第二代的Llama模型，Llama3的升级之处有哪些？本文以图表的方式总结Llama3的升级之处。

2024/04/21 20:31:56 阅读 2536

Llama3/Llama3-400B/Llama3-70B/Llama3-8B-Instruct/MetaAI

定位

2018/10/19 22:15:36 阅读 2534

盒模型

2018/10/07 22:17:02 阅读 2529

盒模型

平衡二叉树之红黑树（Red-Black Tree）简介及Java实现

红黑树（Red-Black Tree）也是一种自平衡二叉查找树，与AVL不同的是它依靠节点颜色来维护树的平衡，在自平衡操作的时候，依赖变色和旋转两种操作来进行。

2018/10/27 11:01:09 阅读 2529

二叉树/数据结构

类选择器

2018/10/04 20:32:25 阅读 2515

类选择器class

OpenAI官方Prompt教程：如何让ChatGPT扮演不同角色，完成教学任务

Prompt技巧一直是提升ChatGPT等大语言模型使用效率的最重要方法之一。为此，OpenAI官方也在不断地分享官方的Prompt技巧。2023年的8月31日，OpenAI官方最新分享了一个教室使用的Prompt来帮助老师授课的案例。尽管这是针对老师的Prompt教程，但是其中的设计思路其实也可以广泛运用在客服、问答系统、编程等领域。

2023/09/01 08:50:30 阅读 2514

ChatGPTPrompt/Prompt/教师Prompt

python操作数据库

2016-07-21 20:52:30 阅读 2513

python/数据库

网络爬虫中URLConnection的使用[以科学网为例]

2017/02/23 10:32:00 阅读 2513

网络爬虫

内容生成方向的人工智能企业

文本生成的主要目的是基于报表和分析生成总结性的文字以辅助商业决策，也就是NLG（Natural Language Generation）。主要的方向包括：基于图表生成洞察报告、基于数据与图表支持问答系统等。本文介绍文字生成的方案提供商。

2021/11/22 23:06:01 阅读 2502

人工智能/创业企业

来自Microsoft Build 2023：大语言模型是如何被训练出来的以及语言模型如何变成ChatGPT——State of GPT详解

在今年的Microsoft Build 2023大会上，来自OpenAI的研究员Andrej Karpathy在5月24日的一场汇报中用了40分钟讲解了ChatGPT是如何被训练的，其中包含了训练一个能支持与用户对话的GPT的全流程以及涉及到的一些技术。信息含量丰富，本文根据这份演讲总结。

2023/06/01 10:10:49 阅读 2499

LLM/RLHF

TensorRT-LLM：英伟达推出的专为提升大模型推理速度优化的全新框架

随着大型语言模型（LLM）如 GPT-3 和 BERT 在 AI 领域的崛起，如何在实际应用中高效地进行模型推断成为了一个关键问题。为此，英伟达推出了全新的大模型推理提速框架TensorRT-LM，可以将现有的大模型推理速度提升4倍！

2023/09/10 18:41:09 阅读 2498

TensorRT/TensorRT-LLM/推理提速

大语言模型的技术总结系列一：RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型（Large Language Model，LLM）是近几年进展最大的AI模型。早期的深度学习架构语言模型以RNN为主，现在则基本上转成了Transformer的架构。尽管如此，Transformer本身也是有着不同的区别。而本文是大语言模型系列中的一篇，主要介绍RNN模型与Transformer之间的区别。

2023/04/27 22:02:33 阅读 2491

LLM/RNN/Transformer

最新博客