统计、机器学习与编程知识的原创博客

后代选择器

2018/10/04 20:54:33 阅读 2545

后代选择器

Batch Normalization应该在激活函数之前使用还是激活函数之后使用？

Batch Normalization（BN）是深度学习领域最重要的技巧之一，最早由Google的研究人员提出。这个技术可以大大提高深度学习网络的收敛速度。简单来说，BN就是将每一层网络进行归一化，就可以提高整个网络的训练速度，并打乱训练数据，提升精度。但是，BN的使用可以在很多地方，很多人最大的困惑是放在激活函数之前还是激活函数之后使用，著名机器学习领域的博主Santiago总结了这部分需要注意的内容。

2022/11/05 14:42:33 阅读 2545

BatchNormalization/深度学习/激活函数

最新发布！截止目前最强大的最高支持65k输入的开源可商用AI大模型：MPT-7B！

昨天，开源AI模型领域迎来一个重磅玩家，MosaicML发布MPT-7B系列模型，根据官方宣布的测试结果，MPT-7B的水平与MetaAI发布的LLaMA-7B水平差不多，属于当前开源领域最强大的模型。最重要的是，MPT-7B系列中有一个可以支持最多65k上下文输入的开源模型，比GPT-4的32k还高！应该是目前最长的！

2023/05/07 09:20:26 阅读 2555

MPT-7B/开源模型

Targeted Topic Modeling for Focused Analysis(TTM的理解)

2017/05/08 21:39:00 阅读 2556

主题模型

绝对路径

2018/10/03 22:39:32 阅读 2579

绝对路径

初学者搭建C语言开发环境

C语言的编程与Java和Python有所差别。C语言的开发环境的搭建与其它也有所不同。本文主要是针对初学者提供一个C语言开发环境的搭建指南。

2021/09/20 21:41:56 阅读 2581

C语言/编程

网络爬虫需要掌握的基础知识

2016-09-08 22:06:08 阅读 2587

Java/网络爬虫

华为大模型生态重要一步！PyTorch最新2.1版本宣布支持华为昇腾芯片（HUAWEI Ascend）

大模型的发展一个重要的基础条件是底层硬件计算能力的大幅提高，特别是GPU的发展，与transformer架构的大模型训练非常契合。当前全球最大的GPU供应商英伟达系列的显卡几乎垄断了大模型训练与推理的所有GPU芯片市场。除了英伟达显卡本身算力强悍外，基于英伟达GPU之上构建的CUDA、PyTorch等平台软件生态也是非常重要的一环。而最新的PyTorch2.1版本发布的一个beta特性中包含了对华为昇腾芯片的原生支持，这也是大模型生态多样性发展的一个很重要的信号。

2023/10/09 11:45:03 阅读 2597

NPU/PyTorch/华为/昇腾芯片

《Effective Java 第三版》笔记之二当构造参数很多的时候考虑使用builder

本文是Effective Java第三版笔记的第二个之当构造参数很多的时候考虑使用builder

2018/09/17 22:15:33 阅读 2618

effectivejava/java

如何用7.7亿参数的蒸馏模型超过5400亿的大语言模型——Google提出新的模型蒸馏方法：逐步蒸馏（Distilling step-by-step）详解

华盛顿大学研究人员与Google的研究人员一起在5月3日公布了一个新的方法，即逐步蒸馏（Distilling step-by-step），这个方法最大的特点有2个：一是需要更少的数据来做模型的蒸馏（根据论文描述，平均只需要之前方法的一半数据，最多只需要15%的数据就可以达到类似的效果）；而是可以获得更小规模的模型（最多可以比原来模型规模小2000倍！）

2023/05/05 22:03:05 阅读 2644

模型蒸馏

深度学习库

2017/05/08 08:57:40 阅读 2646

2023年9月份各大企业拥有的A100的GPU显卡数量

在高性能计算（HPC）、人工智能（AI）、和数据分析等领域，图形处理器（GPUs）正在发挥越来越重要的作用。其中，NVIDIA的 A100尤为引人注目。这是英伟达最强大的显卡处理器，也是当前使用最广泛大模型训练用的显卡。本文主要是各大企业最新的2023年9月份拥有的显卡数量统计。

2023/09/16 14:08:58 阅读 2650

A100/显卡

页面内锚点

2018/09/29 20:58:34 阅读 2652

锚点

康奈尔大学发布可以在一张消费级显卡上微调650亿参数规模大模型的框架：LLMTune

Cornell Tech开源了LLMTune，这是一个可以在消费级显卡上微调大模型的框架，经过测试，可以在48G显存的显卡上微调4bit的650亿参数的LLaMA模型！

2023/05/14 23:42:57 阅读 2655

PEFT/大模型微调

Stable Diffusion2.1发布！

刚刚，StabilityAI宣布Stable Diffusion2.1发布。距离Stable Diffusion2.0大版本发布刚2个星期，2.1版本就发布了，2.1版本有诸多改进功能。

2022/12/08 00:33:51 阅读 2659

StabilityAI/StableDiffusion/Text-to-Image

智谱AI发布第二代CodeGeeX编程大模型：CodeGeeX2-6B，最低6GB显存可运行，基于ChatGLM2-6B微调

编程大模型是大语言模型的一个非常重要的应用。刚刚，清华大学系创业企业智谱AI开源了最新的一个编程大模型，CodeGeeX2-6B。这是基于ChatGLM2-6B微调的针对编程领域的大模型。

2023/07/25 15:26:41 阅读 2660

ChatGLM2-6B/CodeGeeX/CodeGeeX2-6B/编程大模型

HuggingFace开源语音识别模型Distil-Whisper，基于OpenAI的Whisper-V2模型蒸馏，速度快6倍，参数小49%！

语音识别在实际应用中有非常多的应用。早先，OpenAI发布的Whisper模型是目前语音识别模型中最受关注的一类，也很可能是目前ChatGPT客户端语音识别背后的模型。HuggingFace基于Whisper训练并开源了一个全新的Distil-Whisper，它比Whisper-v2速度快6倍，参数小49%，而实际效果几乎没有区别。

2023/11/02 12:44:25 阅读 2667

Distil-Whisper/HuggingFace/Whisper/语音识别

智谱AI与清华大学联合发布第三代基座大语言模型ChatGLM3：6B版本的ChatGLM3能力大幅增强，依然免费商用授权！

ChatGLM系列是智谱AI发布的一系列大语言模型，因为其优秀的性能和良好的开源协议，在国产大模型和全球大模型领域都有很高的知名度。今天，智谱AI开源其第三代基座大语言模型ChatGLM3-6B，官方说明该模型的性能较前一代大幅提升，是10B以下最强基础大模型！

2023/10/27 17:13:14 阅读 2670

ChatGLM/ChatGLM3

是否需要使用NumPy代替Pandas处理数据以提高性能？

Pandas和NumPy是Python数据科学领域中最基础的两个库，他们都可以读取大量的数据并对数据做计算等处理。有很多的操作他们都能做。那么，这两个Python库在数据处理的性能上有什么差别呢？今天在Reddit上看到一个有意思的讨论和大家分享一下。

2021/12/11 19:50:59 阅读 2674

numpy/pandas/python

Java/数据库/网络爬虫

对比关系生成模型(Comparative Relation Generative Model)

2018/03/09 09:00:21 阅读 2707

生成模型

Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读

2018/04/20 22:13:52 阅读 2709

源码

统计、机器学习与编程知识的原创博客

后代选择器

Batch Normalization应该在激活函数之前使用还是激活函数之后使用？

最新发布！截止目前最强大的最高支持65k输入的开源可商用AI大模型：MPT-7B！

Targeted Topic Modeling for Focused Analysis(TTM的理解)

绝对路径

初学者搭建C语言开发环境

网络爬虫需要掌握的基础知识

华为大模型生态重要一步！PyTorch最新2.1版本宣布支持华为昇腾芯片（HUAWEI Ascend）

《Effective Java 第三版》笔记之二当构造参数很多的时候考虑使用builder

如何用7.7亿参数的蒸馏模型超过5400亿的大语言模型——Google提出新的模型蒸馏方法：逐步蒸馏（Distilling step-by-step）详解

深度学习库

2023年9月份各大企业拥有的A100的GPU显卡数量

页面内锚点

康奈尔大学发布可以在一张消费级显卡上微调650亿参数规模大模型的框架：LLMTune

Stable Diffusion2.1发布！

智谱AI发布第二代CodeGeeX编程大模型：CodeGeeX2-6B，最低6GB显存可运行，基于ChatGLM2-6B微调

HuggingFace开源语音识别模型Distil-Whisper，基于OpenAI的Whisper-V2模型蒸馏，速度快6倍，参数小49%！

智谱AI与清华大学联合发布第三代基座大语言模型ChatGLM3：6B版本的ChatGLM3能力大幅增强，依然免费商用授权！

是否需要使用NumPy代替Pandas处理数据以提高性能？

margin

神器！AI硬件基准测试库发布

网络爬虫之java基础篇QueryRunner（Ⅲ）

对比关系生成模型(Comparative Relation Generative Model)

Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读

最新博客