最新AI大模型咨询与技术解读——来自DataLearnerAI

一文看懂如何初始化神经网络

深度学习的初始化非常重要，这篇博客主要描述两种初始化方法：一个是Kaiming初始化，一个是LSUV方法。文中对比了不同初始化的效果，并将每一种初始化得到的激活函数的输出都展示出来以查看每种初始化对层的输出的影响。当然，作者最后也发现如果使用了BatchNorm的话，不同的初始化方法结果差不多。说明使用BN可以使得初始化不那么敏感了。

2019/06/21 17:20:49 阅读 6383

#深度学习##神经网络#

提炼BERT——将BERT转成小模型（Distilling BERT — How to achieve BERT performance using Logistic Regression）

BERT是很好的模型，但是它的参数太大，网络结构太复杂。在很多没有GPU的环境下都无法部署。本文讲的是如何利用BERT构造更好的小的逻辑回归模型来代替原始BERT模型，可以放入生产环境中，以节约资源。

2019/06/20 11:57:47 阅读 4131

#BERT##深度学习#

2012年发表的AlexNet可以算是开启本轮深度学习浪潮的开山之作了。由于AlexNet在ImageNet LSVRC-2012（Large Scale Visual Recognition Competition）赢得第一名，并且错误率只有15.3%（第二名是26.2%），引起了巨大的反响。相比较之前的深度学习网络结构，AlexNet主要的变化在于激活函数采用了Relu、使用Dropout代替正则降低过拟合等。本篇博客将根据其论文，详细讲述AlexNet的网络结构及其特点。

2019/06/20 10:28:16 阅读 9143

#卷积神经网络##深度学习#

AdaBoost算法详解以及代码实现

AdaBoost，全称是“Adaptive Boosting”，由Freund和Schapire在1995年首次提出，并在1996发布了一篇新的论文证明其在实际数据集中的效果。这篇博客主要解释AdaBoost的算法详情以及实现。它可以理解为是首个“boosting”方式的集成算法。是一个关注二分类的集成算法。

2019/06/15 09:09:13 阅读 10619

#adaboost##集成学习#

深度学习的反向传播手动推导

反向传播算法是深度学习求解最重要的方法。这里我们手动推导一下。

2019/06/04 11:37:14 阅读 4012

#反向传播##梯度下降##深度学习#

深度学习的经典算法的论文、解读和代码实现

深度学习是目前最火的算法领域。他在诸多任务中取得的骄人成绩使得其进化越来越好。本文收集深度学习中的经典算法，以及相关的解释和代码实现。

2019/06/03 11:36:41 阅读 15696

#深度学习#

深度学习卷积操作的维度计算（PyTorch/Tensorflow等框架中Conv1d、Conv2d和Conv3d介绍）

卷积操作的维度计算是定义神经网络结构的重要问题，在使用如PyTorch、Tensorflow等深度学习框架搭建神经网络的时候，对每一层输入的维度和输出的维度都必须计算准确，否则容易出错，这里将详细说明相关的维度计算。

2019/05/31 20:27:07 阅读 19832

#PyTorch##卷积神经网络##深度学习#

CNN经典算法之Inception V1（GoogLeNet）

GoogLeNet是谷歌在2014年提出的一种CNN深度学习方法，它赢得了2014年ILSVRC的冠军，其错误率要低于当时的VGGNet。与之前的深度学习网络思路不同，之前的CNN网络的主要目标还是加深网络的深度，而GoogLeNet则提出了一种新的结构，称之为inception。GoogLeNet利用inception结构组成了一个22层的巨大的网络，但是其参数却比之前的如AlexNet网络低很多。是一种非常优秀的CNN结构。

2019/05/31 20:22:25 阅读 4929

#GoogLeNet##Inception##卷积神经网络##深度学习#

CNN经典算法VGGNet介绍

VGGNet（Visual Geometry Group）是2014年又一个经典的卷积神经网络。VGGNet最主要的目标是试图回答“如何设计网络结构”的问题。随着AlexNet提出，很多人开始利用卷积神经网络来解决图像识别的问题。一般的做法都是重复几层卷积网络，每个卷积网络之后接一些池化层，最后再加上几个全连接层。而VGGNet的提出，给这些结构设计带来了一些标准参考。

2019/05/28 21:05:44 阅读 7953

#卷积神经网络##深度学习#

CNN入门算法LeNet-5介绍（论文详细解读）

1998年，LeCun提出了LeNet-5网络用来解决手写识别的问题。LeNet-5被誉为是卷积神经网络的“Hello Word”，足以见到这篇论文的重要性。在此之前，LeCun最早在1989年提出了LeNet-1，并在接下来的几年中继续探索，陆续提出了LeNet-4、Boosted LeNet-4等。本篇博客将详解LeCun的这篇论文，并不是完全翻译，而是总结每一部分的精华内容。

2019/05/26 22:21:20 阅读 15729

#卷积神经网络##深度学习#

深度学习之GRU神经网络

之前面的博客中，我们已经描述了基本的RNN模型。但是基本的RNN模型有一些缺点难以克服。其中梯度消失问题（Vanishing Gradients）最难以解决。为了解决这个问题，GRU（Gated Recurrent Unit）神经网络应运而生。本篇博客将描述GRU神经网络的工作原理。GRU主要思想来自下面两篇论文：

2019/03/23 15:34:28 阅读 10983

#GRU##RNN##深度学习#

深度学习之LSTM模型

在前面的博客中，我们已经介绍了基本的RNN模型和GRU深度学习网络，在这篇博客中，我们将介绍LSTM模型，LSTM全称是Long Short-Time Memory，也是RNN模型的一种。

2019/03/23 15:34:00 阅读 9637

#LSTM##RNN##深度学习#

8个非常好的NLP领域的预训练模型（包含代码和论文资源）

使用预训练模型处理NLP任务是目前深度学习中一个非常火热的领域。本文总结了8个顶级的预训练模型，并提供了每个模型相关的资源（包括官方文档、Github代码和别人已经基于这些模型预训练好的模型等）。

2019/03/23 12:27:49 阅读 11131

#NLP##PretrainedModel##深度学习##预训练#

深度学习之Attention机制

Encoder-Decoder的深度学习架构是目前非常流行的神经网络架构，在许多的任务上都取得了很好的成绩。在之前的博客中，我们也详细介绍了该架构（参见深度学习之Encoder-Decoder架构）。本篇博客将详细讲述Attention机制。

2019/03/21 11:32:02 阅读 6228

#Attention##RNN##深度学习#

深度学习之Encoder-Decoder架构

深度学习中Sequence to Sequence (Seq2Seq) 模型的目标是将一个序列转换成另一个序列。包括机器翻译（machine translate）、会话识别（speech recognition）和时间序列预测（time series forcasting）等任务都可以理解成是Seq2Seq任务。RNN（Recurrent Neural Networks）是深度学习中最基本的序列模型。

2019/03/19 11:19:04 阅读 13263

#Encoder-Decoder##RNN##Seq2Seq##深度学习#

深度学习之RNN模型

序列数据是生活中很常见的一种数据，如一句话、一段时间某个广告位的流量、一连串运动视频的截图等。在这些数据中也有着很多数据挖掘的需求。RNN就是解决这类问题的一种深度学习方法。其全称是Recurrent Neural Networks，中文是递归神经网络。主要解决序列数据的数据挖掘问题。

2019/03/15 10:57:12 阅读 15550

#RNN##深度学习#

Python中的Pickle操作（pkl文件解释）

您刚刚经历了一个耗时的过程，将一堆数据加载到python对象中。也许你从数千个网站上爬取了数据。也许你计算了pi的数值。如果您的笔记本电脑电池耗尽或python崩溃，您的信息将丢失。 Pickling允许您将python对象保存为硬盘驱动器上的二进制文件。在你pickle你的对象后，你可以结束你的python会话，重新启动你的计算机，然后再次将你的对象加载到python中。

2019/03/11 16:43:55 阅读 24602

#python##序列化#

在线广告的紧凑分配方案（Optimal Online Assignment with Forecasts）

广告分配问题属于运筹中的优化问题。一般情况下，我们期望有个最大化收益，但同时需要保证合约的完成。因此，这是一个带不等式约束的最优化问题。由于广告数量和用户数量很多，因此，求解的难度很高。在这篇文章中，作者推导了原问题的拉格朗日函数的系数之间的关系，大大降低了求解的难度。这里将简要介绍原理和推导过程。

2019/02/28 15:59:05 阅读 4429

#在线广告##展示广告##广告分配#