人工智能与大模型最新资讯与技术博客

之前面的博客中，我们已经描述了基本的RNN模型。但是基本的RNN模型有一些缺点难以克服。其中梯度消失问题（Vanishing Gradients）最难以解决。为了解决这个问题，GRU（Gated Recurrent Unit）神经网络应运而生。本篇博客将描述GRU神经网络的工作原理。GRU主要思想来自下面两篇论文：

2019/03/23 15:34:28 阅读 10977

GRU/RNN/深度学习

深度学习之LSTM模型

在前面的博客中，我们已经介绍了基本的RNN模型和GRU深度学习网络，在这篇博客中，我们将介绍LSTM模型，LSTM全称是Long Short-Time Memory，也是RNN模型的一种。

2019/03/23 15:34:00 阅读 9635

LSTM/RNN/深度学习

8个非常好的NLP领域的预训练模型（包含代码和论文资源）

使用预训练模型处理NLP任务是目前深度学习中一个非常火热的领域。本文总结了8个顶级的预训练模型，并提供了每个模型相关的资源（包括官方文档、Github代码和别人已经基于这些模型预训练好的模型等）。

2019/03/23 12:27:49 阅读 11128

NLP/PretrainedModel/深度学习/预训练

深度学习之Attention机制

Encoder-Decoder的深度学习架构是目前非常流行的神经网络架构，在许多的任务上都取得了很好的成绩。在之前的博客中，我们也详细介绍了该架构（参见深度学习之Encoder-Decoder架构）。本篇博客将详细讲述Attention机制。

2019/03/21 11:32:02 阅读 6224

Attention/RNN/深度学习

深度学习中Sequence to Sequence (Seq2Seq) 模型的目标是将一个序列转换成另一个序列。包括机器翻译（machine translate）、会话识别（speech recognition）和时间序列预测（time series forcasting）等任务都可以理解成是Seq2Seq任务。RNN（Recurrent Neural Networks）是深度学习中最基本的序列模型。

2019/03/19 11:19:04 阅读 13256

Encoder-Decoder/RNN/Seq2Seq/深度学习

深度学习之RNN模型

序列数据是生活中很常见的一种数据，如一句话、一段时间某个广告位的流量、一连串运动视频的截图等。在这些数据中也有着很多数据挖掘的需求。RNN就是解决这类问题的一种深度学习方法。其全称是Recurrent Neural Networks，中文是递归神经网络。主要解决序列数据的数据挖掘问题。

2019/03/15 10:57:12 阅读 15549

RNN/深度学习

Python中的Pickle操作（pkl文件解释）

您刚刚经历了一个耗时的过程，将一堆数据加载到python对象中。也许你从数千个网站上爬取了数据。也许你计算了pi的数值。如果您的笔记本电脑电池耗尽或python崩溃，您的信息将丢失。 Pickling允许您将python对象保存为硬盘驱动器上的二进制文件。在你pickle你的对象后，你可以结束你的python会话，重新启动你的计算机，然后再次将你的对象加载到python中。

2019/03/11 16:43:55 阅读 24598

python/序列化

在线广告的紧凑分配方案（Optimal Online Assignment with Forecasts）

广告分配问题属于运筹中的优化问题。一般情况下，我们期望有个最大化收益，但同时需要保证合约的完成。因此，这是一个带不等式约束的最优化问题。由于广告数量和用户数量很多，因此，求解的难度很高。在这篇文章中，作者推导了原问题的拉格朗日函数的系数之间的关系，大大降低了求解的难度。这里将简要介绍原理和推导过程。

2019/02/28 15:59:05 阅读 4428

在线广告/展示广告/广告分配