深度学习之LSTM模型
在前面的博客中,我们已经介绍了基本的RNN模型和GRU深度学习网络,在这篇博客中,我们将介绍LSTM模型,LSTM全称是Long Short-Time Memory,也是RNN模型的一种。
相比较基本的RNN模型和GRU模型,LSTM的模型参数更多。与RNN和GRU类似,LSTM是一种RNN模型,它的输入和RNN与GRU一样,都是前一阶段的状态变量和当前状态的数据,输出的是当前状态的标签和当前状态的状态变量。
为了说明LSTM,我们先看一下基本的RNN结构:

这三种模型的基本结构都是类似的,但是每个模型的CELL内部计算是不同的。其中,
RNN模型中CELL的计算:
a^{< t>} = g(W_a [a^{< t-1>},x^{< t>}] + b_a)
\hat{y}^{< t>} = g(W_y a^{< t>} + b_y)
而GRU网络中CELL的计算如下:
\tilde{c}^{< t>} = \text{tanh}(W_c[\Gamma_r\times c^{< t-1>},x^{< t>}] + b_c)

