softmax作为输出层激活函数的反向传播推导

2019/08/25 15:09:33

5,460 阅读

python 人工智能深度学习

softmax作为多标签分类中最常用的激活函数，常常作为最后一层存在，并经常和交叉熵损失函数一起搭配使用。这里描述如何推导交叉熵损失函数的导数问题。

[toc]

一、一个简单的最后一层的例子

我们先看一个最后一层的例子，假设我们的标签有3类，那么最后一层一般定义成3个神经元，并先通过计算softmax得到最后一层激活函数的输出，然后将3个类别中概率最大的一类作为输出的预测结果。如下图所示：

假设$z_1$、$z_2$和$z_3$是最后一层的非激活函数结果，它的值是通过前一层的输出来做线性变化得到，即$\sum wa^{l-1} +b$得到，这里的$a^{l-1}$是指前一层的激活函数的输出结果。那么这一层激活函数选择softmax之后得到的结果是：

a_j = \frac{e^{z_j}}{e^{z_1}+e^{z_2}+e^{z_3}}

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

返回博客列表

J = - \sum_{j=1}^{n_y} y_{j} \log \hat{y}_{j}

\frac{\partial J}{\partial z_i}

J = - y_{j} \log a_{j}

\frac{\partial J}{\partial z_i} = \frac{\partial J}{\partial a_j} \cdot \frac{\partial a_j}{\partial z_i}

\frac{\partial J}{\partial a_j} = - \frac{y_j}{a_j}

a_j = \frac{e^{z_i}}{\sum e^{z}}

\begin{aligned}

\frac{\partial a_j}{\partial z_i} &= \frac{ (e^{z_i})'\sum e^{z} - e^{z_i}(\sum e^{z})' }{(\sum e^{z})^2} \\

& \\
&= \frac{(e^{z_i})'}{\sum e^{z}} - \frac{e^{z_i}}{\sum e^{z}} \cdot \frac{(e^{z})'}{\sum e^{z}}\\

& \\

&= \frac{e^{z_i}}{\sum e^{z}} - \frac{e^{z_i}}{\sum e^{z}} \cdot \frac{e^{z_j}}{\sum e^{z}}\\

& \\

&=a_i(1-a_j)

\end{aligned}

\begin{aligned}

\frac{\partial a_j}{\partial z_i} &= \frac{ (e^{z_i})'\sum e^{z} - e^{z_i}(\sum e^{z})' }{(\sum e^{z})^2} \\

& \\

&= \frac{ 0 \cdot \sum e^{z} - e^{z_i}\cdot e^{z_j}} {(\sum e^{z})^2} \\

&\\

&=- \frac{ e^{z_i}\cdot e^{z_j}} {(\sum e^{z})^2}\\

&\\

&=- \frac{e^{z_i}} {\sum e^{z}} \cdot \frac{e^{z_j}} {\sum e^{z}}\\
&\\

&=- a_i \cdot a_j


\end{aligned}

\frac{\partial J}{\partial z_i} = - \frac{y_j}{a_j} \cdot (- a_i \cdot a_j) = a_i

\begin{aligned}
\frac{\partial J}{\partial z_i} &= - \frac{y_j}{a_j} \cdot (a_i- a_i \cdot a_j)  \\

&\\

&= - \frac{1}{a_j} \cdot (a_i- a_i \cdot a_j)  \\

&\\

& = a_i - 1

\end{aligned}

z_i = z_i - a_i

z_i = z_i -(a_i-1)

softmax作为输出层激活函数的反向传播推导

一、一个简单的最后一层的例子

DataLearner 官方微信

二、交叉熵损失函数

三、交叉熵损失函数的偏导计算

3.1、第一项的偏导

3.2、第二项的偏导

四、更新参数

热门博客