神经网络发展简介
看过很多书,都说了神经网络的进展,但总有一些小问题没有明白。这次基本上都明白了,记录一下。
模拟神经网络最早的原创文章是由麦卡洛克(Warren McCulloch)和皮茨(Walter Pitts)于1943年发表,他们提出了M-P(之所以叫M-P是因为作者两个人的名字)神经元模型,这是最早的基于神经元的模型。M-P神经元接受来自其他n个神经元的输入信号,然后使用线性组合计算这些信号的输出值,当这些输出值高于某个阈值的时候,该神经元为“兴奋”状态,输出为1,否则为0。这里可以将神经元的激活函数理解为一个阶跃函数。这种神经元模型称为M-P神经元模型。如下图所示:


M-P神经元模型有如下假设: 1、都是二元的,取值只有0和1两种情况 2、每个神经元都有一个阈值,称为$\theta$ 3、每个神经元都从其他“兴奋(excitatory)”状态的神经元接受信号,并且它们的权重都一样(但是一个神经元可以从一个来源接受多次输入,所以这些兴奋权重都是正整数) 4、抑制性的输入与其它兴奋状态的输入相比有绝对的否决权 5、每一次迭代更新的时候,如果该神经元没有抑制性神经元作为输入,且所有兴奋状态神经元的线性组合结果高于阈值的时候,该神经元输出为1,否则为0。
这个M-P神经元模型是最早的神经元模型。这个模型没有学习的方法,但是其结果很鼓舞人心。尽管我们很难找出权重的值,也无法找出一种合适的方式将神经元连接起来以获取期望的计算结果。但是它意味着类似神经元的连接是可以计算出来的。它最大的贡献是用一种简单的方式来理解人脑如何基于简单的细胞来产生复杂的识别结果。
直到1957年康奈尔大学的罗森布拉特(Frank Rosenblatt)提出了感知机(Perceptron)模型,这是神经网络的又一个重大的突破。罗森布拉特从理论上证明了单层的神经网络在处理线性可分的问题中,可以收敛。与M-P神经元不同,感知机模型的假设如下: 1、权重和阈值不完全相同 2、权重可以是正值也可以是负值 3、没有绝对的抑制性突触 4、尽管神经元依然是两个阶段(线性组合+阶跃函数),但是输出函数范围是[-1,1],而不是之前的[0,1]。 5、最重要的是感知机有一个学习的规则。
一般的,给定训练数据集,神经元的输入权重$W$和阈值$\theta$是可以通过学习得到的。阈值可以当做权重为-1的节点,因此所有的训练都可以当做是对权重$W$的训练。假设训练集为$(X,Y)$,模型对训练集$X$的预测结果是$\hat{y}$,则训练方法如下:
W \leftarrow W + \Delta W
\Delta = \eta(y-\hat{y})X
