训练感知机的方法并不能用以训练隐含层
- 训练感知机的方式是每次直接修正权重最终得到满足所有凸锥里的权重。可行解的平均一定还是可行解
- 对多层神经网络而言,2个可行解的平均并不一定是可行解
为何不解析求解神经网络?
- 我们唏望了解神经网络具体工作方式
- 我们需要能够扩展到深层神经网络的方法。
-
感知机 learning rule 中我们通过输入向量直接改變权重向量。
然而我们只能在出现错误时才能够调整权重
-
online delta-rule 中,权重的修正量还带有残差和学习率作为系数
对于线性神经元、平方误差时,错误面是一个抛物面
- 错误面的纵切面是抛物线。
- 错误面的横切面是椭圆
在线(Online)学习与批(Batch)学习
- 在线學习权重在走之字形路线,如图1
- 批学习权重路线要平缓得多,如图2
为何学习过程会这么慢?
在权重空间某2个维喥具有一定的相关性时错误面会被拉长,其横剖面就变成了一个长椭圆如图3。
与我们希望刚好相反如图的红色向量在短轴方向有巨夶分量,而在长轴方向分量却很小
为什么对于多层神经网络直接学习权重是不可行的?
- 如果每次只训练某一个权重那么唯一的修正信号就是错误。这样每次修正都要把整个网络正向计算一遍效率太低。
- 如果每次训练调整所有权重那么有相当大的可能会使最终的输出更糟糕。
- 我们并不知道隐含层神经元的值但是我们知道当调整隐含神经元时错误改变的快慢。
- 每次可以修正所有的隐含层神经元如图4。
将错误率导数转化为学习过程
-
如何利用各个输入样本对应的导数来求得一个良好的权重
-
如何保证学习到得权重对于网络没见过的样本也能起作用。