向量法可以加快运行速度,但是当训练样本百万级单位时仍然很慢,可以利用mini batch梯度下降法,每个mini batch有1000样本,如果你的m(训练集)是5百万,可分成5000个mini batch 。
二者从图像上看损失函数差别如下
mini batch size =m 称为batch梯度下降法 缺点是每次迭代时间过长。
mini batch size =m1 称为随机梯度下降法 缺点是失去向量化带来的加速,效率过低。
实践中最好选择不大不小的尺寸,实际上学习率最快
指数加权平均
纵向的幅度变化小,横向的梯度变化大。
将Momentum 与 RMSprop 结合起来。
导数为0的点叫做鞍点。