吴恩达深度学习笔记 课程二 第二周 优化算法

发布时间:2024年01月21日

一 mini batch 梯度下降

向量法可以加快运行速度,但是当训练样本百万级单位时仍然很慢,可以利用mini batch梯度下降法,每个mini batch有1000样本,如果你的m(训练集)是5百万,可分成5000个mini batch 。
在这里插入图片描述
二者从图像上看损失函数差别如下
在这里插入图片描述
mini batch size =m 称为batch梯度下降法 缺点是每次迭代时间过长。
mini batch size =m1 称为随机梯度下降法 缺点是失去向量化带来的加速,效率过低。
实践中最好选择不大不小的尺寸,实际上学习率最快
在这里插入图片描述

二 momentum 动量梯度下降法

指数加权平均
在这里插入图片描述
纵向的幅度变化小,横向的梯度变化大。
在这里插入图片描述

三 RMSprop

在这里插入图片描述

四 adam优化算法

将Momentum 与 RMSprop 结合起来。
在这里插入图片描述
在这里插入图片描述

五 学习率衰减

在这里插入图片描述

六 局部最优

在这里插入图片描述
导数为0的点叫做鞍点。

文章来源:https://blog.csdn.net/sd54321/article/details/135650737
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。