深度学习记录--Adam optimization algorithm

发布时间:2024年01月21日

Adam优化算法

momentum和RMSprop的结合

初始化参数:

V_{dw}=0,V_{db}=0,S_{dw}=0,S_{db}=0

先进行momentum过程:

V_{dw}=\beta1 V_{dw}+(1-\beta1)dw

V_{db}=\beta1 V_{db}+(1-\beta1)db

然后进行RMSprop过程:

S_{dw}=\beta2 S_{dw}+(1-\beta2)(dw)^2

S_{db}=\beta2 S_{db}+(1-\beta2)(db)^2

接着进行偏差修正

V_{dw}^{corrected}=V_{dw}/(1-\beta1^t),V_{db}^{corrected}=V_{db}/(1-\beta1^t)

S_{dw}^{corrected}=S_{dw}/(1-\beta2^t),S_{db}^{corrected}=S_{db}/(1-\beta2^t)

最后更新权重

w:=V_{dw}^{corrected}/\sqrt{S_{dw}^{corrected}}+\varepsilon

b:=V_{db}^{corrected}/\sqrt{S_{db}^{corrected}}+\varepsilon

?

超参数的设置

一般地,学习率\alpha需要经过多次调试之后才可得到

其他超参数一般设置为:

\beta1=0.9, \beta2=0.999, \varepsilon=10^{-8}

文章来源:https://blog.csdn.net/Xudong_12345/article/details/135730662
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。