前置知识:机器学习概念,线性回归,梯度下降
待优化参数w,损失函数loss,学习率lr,每次迭代一个batch
计算t时刻损失函数关于当前参数的梯度:
计算t时刻一阶动量mt和二阶动量Vt
计算t时刻下降梯度:
计算t+1时刻的参数:
一阶梯度:与梯度相关的函数
二阶动量:与梯度平方相关的函数
???????
在SGD的基础上增加了一阶动量
mt这个公式表示各时刻梯度方向的指数滑动平均值
超参数β接近1
在SGD的基础上增加二阶动量
一阶动量mt是当前的梯度
二阶动量Vt是从开始到t时刻梯度平方的累计和
在SGD的基础上增加二阶动量
同时引入了SGDM的一阶动量和RMSPro的二阶动量
修正一阶动量的偏差:
修正二阶动量的偏差:
???????
得到: