前后关联强,“前因后果”
3、参数量巨大
4、没有办法体现时序上的“前因后果”
标准神经网络建模不适合带时间序列的任务场景。
4、损失函数
整个序列的损失函数即将所有时间步的算是函数相加求和。
5、反向传播
W0:
Wx:
任意时刻下的梯度公式:
Ws^(k-1)是导致可能梯度爆炸和梯度消失的主要原因。
门的设计可自由选择哪些部分记忆,哪些部分不记忆,连乘消除梯度消失,