针对连续动作空间,策略函数没法预测出每个动作选择的概率。因此使用确定性策略梯度方法。
actor 网络目标是时critic值最大,所以要借助critic网络,将actor值带入critic网络,使critic最大。
critic 网络更新时,在计算TD error时,使用了自举,会导致数据过高估计或者过低估计。
关键在于
t
+
1
t+1
t+1时刻的
a
t
+
1
和
q
t
+
1
怎么生成
a_{t+1}和q_{t+1}怎么生成
at+1?和qt+1?怎么生成
和其他方法一样,可以使用两个actor和两个critic网络,减少自举带来的估计。
actor 参数更新方式不变。
critic更新方式变化,使用了target网络产生的
a
t
+
1
和
q
t
+
1
a_{t+1}和q_{t+1}
at+1?和qt+1?
target 网络初始时来自主网络,后期更新时,部分来自主网络,部分来自自己。
w
ˉ
=
τ
?
w
+
(
1
?
τ
)
?
w
ˉ
\bar w= \tau *w +(1-\tau) * \bar w
wˉ=τ?w+(1?τ)?wˉ
θ
ˉ
=
τ
?
θ
+
(
1
?
τ
)
?
θ
ˉ
\bar \theta= \tau *\theta +(1-\tau) * \bar \theta
θˉ=τ?θ+(1?τ)?θˉ