参考
Reinforcement Learning, Second Edition
An Introduction
By Richard S. Sutton and Andrew G. Barto
之前的算法,无论是 MC,TD,SARSA,Q-learning, 还是 DQN、Double DQN、Dueling DQN,有至少两个问题:
在非完全信息的纸牌游戏中,最优的策略一般是以特定的概率选择两种不同玩法,例如德州扑克中的虚张声势
策略梯度可以同时解决以上两个问题。
我们将策略参数化为
π
(
a
∣
s
,
θ
)
\pi(a|s, \theta)
π(a∣s,θ)(可以是简单的线性模型+softmax,也可以是神经网络),这个策略可以被关于
θ
\theta
θ求导:
?
θ
π
(
a
∣
s
,
θ
)
\nabla_\theta \pi(a|s,\theta)
?θ?π(a∣s,θ),简写为
?
π
(
a
∣
s
)
\nabla \pi(a|s)
?π(a∣s)
我们实际上想找到一个更新策略 π ( a ∣ s , θ ) \pi(a|s,\theta) π(a∣s,θ) 的方法,它在 θ \theta θ参数空间里面:
和梯度下降类似,可以得到:
θ
t
+
1
←
θ
t
+
α
G
t
?
π
(
a
t
∣
s
t
)
\theta_{t+1} \leftarrow \theta_t + \alpha G_t \nabla \pi(a_t|s_t)
θt+1?←θt?+αGt??π(at?∣st?)
单纯这样更新会有问题,因为如果 π \pi π被初始化为存在一个次优动作(具有正回报),并且概率很大,而最优动作的概率很小,那么这个次优动作就很可能被不断地强化,导致无法学习到最优动作。
因此我们要除一个动作的概率,得到修正后的版本:
θ t + 1 ← θ t + α G t ? π ( a t ∣ s t ) π ( a t ∣ s t ) \theta_{t+1} \leftarrow \theta_t + \alpha G_t \frac{\nabla \pi(a_t|s_t)}{\pi(a_t|s_t)} θt+1?←θt?+αGt?π(at?∣st?)?π(at?∣st?)?
也就是
θ
t
+
1
←
θ
t
+
α
G
t
?
ln
?
π
(
a
t
∣
s
t
)
\theta_{t+1} \leftarrow \theta_t + \alpha G_t \nabla \ln{\pi(a_t|s_t)}
θt+1?←θt?+αGt??lnπ(at?∣st?)
如果这个
G
t
G_t
Gt? 是由 MC 采样整个序列得到的,那么就得到了 REINFORCE 算法:
唯一的区别:TD target 从
G
t
G_t
Gt? 变成
G
t
?
v
^
(
S
t
,
w
)
G_t - \hat v(S_t,\mathbf{w})
Gt??v^(St?,w),并且多一个价值网络,也进行跟更新。
好处:
基线的直觉:
把 TD target 从全为正变成有正有负,更新的时候更有区分度。
再把 TD target 变化一下,从多步(MC)变成单步(TD),其他和 REINFORCE 一样。
之所以叫做 Actor-Critic 就是把基线
v
^
(
S
,
w
)
\hat v(S,\mathbf{w})
v^(S,w) 当作评论家,它评价状态的好坏;而
π
(
A
∣
S
)
\pi(A|S)
π(A∣S) 当作演员,尝试去按照评论家的喜好(体现为 TD target 用评论家来进行估计)来做动作。
REINFORCE:MC,更新慢
δ
=
G
t
\delta =\red{ G_t}
δ=Gt?
θ
t
+
1
←
θ
t
+
α
δ
?
ln
?
π
(
A
t
∣
S
t
)
\theta_{t+1} \leftarrow \theta_t + \alpha \delta \nabla \ln{\pi(A_t|S_t)}
θt+1?←θt?+αδ?lnπ(At?∣St?)
基线 REINFORCE:MC,更新慢,但是有基线,方差较小,收敛快,调参难度大一些
δ
=
G
t
?
v
^
(
S
t
,
w
)
\delta = \red{G_t-\hat v(S_{t},\mathbf{w})}
δ=Gt??v^(St?,w)
w
t
+
1
←
w
t
+
α
w
δ
?
v
^
(
S
t
)
\blue{\mathbf{w}_{t+1} \leftarrow \mathbf{w}_t + \alpha_{\mathbf{w}} \delta \nabla {\hat v(S_t)}}
wt+1?←wt?+αw?δ?v^(St?)
θ
t
+
1
←
θ
t
+
α
θ
δ
?
ln
?
π
(
A
t
∣
S
t
)
\theta_{t+1} \leftarrow \theta_t + \alpha_{\theta} \delta \nabla \ln{\pi(A_t|S_t)}
θt+1?←θt?+αθ?δ?lnπ(At?∣St?)
Actor-Critic:TD,更新快,调参难度大一些
δ
=
R
t
+
γ
v
^
(
S
t
′
,
w
)
?
v
^
(
S
t
,
w
)
\delta = \red{R_t+\gamma \hat v(S'_{t},\mathbf{w})-\hat v(S_{t},\mathbf{w})}
δ=Rt?+γv^(St′?,w)?v^(St?,w)
w
t
+
1
←
w
t
+
α
w
δ
?
v
^
(
S
t
)
\blue{\mathbf{w}_{t+1} \leftarrow \mathbf{w}_t + \alpha_{\mathbf{w}} \delta \nabla {\hat v(S_t)}}
wt+1?←wt?+αw?δ?v^(St?)
θ
t
+
1
←
θ
t
+
α
θ
δ
?
ln
?
π
(
A
t
∣
S
t
)
\theta_{t+1} \leftarrow \theta_t + \alpha_{\theta} \delta \nabla \ln{\pi(A_t|S_t)}
θt+1?←θt?+αθ?δ?lnπ(At?∣St?)