策略梯度的缺点
步长难以确定,一旦步长选的不好,就导致恶性循环
步长不合适
→
策略变差
→
采集的数据变差
→
(回报
/
梯度导致的)步长不合适
步长不合适 \to 策略变差 \to 采集的数据变差 \to (回报/梯度导致的)步长不合适
步长不合适→策略变差→采集的数据变差→(回报/梯度导致的)步长不合适
一阶信息不限制步长容易越过局部最优,而且很难回来
思想:
步骤
优势:
缺点:
PPO 实际上就是为了解决 TRPO 的这两个问题而提出的,做的改进是:
策略梯度
REINFORCE (MC,从梯度上升开始、除以
π
\pi
π变成 Ln)
REINFORCE → 基线 REINFORCE (MC,
G
?
v
(
s
)
G-v(s)
G?v(s))→ Actor-Critic(TD,
r
+
γ
v
(
s
)
?
v
(
s
′
)
r+γv(s)-v(s')
r+γv(s)?v(s′))
REINFORCE → TRPO (有约束、二阶信息)→ PPO(有约束转无约束、截断重要性)
REINFORCE → …
https://spinningup.openai.com/en/latest/algorithms/trpo.html
https://jonathan-hui.medium.com/rl-the-math-behind-trpo-ppo-d12f6c745f33
https://towardsdatascience.com/trust-region-policy-optimization-trpo-explained-4b56bd206fc2