分类目录:《深入理解强化学习》总目录
如果我们知道子问题
V
?
(
s
′
)
V^*(s')
V?(s′)的最优解,就可以通过价值迭代来得到最优的
V
?
(
s
)
V^*(s)
V?(s)的解。价值迭代就是把贝尔曼最优方程当成一个更新规则来进行,即:
V
(
s
)
←
max
?
a
∈
A
(
R
(
s
,
a
)
+
γ
∑
s
′
∈
S
p
(
s
′
∣
s
,
a
)
V
(
s
′
)
)
V(s)\leftarrow\max_{a\in A}(R(s, a)+\gamma\sum_{s'\in S}p(s'|s, a)V(s'))
V(s)←a∈Amax?(R(s,a)+γs′∈S∑?p(s′∣s,a)V(s′))
只有当整个马尔可夫决策过程已经达到最佳的状态时,上式才满足。但我们可以把它转换成一个备份的等式。备份的等式就是一个迭代的等式。我们不停地迭代贝尔曼最优方程,价值函数就能逐渐趋向于最佳的价值函数,这是价值迭代算法的精髓。
为了得到最佳的 V ? V^* V?,对于每个状态的 V V V,我们直接通过贝尔曼最优方程进行迭代,迭代多次之后,价值函数就会收敛。这种价值迭代算法也被称为确认性价值迭代(Deterministic Value Iteration)。
参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022