深入理解强化学习——马尔可夫决策过程:价值迭代-[确认性价值迭代]

发布时间:2023年12月18日

分类目录:《深入理解强化学习》总目录


如果我们知道子问题 V ? ( s ′ ) V^*(s') V?(s)的最优解,就可以通过价值迭代来得到最优的 V ? ( s ) V^*(s) V?(s)的解。价值迭代就是把贝尔曼最优方程当成一个更新规则来进行,即:
V ( s ) ← max ? a ∈ A ( R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V ( s ′ ) ) V(s)\leftarrow\max_{a\in A}(R(s, a)+\gamma\sum_{s'\in S}p(s'|s, a)V(s')) V(s)aAmax?(R(s,a)+γsS?p(ss,a)V(s))

只有当整个马尔可夫决策过程已经达到最佳的状态时,上式才满足。但我们可以把它转换成一个备份的等式。备份的等式就是一个迭代的等式。我们不停地迭代贝尔曼最优方程,价值函数就能逐渐趋向于最佳的价值函数,这是价值迭代算法的精髓。

为了得到最佳的 V ? V^* V?,对于每个状态的 V V V,我们直接通过贝尔曼最优方程进行迭代,迭代多次之后,价值函数就会收敛。这种价值迭代算法也被称为确认性价值迭代(Deterministic Value Iteration)。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

文章来源:https://blog.csdn.net/hy592070616/article/details/135003716
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。