学习深度强化学习---第3部分----RL蒙特卡罗相关算法

发布时间：2023年12月17日

文章目录

3.1节蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。
如果状态转移概率是已知的，则是基于模型的方法。如果状态转移概率是未知的，则是免模型的方法。动态规划方法无法求解倒立摆问题，即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。
在这里插入图片描述

无偏估计量的理解参考：什么叫估计量的无偏性？一致性？有效性？、也可以参考下图（链接不好找，直接截图了）：

3.2节蒙特卡罗策略评估

法1：ML拟合模拟数据法：本节不讲应用机器学习算法学习一个转移概率（这种方法是模拟出大量的数据，即下图中列出来的数据，然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)）
法2：免模型强化学习法（即蒙特卡罗方法）
在这里插入图片描述
一个经历完整的MDP序列称为一次采样

3.3节蒙特卡罗强化学习

3.4节异策略蒙特卡罗法

文章来源:https://blog.csdn.net/qq_45893319/article/details/134970796
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！

学习深度强化学习---第3部分----RL蒙特卡罗相关算法

文章目录

3.1节 蒙特卡罗法简介

3.2节 蒙特卡罗策略评估

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法

3.1节蒙特卡罗法简介

3.2节蒙特卡罗策略评估

3.3节蒙特卡罗强化学习

3.4节异策略蒙特卡罗法