15. 蒙特卡诺简介

发布时间:2024年01月10日

1. 什么是蒙特卡诺?

  • Monte Carlo是一种基于概率与统计学的算法;
  • 该方法是通过大量随机实验,利用统计学方法获得领域问题中的随机过程的接近真实的分布;
  • 该方法的优势在于通用性,不受领域知识的限制

2. 何时使用蒙特卡洛方法?

根据贝尔曼期望方程和最优方程可知,要通过动态规划的方式求解最优策略,必须首先知道立即回报期望矩阵 R R R和状态转移数组 P P P,否则,无法求解状态值函数 V ( s ) V(s) V(s)及行为值函数 Q ( s , a ) Q(s,a) Q(s,a),而实际中,智能体往往不知道环境动力学(即R、P都未知)。在这种情况下,可以考虑使用蒙特卡洛方法,根据 V ( s ) V(s) V(s) Q ( s , a ) Q(s,a) Q(s,a)的定义,通过与环境的交互,进行随机抽样,并统计结果,从而得到接近真实 V ( s ) V(s) V(s) Q ( s , a ) Q(s,a) Q(s,a)的真实分布,在此基础上,进行策略改进。
一句话:当环境模型参数R和P未知时,使用蒙特卡洛方法获取状态值函数或行为值函数的估计,在此基础上进行策略改进。

文章来源:https://blog.csdn.net/caijungan/article/details/135509605
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。