根据贝尔曼期望方程和最优方程可知,要通过动态规划的方式求解最优策略,必须首先知道立即回报期望矩阵
R
R
R和状态转移数组
P
P
P,否则,无法求解状态值函数
V
(
s
)
V(s)
V(s)及行为值函数
Q
(
s
,
a
)
Q(s,a)
Q(s,a),而实际中,智能体往往不知道环境动力学(即R、P都未知)。在这种情况下,可以考虑使用蒙特卡洛方法,根据
V
(
s
)
V(s)
V(s)和
Q
(
s
,
a
)
Q(s,a)
Q(s,a)的定义,通过与环境的交互,进行随机抽样,并统计结果,从而得到接近真实
V
(
s
)
V(s)
V(s)和
Q
(
s
,
a
)
Q(s,a)
Q(s,a)的真实分布,在此基础上,进行策略改进。
一句话:当环境模型参数R和P未知时,使用蒙特卡洛方法获取状态值函数或行为值函数的估计,在此基础上进行策略改进。