这是了解强化学习的一系列基础文章的后续文章。如果您有兴趣了解强化学习,请查看此处。
????????让我们尝试通过一个简单的例子来理解马尔可夫过程。(顺便说一句,我真的希望印度能赢得世界杯!)
????????好吧,回到这个例子,假设下表代表了印度板球队在世界杯比赛中的历史表现。
| | Winning | Losing | Drawing |
|---------|---------|--------|---------|
| Winning | 0.6 | 0.1 | 0.3 |
| Losing | 0.3 | 0.4 | 0.3 |
| Drawing | 0.4 | 0.2 | 0.4 |
????????注意:以上表格是转移矩阵,指把当前状态向量输入后,输出预测出可能的结果向量。?
????????这里有 3 种可能的状态:(获胜、失败和平局)。现在,让我们想象一下球队目前的状态是“胜利”。使用上表中的转移概率:
????????如果球队目前处于“获胜”状态,并且我们想要预测两场比赛后的状态,我们可以连续应用这些概率。
????????一场比赛后:
????????两场比赛后:
????????因此,在两场比赛之后,如果球队以“获胜”状态开始,则他们仍有 51% 的机会获胜,16% 的机会输球,33% 的机会平局。
????????这个简单的马尔可夫过程示例演示了如何根据板球队的历史表现概率对锦标赛中板球队比赛的潜在结果进行建模,从而帮助根据当前状态预测其未来状态。
????????因此,这构成了随机强化学习问题的基础,我们可以使用马尔可夫决策过程对环境进行建模。
????????现在,我们了解了马尔可夫过程,马尔可夫奖励过程是一个马尔可夫过程,我们可以将奖励与马尔可夫过程的状态转换联系起来,但不涉及决策或行动。马尔可夫奖励过程的关键组成部分是:
????????折扣系数 (γ):
????????让我们继续前面的例子来了解这个马尔可夫过程的价值函数。我们假设状态之间转换的奖励是:
| | Winning | Losing | Drawing |
|---------|---------|--------|---------|
| Winning | +10 | -5 | 0 |
| Losing | +8 | 0 | +2 |
| Drawing | +5 | -3 | 0 |
????????状态的价值函数使用以下公式计算:
????????MRP 的价值函数计算
????????其中γ 表示折扣因子 ,s' 表示下一个状态,s 表示当前状态。
????????上面的方程被称为贝尔曼方程,它可以帮助我们迭代计算每个状态的价值函数,提供马尔可夫奖励过程中从不同状态开始的预期累积奖励的估计。
????????马尔可夫决策过程
????????马尔可夫决策过程是马尔可夫奖励过程+行动。该流程的主要组成部分是:
{S, A, P, R, γ}
????????其中马尔可夫决策过程成分之上的附加成分是与每个状态转换相关的又名动作。
????????在马尔可夫决策过程(MDP)中,策略规定了代理在不同状态下选择操作的策略或规则。策略定义代理的行为,并通过指定代理在给定状态下应采取的操作来指导决策。
????????确定性策略 (π):
????????随机策略 (π):
????????在州 's' 采取行动 'a' 的政策
????????因此,对于给定的策略 (π),计算与状态相关的价值函数的贝尔曼方程可以表示为:
最优策略 π*
????????让我们考虑一个简单的网格世界场景来说明马尔可夫决策过程 (MDP) 中的策略评估和策略改进。
????????想象一个代理在 3x3 网格世界中导航。代理可以向上、向下、向左或向右移动,并且每一步都会收到 -1 的奖励,直到到达最终状态,它会收到 +10 的奖励。
2.价值迭代方程(策略评估):
V?(?s?) = Σ(a)?π?(?a?∣?s?) Σ(?s?′,?r)??p?(?s?′,?r?∣?s?,?a?)[?r?+?γ???V?(?s?′)]
在哪里:
3、迭代:
有多种技术和算法可用于马尔可夫决策过程 (MDP) 中强化学习的策略改进。这些方法的重点是增强代理的策略,以随着时间的推移实现更高的累积奖励。
贪心策略改进:
????????除了这些技术之外,还有基于 Q 的学习、蒙特卡罗策略改进和 Actor-Critic 方法来改进策略,我们将在另一篇文章中讨论这些方法。
????????可观察马尔可夫决策过程(MDP)是强化学习中的一个场景,其中代理在决策过程中可以完全访问环境的当前状态。简单来说:
????????在部分可观察马尔可夫决策过程(POMDP)中,代理缺乏对环境状态的完整和直接访问。相反,它收到的观察结果不明确且不完整,无法完全揭示真实状态。这种不确定性给决策带来了挑战,因为智能体必须根据观察和过去的行动维持对可能状态的信念。
????????关键点:
????????在 POMDP 中工作:
????????希望到目前为止您已经对马尔可夫过程、价值函数有了基本的了解,并对与马尔可夫过程相关的策略有了直观的了解。
参考资料:
回到未来:使用马尔可夫转移矩阵分析时间序列数据_马尔科夫转移概率矩阵应用案例??
?@souptik.reach.095。