强化学习入门

发布时间：2024年01月18日

强化学习是指智能体通过不断试错的方式进行学习，利用与环境进行交互时获得的奖励或惩罚来指导行为

试错学习

尝试（决策-decision）
错误
结果：每次尝试无论产生什么样的结果，都会对下一次结果产生影响
- 奖励（reward）：正确的结果
- 惩罚（punishment）：错误的结果
学习：通过不断地尝试来修正自己的行为，从而在下一次尝试中做出更有利的行为

试错学习的目标通常是以最大化累积的奖励来呈现，这个过程就是序列决策（sequential decision making）。

换句话说，对于任意问题，只要能够建模成序列决策问题或者带有鲜明的试错学习特征，就可以使用强化学习来解决，并且这是截至目前最为高效的方法之一，这就是要学习强化学习的原因。

其他类型的强化学习，例如观察学习（模仿学习、离线强化学习）

马尔可夫决策过程

马尔可夫决策过程（Markov decision process，MDP），它能够以数学的形式来表达序列决策过程，也是强化学习最基本的问题模型。

智能体和环境之间交互是在一系列离散的时间（time step）中交互的，通常时间 $t$ 是有限的，即有限马尔可夫决策过程（Finite MDP）。上限用 $T$ 表示，从 $t$ 到 $T$ 为一个回合，比如游戏的一局。

有些方法可以拓展到连续时间的情况，但为了方便，我们尽量只考虑离散时步的情况。

性质

马尔可夫决策过程有一个前提，即马尔可夫性质。

$P(s_{t+1}|s_0,s_1,..,s_t) = P(s_{t+1}|s_t)$

$P(s_{t+1}|s_0,s_1,..,s_t，\alpha_t) = P(s_{t+1}|s_t,\alpha_t)$

在给定历史状态 $s_0,s_1,...,s_t$ 下，某个未来的状态只与当前状态 $s_t$ 有关，与历史的状态无关。

显然，现实生活中很多场景都不符合马尔可夫性质，但可以结合其他方法来辅助强化学习。

回报

$G_t = r_{t} + r_{t+1} + ... +r_{T}$

$G_t = r_{t} + \gamma r_{t+1} + ... +\gamma^nr_{T}$

其中 $G_t$ 是累积奖励（回报）， $\gamma$ 是衰减因子，位于0-1之间，奖励越靠后，权越小。

带衰减因子有以下考量

马尔可夫过程可能带环，避免无穷
想尽可能快的得到未来的奖励
作为超参数来调整对现在的状态还是之前的状态更看重

马尔可夫链

在这里插入图片描述

上图中， $s 1, s 2, s 3$ 分别表示三种不同的状态，其中的连线表示不同状态之间转移的概率。上图被称为马尔可夫链（Markov Chain），例如 $P_{12} = P(S_{t+1} = s_2|S_{t} = s_1)$

进一步可扩展为 $P_{ss'} = P(S_{t+1} = s'|S_{t} = s)$

其中大写S表示所有状态的集合，可以将状态之间转化的概率用表格表示。
在这里插入图片描述

进而表示为状态转移矩阵（State Transition Matrix）

在这里插入图片描述

马尔可夫奖励过程（Markov Reward Processes，MRPs）

是马尔可夫链 + 奖励函数R，如果状态有限，则奖励函数可以用向量表示。如下图所示，可以将奖励过程看作一个随波逐流的纸船，到达不同位置获得不同的奖励。

在这里插入图片描述

状态价值函数：被定义为回报的期望，即当我们进入某一个状态后，我们现在有多大的价值。

在这里插入图片描述

例如计算S4的价值函数

方法一，蒙特卡罗：从S4开始，采样生成很多轨迹，进行平均
方法二，贝尔曼方程

在这里插入图片描述

马尔可夫决策过程（MDPs）

马尔可夫决策过程可以用一个五元组< $S,A,R,P,\gamma$ >表示，其中A表示动作空间、R表示奖励函数、P表示状态转移矩阵、 $\gamma$ 表示衰减因子。

较MRP增加了行为A，未来的状态不仅依赖于当前的状态，也依赖于在当前状态智能体采取的动作。

性质

$P(s_{t+1}|s_t,\alpha_t) = P(s_{t+1}|s_0,s_1,..,s_t，\alpha_t)$

奖励函数也多了一个当前的动作 $R(s_t = s,a_t = a) = E[r_t|s_t=s,a_t=a]$

策略定义了在某一个状态应该采取什么样的动作。知道当前状态后，我们可以把当前状态代入策略函数来得到一个概率，即

$π(a|s) = p(a_t =a|s_t=s)$ 概率代表在所有可能的动作里面怎样采取行动，比如可能有 0.7 的概率往左走，有 0.3 的概率往右走，这是一个概率的表示。

在这里插入图片描述

左侧的马尔可夫链或者马尔可夫奖励过程，从一个状态到另一个状态只需要状态转移函数 $P （ s^{'} ∣ s ）$ 。右侧的马尔可夫决策过程需要先选择行为，即中间一层黑色结点，最终转移到另一种状态。

在这里插入图片描述

DQN

文章来源:https://blog.csdn.net/L1142456160/article/details/135663190
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！