强化学习这一概念在历史上来源于行为心理学,来描述生物为了趋利避害而改变自己行为的学习过程。人类学习的过程其实就是为达到某种目的不断地与环境进行互动试错,比如婴儿学习走路。强化学习算法探索了一种从交互中学习的计算方法。
强化学习算法的逻辑是,如何将接收的信息映射到行为从而获得最多的奖励。学习者只能通过不断尝试来发现哪些行为会产生最多的奖励,注意:当前的行为不仅会影响当前,还会影响未来,因此会影响所有随后的奖励。因此强化学习有两个重要的特征:试错搜索与延迟奖励。
强化学习不同于监督学习。监督学习是指从标记的训练数据来推断一个功能,当出现训练集中没有的情况时可以正常地行动。强化学习不同于无监督学习。无监督学习是在未标记的数据集中寻找隐藏的结构。强化学习是试图最大化奖励信号,因此,可以认为其是第三种机器学习范式。在所有形式的机器学习中,强化学习是最接近人类的学习方式。
这些案例都涉及决策主体与其环境的互动,通过预测未来环境的状态,来正确地选择有远见的行动。另外,这些案例都涉及明确的目标,棋手知道自己是否赢了,小羚羊知道自己什么时候摔倒,扫地机器人知道电池电量什么时候耗尽。随着时间的推移,决策主体可以根据其经验来提高其相应的能力。
除了智能体(Agent)外,强化学习系统包括四个要素:策略(Policy),奖励(Reward),价值(Value)以及环境模型(Model)。
策略(Policy)
策略定义了智能体对于给定状态所作出的行为,换句话说,就是一个从环境中感知的状态到采取行动的映射。策略是强化学习系统的核心,因为可以通过策略来确定每个状态下的行为。
奖励(Reward)
奖励定义了强化学习问题的目标,在每个步长中,环境向智能体发送的标量即为奖励,智能体的唯一目标就是在长期运行中最大化所获得的总奖励,因此它能定义智能体表现的好坏,也可以认为奖励是影响策略的主要因素。
价值(Value)
奖励是对即时收益的衡量,而价值是对长期收益的衡量。简单来说,一个状态的价值是智能体从该状态开始,未来积累的奖励总量的期望值。例如,一种状态总是产生很低的即时奖励,却具有较高的价值,因为该状态的未来会伴随产生具有较高即时奖励的其他状态。这类似于,备考的过程很痛苦(较低的奖励),但考试会取得好的成绩(较高的价值)。
没有奖励就没有价值,评估价值的唯一目的是为了获得更多的奖励,但是,当我们评估策略的好坏时,我们最关心的是价值,我们寻求能带来最高价值而不是最高的奖励的动作,因为从长远来看,这种动作可以带来最大化的奖励总和。不幸的是,奖励基本上是由环境直接给予的,而价值必须根据智能体在整个周期中的表现进行估计。事实上,几乎所有强化学习算法的最重要的组成部分就是有效估计价值的方法。
环境模型(Model of the environment)
环境模型是一种对环境的模拟,或者说,它允许对环境的行为进行推断。例如,给定一个状态和动作,模型可能会预测下一个状态和下一个奖励。但并非所有的强化学习系统都需要一个模型,因此有基于模型(Model-based)和不基于模型(Model-free)两种不同的方法,
强化学习在很大程度上依赖状态,因为状态作为策略和价值函数的输入,同时也作为环境模型的输入,它向智能体转达 “环境如何” 的感觉,状态可以视为智能体可以获得的关于环境的任何信息。
大多数强化学习方法都是围绕价值函数构建的,但是解决强化学习问题并不一定要这样做,例如遗传算法、遗传规划、模拟退火等求解方法和其他优化方法从不估计价值函数,我们称这些方法为进化方法,如果策略的空间足够小,或者说构造成好的策略比较容易找到,并且有足够的时间用于搜索,那么进化方法是有效的。此外,当智能体无法感知环境的完整状态时,进化方法具有优势。
强化学习方法可以在与环境互动的同时学习,这是进化方法不能做到的。在许多情况下,能够利用个体行为相互作用细节的方法可能比进化方法更有效。进化方法忽略了强化学习问题的许多有用的结构:① 它们所搜索的策略是从状态到动作的函数;② 它们不会注意个体在其生命周期经历了哪些状态,或采取了哪些动作。