目录
1. Deep Reinforcement Learning: A Survey
推荐一个我目前用的文献阅读兼翻译软件:小绿鲸英文文献阅读器。
可以在软件中建立文件夹,将文献上传,分类储存。
使用我的邀请码注册可以获得200M容量:
轻松阅读并管理海量文献,我正在用小绿鲸英文文献阅读器,点击链接 https://www.xljsci.com?regCode=VdEO2Z 并使用邀请码【VdEO2Z】注册,和我一起得200M网盘容量!(请在浏览器中打开链接)
状态和观察(states and observations)
动作空间(action spaces)
策略(policies)
行动轨迹(trajectories)
不同的回报公式(formulations of return)
强化学习优化问题(the RL optimization problem)
值函数(value functions)
参考:强化学习中的核心概念
分类方法:
?????? Model-Free:Q-Learning、Sarsa、Policy Gradients
?????? Model-Based:多了为现实世界建模的过程,多了一个虚拟环境、可通过想象。
?????? Policy-Based:输出下一步采取的各种行动的概率,根据概率选取行动,每种action都可能选到;通过概率分布可以处理连续动作。Policy Gradients
?????? Value-Based:输出所有行动的价值,根据最高价值选择动作。不能处理连续的动作。Q-Learning、Sarsa。
Actor-Critic:结合概率和价值的另一种方法
?????? Actor:根据概率做出动作
?????? Critic:根据动作给出价值
?????? 回合更新:玩完整个游戏才能总结过程中的转折点,然后学习。基础版Policy Gradients、Monte-Carlo Learning
?????? 单步更新:边玩边学习。升级版Policy Gradients、Sarsa、Q-Learning
?????? On-Policy:Sarsa、Sarsa(λ)
?????? Off-Policy:Q-Learning 、Deep Q Network
?????? 在线学习(Online Learning)和离线学习(Offline Learning)是两种在机器学习领域中常见的学习范式。它们主要的区别在于学习过程中数据的访问方式和应用环境。
?????? 在线学习:
?????? 在线学习是一种连续的学习方式,即用户不断接收并处理新数据。在在线学习情况下,模型基于一个接一个地单独训练样本进行训练和更新,这使得它能实时地学习和适应新的数据变化。
可以处理大量无法一次性存储在内存中的数据,是一种典型的大数据处理方式。
?????? 在线学习特别适合那些需要实时反馈和更新的任务,例如信用卡涉诈等金融领域应用,网络安全,搜索引擎优化等。
?????? 离线学习:
?????? 离线学习是指首先收集全部的训练数据,然后基于这些训练数据一次性地训练模型。在离线学习中,所有的训练数据必须在学习开始前就已经可用。
?????? 离线学习的一大优点是可以进行批处理,一次调整参数使用的是全部数据。这使得它在处理规模较小,并且不需要实时更新的情况下往往可以得到更好的学习结果。
?????? 离线学习适应于数据量相对较小,且基本稳定无需频繁更新的场景,如一些传统的分类,回归任务等。
?????? 在强化学习中,这两种学习方式也有不同的表现。如离线强化学习(Offline RL)是一种在不再与环境交互的情况下,仅使用过去的经验进行学习的方法。这是一种有效利用资源,降低训练成本的策略,尤其在实验成本高昂或环境交互有限的情况下。然而,在不再收集新的经验的情况下,离线RL需要面对无法探索新的可能性并可能过度拟合过去经验的问题。在线强化学习(Online RL)则是一种模型在与环境交互的过程中逐步学习和改进策略的学习方式,能够实时探索新的策略并获得更好的性能,但需要良好的探索策略以及较高的环境交互成本。
参考:强化学习方法汇总 (Reinforcement Learning)_哔哩哔哩_bilibili
基于学习目标进行分类
1、基于价值的算法:
?????? 这些算法主要在于学习一个函数来估计每个状态或状态-动作对的价值。牵头的例子包括Q-learning和它的变体,例如Deep Q Networks (DQN)。DQN结合了神经网络和Q学习的方法,通过一个名为“经验重放的”机制来解决数据之间的关联性以及非稳定目标问题。
2、基于策略的算法:
?????? 这些算法试图学习一个映射,从观察到动作,直接或间接的优化策略。一些示例包括策略梯度方法和自由能方程法,它们可以处理连续的行动空间。
3、基于最大熵的算法:
?????? 这些算法在优化一个目标函数的时候考虑了熵的增大,从而保持一种策略的多样性。这可以增强探索行为以及防止过早的收敛。
不同的DRL算法有其各自的优点,并且这些优点是相互补充的。他们研究了double DQN, prioritized experience replay, dueling network, noisy network, multistep learning, 和 distributional DQN,所有这些扩展技术都有可取之处,例如优化样本效率、增强稳定性、提高性能等。
区别:
基于策略的算法和基于价值的算法是强化学习的两种主要类型,并且他们在处理问题和训练方式上有一些重要的区别:
基于价值的算法:基于价值的强化学习方法,如Q-learning或Deep Q Networks (DQN),主要关注的是学习一个价值函数,这个价值函数可以评估在给定状态下执行特定动作的预期收益。通过学习这个价值函数,代理可以选择最优的动作来执行,即选择可以使价值函数值最大的那个动作。这种方法的好处是通常采样效率好,但是不适用于连续的行动空间。
基于策略的算法:基于策略的方法,如Policy Gradients 或 REINFORCE,利用梯度上升直接优化策略。策略被定义为一个映射函数,从观察到动作的概率分布。其优势在于它们能处理连续的行动空间,而且策略梯度算法旨在找到一种策略,使得预期的总回报最优。但是,策略梯度经常需要较大数量的样本来进行训练,可能因此训练过程会慢一些。
总的来说,两种方法各有其优势和局限性,且根据应用的具体环境和需求,它们可以相互补充。在实际问题中,研究者常常会采用叫做Actor-Critic的方法,这是一种结合价值和策略的方法,以充分利用这两种优势。
深度强化学习(DRL)是合并深度学习和强化学习两个领域的研究成果,形成的一种学习方法。将深度学习的强大学习表示能力和强化学习的环境交互,策略迭代思想结合在一起。深度强化学习在许多领域已经取得了突破性的进展,如游戏、机器人技术、自动驾驶等。
算法种类和特征:深度强化学习算法主要分为基于价值的算法,基于策略的算法以及基于最大熵的算法。其中,基于价值的算法(如Q-learning和它的变体DQN)致力于学习一个函数,用以估计每个状态或状态-动作对的价值。基于策略的算法(如策略梯度方法和自由能方程法)则试图学习一个映射,从观察到动作,并直接或间接的优化策略。基于最大熵的算法在优化目标的同时,也考虑熵的最大化,从而保持策略的多样性。
转移学习在强化学习中的应用:转移学习也在强化学习中起着重要的作用。在许多情况下,我们希望学习到的知识能够转换到其他任务或环境中。这要求算法能够抽取出更一般的知识,而不仅仅是特定环境的知识。
论文阅读和理解:在阅读深度强化学习相关论文时,需要提出和解答一些关键问题,如论文的主旨,算法的详细过程,实验的有效性等。
以上的总结都基于数据集中提供的信息。深度强化学习本身是一个快速发展的研究领域,还有许多其他的深度强化学习技术比如DPG,DDPG,TRPO,PPO,SAC等。为了获取更全面的理解,建议阅读更多相关的论文和书籍。