model free TD-control（Sarsa、Q-learning）

发布时间：2023年12月27日

文章目录

前言
On-policy TD-Sarsa
- 1.TD vs MC
- 2.Sarsa
Off -policy Q-learning
- 行为策略与目标策略
Q-learning vs Sarsa
- 悬崖行走的例子
- - - 总结

前言

RL学习、基于TD的方法求解最优策略，包括Sarsa与Q-learning

On-policy TD-Sarsa

1.TD vs MC

与MC相比，TD具有低方差、在线学习、利用不完整序列进行学习的优点，因此将TD应用于 $Q (S, A)$ 当中，使用 $\epsilon-Greedy$ 策略进行优化，针对每一时间步进行更新

2.Sarsa

在这里插入图片描述
名字由来：可以从图中的采样序列看到，S,A R S A组合起来就是sarsa，sarsa利用episode中每一步的采样结果进行更新Q，如下图所示

具体流程：

Sarsa收敛性说明：满足以下条件便可达到收敛

Off -policy Q-learning

行为策略与目标策略

行为策略：需要优化的策略，根据经验来学习最优的策略
目标策略：探索环境的策略，与环境交互产生经验的策略，将经验喂给行为策略进行优化
在这里插入图片描述
Q-learning有两种策略：行为策略与目标策略。
目标策略采用贪心算法选择使Q值最大的动作，行为策略采用 $\epsilon-Greedy$ 探索环境产生经验。优化过程中，行为策略与目标策略都进行优化，共享Q。

Q-learning具体流程：
在这里插入图片描述

Q-learning vs Sarsa

在这里插入图片描述
对Q-learning 进行逐步拆解，Q-learning与 Sarsa 唯一不一样的就是并不需要提前知道 $A_2$ ，就能更新 $Q(S_1, A_1)$ 。在一个回合的训练当中，Q 学习在学习之前也不需要获取下一个动作 $A^{'}$ ，它只需要前面的 $(S, A, R, S^{'})$ ，而Sarsa需要到达 $S^{'}$ 状态后采用策略选择动作 $A^{'}$ 后才能得到 $Q (S^{'}, A^{'})$ 进行更新。

悬崖行走的例子

在这里插入图片描述

Sarsa结果是Safe path，而Q-learning的结果是optimal path，原因是Sarsa采用的 $\epsilon-Greedy$ 策略，需要兼顾探索与利用，因此在训练时比较胆小，尽可能远离悬崖，而Q-learning将行为策略与目标策略进行分离，能够大胆探索环境，得到最最优解。

总结

针对TD与DP进行比较，sarsa相当于采用贝尔曼期望方程进行迭代，而Q-learning采用贝尔曼最优方程进行迭代。
在这里插入图片描述

文章来源:https://blog.csdn.net/m0_66988867/article/details/135200836
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！