【RL】(task3)A2C、A3C算法、JoyRL

发布时间:2024年01月21日

note

一、A2C算法

在强化学习中,有一个智能体(agent)在某种环境中采取行动,根据其行动的效果获得奖励。目标是学习一种策略,即在给定的环境状态下选择最佳行动,以最大化长期累积的奖励。

A2C(Advantage Actor-Critic)

  • Actor-Critic 框架:A2C 基于 Actor-Critic 框架。在这个框架中,有两个主要部分:Actor 和 Critic。Actor 负责选择行动,Critic 评估所选行动的好坏。简单来说,Actor 是决策者,而 Critic 是评价者。
  • Advantage 概念:在 A2C 中,“Advantage”指的是某个行动相对于平均行动的预期效果好多少。这有助于理解某些行动为什么比其他行动更好。
  • 工作原理:A2C 通过训练 Actor 和 Critic 来改善决策。Actor 根据 Critic 的评价来调整其策略,而 Critic 则根据实际结果来调整其对行动好坏的评估。
  • 通俗解释:可以把 A2C 想象成一个足球队,其中 Actor 是球员,Critic 是教练。球员(Actor)根据场上情况做出决策,而教练(Critic)则评估这些决策并指导球员如何改进。
import torch
import torch.optim as optim
import torch.nn as nn
import torch.nn.functional as F
from torch.distributions import Categorical
import numpy as np
from multiprocessing import Process, Pipe
import argparse
import gym

# 建立Actor和Critic网络
class ActorCritic(nn.Module):
    ''' A2C网络模型,包含一个Actor和Critic
    '''
    def __init__(self, input_dim, output_dim, hidden_dim):
        super(ActorCritic, self).__init__()
        self.critic = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, 1)
        )
        
        self.actor = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, output_dim),
            nn.Softmax(dim=1),
        )
        
    def forward(self, x):
        value = self.critic(x)
        probs = self.actor(x)
        dist  = Categorical(probs)
        return dist, value

class A2C:
    ''' A2C算法
    '''
    def __init__(self,n_states,n_actions,cfg) -> None:
        self.gamma = cfg.gamma
        self.device = cfg.device
        self.model = ActorCritic(n_states, n_actions, cfg.hidden_size).to(self.device)
        self.optimizer = optim.Adam(self.model.parameters())

    def compute_returns(self,next_value, rewards, masks):
        R = next_value
        returns = []
        for step in reversed(range(len(rewards))):
            R = rewards[step] + self.gamma * R * masks[step]
            returns.insert(0, R)
        return returns

二、A3C算法

A3C(Asynchronous Advantage Actor-Critic)

  • 异步框架:A3C 在 A2C 的基础上增加了“异步”这一概念。这意味着多个智能体(即多个 Actor-Critic 对)同时在不同的环境副本中学习。
  • 并行学习:在 A3C 中,每个智能体独立地探索环境并学习。它们的学习结果会不时地汇总更新到一个全局模型中。
  • 效率和稳定性:由于是并行处理,A3C 可以更高效地学习,并且由于多个智能体探索不同策略,算法的稳定性和鲁棒性也得到提升。
  • 通俗解释:A3C 就像是许多足球队同时在不同的球场上训练。每个队都有自己的球员(Actor)和教练(Critic),他们独立训练并不断向一个中央团队报告他们的进步。中央团队汇总这些信息,以帮助每个队伍更好地训练。

时间安排

任务天数截止时间注意事项
Task01: 马尔可夫过程、DQN算法3天1月15周一-17日周三
Task02: 策略梯度算法3天1月18日周四-20周六
Task03: A2C、A3C算法、JoyRL开源文档(关注多进程)3天1月21日周日-23日周二
Task04: DDPG、TD3算法3天1月24日周三-26日周五
Task05: PPO算法,JoyRL代码实践(选择任一算法任一环境,研究算法不同参数给实验结果带来的影响,也可以用JoyRL上没有跑过的环境尝试)6天1月27日周六-2月1号周四

Reference

[1] 开源内容https://linklearner.com/learn/detail/91
[2] https://github.com/datawhalechina/joyrl-book

文章来源:https://blog.csdn.net/qq_35812205/article/details/134322141
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。