03MARL-联合策略与期望回报

发布时间：2024年01月11日

文章目录

前言
一、MARL问题组成
二、联合策略与期望回报
- 1.History-based expected return
- 2.Recursive expected return

前言

多智能体强化学习问题中的博弈论知识——联合策略与期望回报

一、MARL问题组成

在这里插入图片描述

二、联合策略与期望回报

定义一种普遍的期望回报，能够用于所有的多智能体与环境的交互模型当中，因此在POSG的环境下定义，定义了两个等式计算期望回报，如下：

1.History-based expected return

在联合策略 $\pi$ 给定下，智能体i的期望回报为：
$\begin{aligned} U_i(\pi)& =\mathbb{E}_{\hat{h}^t\sim(\mathrm{Pr}^0,\mathcal{T},\mathcal{O},\pi)}\bigg[u_i(\hat{h}^t)\bigg] \\ &\begin{aligned}=\sum_{\hat{h}^t\in\hat{H}}\Pr(\hat{h}^t\mid\pi)u_i(\hat{h}^t)\end{aligned} \end{aligned}$
其中，H包含所有时刻的历史观测序列， $\Pr(\hat{h}^t\mid\pi)$ 代表给定策略下的所有历史观测的概率， $\begin{aligned}\Pr(\hat{h}^t\mid\pi)=&\Pr^0(s^0)\mathcal{O}(o^0\mid\emptyset,s^0)\prod_{\tau=0}^{t-1}\pi(a^\tau\mid h^\tau)\mathcal{T}(s^{\tau+1}\mid s^\tau,a^\tau)\mathcal{O}(o^{\tau+1}\mid a^\tau,s^{\tau+1})\end{aligned}$
$u_i(\hat{h}^t)$ 是智能体i在观测序列的折扣回报， $u_i(\hat{h}^t)=\sum_{\tau=0}^{t-1}\gamma^\tau\mathcal{R}_i(s^\tau,a^\tau,s^{\tau+1})$ ，使用 $\pi(a^\tau\mid h^\tau)$ 表示观测序列条件下，联合动作的概率分布，前提的假设是智能体之间的动作是独立的，因此 $\pi(a^\tau\mid h^\tau)=\prod_{j\in I}\pi_j(a_j^\tau\mid h_j^\tau)$ 。

2.Recursive expected return

类似于贝尔曼方程的形式定义期望回报，首先定义了联合策略下的状态价值函数与动作价值函数
在这里插入图片描述
在这里 $V_i^\pi(\hat{h})$ 代表智能体i在给定策略下，所有历史序列取得的值，可以当期望回报，而 $Q_i^\pi(\hat{h},a)$ 代表智能体i根据观测序列，在给定策略下，采取的联合动作带来的即使收益，进一步可以将回报期望写为： $U_i(\pi){=}\mathbb{E}_{s^0\sim\mathrm{Pr}^0,o^0\sim\mathcal{O}(\cdot|\emptyset,s^0)}[V_i^\pi(\langle s^0,o^0\rangle)]$

文章来源:https://blog.csdn.net/m0_66988867/article/details/135496592
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！