01多智能体交互模型：标准博弈与随机博弈

发布时间：2024年01月10日

文章目录

前言
一、博弈分层模型

前言

多智能体强化学习——博弈论模型

一、博弈分层模型

在这里插入图片描述

1.Normal-form game（标准博弈）

标准博弈：在这里插入图片描述
每个智能体采取策略，根据策略采取对应的动作，所有动作组成联合动作空间，每个智能体根据奖励函数与联合动作空间获取奖励。

根据奖励的不同分类

在这里插入图片描述
主要分为三类：零和博弈、共同利益博弈、一般和博弈
零和博弈：所有智能体的奖励和为0；共同利益博弈：所有智能体采取相同的动作获取相同的奖励；一般和博弈：不同智能体之间的奖励函数没有关系

repeated Normal-form game

标准博弈描述了多个智能体的单次交互过程，通过重复标准博弈获得多次交互，得到一个序列的博弈过程。在第t个时间步，每个智能体根据随机性的策略采取相应的动作，第t个时间步的策略受到t时刻之前的联合动作的影响， $h^t=\{a^0,a^1,.....,a^{t-1}\}$ ，其中 $a^t=\{a_1^t,a_2^t,.....,a_n^t\}$ ，每个智能体在t时刻根据联合动作获取到对应的奖励。

有限重复博弈与无限重复博弈

一般并不相同，有限过程会受到“end-game”的影响，智能体采取动作时会倾向选择靠近游戏结束的动作，而无限过程，可以指定每一步游戏结束的概率。

更复杂的策略

在第t个时间步，策略是由过去的整个联合状态决定的，与其内部的历史联合动作序列相关( $f(h^t)$ )，随机策略更加复杂。

2.随机博弈

随机博弈：
在这里插入图片描述

随机博弈过程：根据初始状态分布，在t时刻每个智能体观测当前的环境 $s^t$ ，根据随机策略 $\pi_i (a_i^t|h^t)$ ，采取动作 $a_i^t$ ，产生t时刻的联合动作 $a^t=\{a_1^t,a_2^t,.....,a_n^t\}$ 。随机策略是在历史序列的条件下选择动作，其中 $h^t=(s^0,a^0,s^1,a^1,....,s^t)$ ，对于每个智能体都是全部可观测的。获取到t时刻的联合动作后，根据当前状态转移到新的状态 $\mathcal{T}(s^t,a^t,s^{t+1})$ ，每个智能体会得到对应的奖励 $r_i^t=\mathcal{R}_i(s^t,a^t,s^{t+1})$ ，经过许多时间步长后，终止在最终状态（有限过程）。

马尔科夫性

随机博弈过程遵循马尔科夫性质，下一时刻的状态与奖励只与当前的状态有关。
$\Pr(s^{t+1},r^t\mid s^t,a^t,s^{t-1},a^{t-1},...,s^0,a^0)=\Pr(s^{t+1},r^t\mid s^t,a^t)$
因此随机博弈也称为马尔科夫博弈过程。

repeated 标准博弈、随机博弈图示

在这里插入图片描述

文章来源:https://blog.csdn.net/m0_66988867/article/details/135471473
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！