面向策略多样性的无人集群合作演化建模及仿真

发布时间:2024年01月12日

源自:系统工程与电子系统

作者:谢震海, 何明, 禹明刚, 余烤华, 袁国栋.

“人工智能技术与咨询”? 发布

摘要

针对无人集群自主协同时作战单元策略选择多样性问题,基于无标度网络,引入公共物品博弈理论,改进愿景驱动机制,构建无人集群合作演化模型。首先,理论推导出集群作战单元总效能解析表达式。然后,仿真分析多样性策略选择情况下,收益系数、愿景水平、策略数量、成本等各类参数变化对无人集群合作水平的影响。最后,据此给出无人集群作战中有效应对多样性选择的合理建议,为无人集群的自组织协同提供决策支持,为有关理论研究转变为实际军事应用提供理论支持。

关键词

?策略多样性,?无标度网络,?无人集群,?合作演化

引言

无人化、智能化、体系化是未来战场的主流趋势, 其中群体智能是无人集群的核心技术, 集群自主协同作战是未来战争重要样式[1]。未来战场受敌火力威胁、敌兵力部署行动、战场环境态势多变等影响, 无人集群不可能始终按照预定方案执行军事任务, 更多地强调自主临机决策。无人集群作战的自主协同, 核心是通信、情报、火力等各类智能作战单元对资源的分配、共享、调度及使用, 目的在于各作战单元以最小代价获得集群作战效能的最大化, 本质上是集群单元的策略选择(更新)。

以联合登岛作战任务为例, 当前方指挥所无法及时有效干预无人集群执行作战任务时, 作为受领反机动保障任务的无人集群, 由于智能性的存在, 所配属的侦察单元、布雷单元、工程机械单元等均可独立决策。为保证自身的战场生存能力, 就侦察单元而言, 将会“有选择”执行侦察任务, 只侦察没有威胁的、或对其威胁较小的部分敌对目标, 甚至不及时侦察等等, 其选择侦察目标范围选择具有多样性。对于担负布雷任务的布雷单元而言, 在布置雷场时, 要么将自身弹药全部投入, 然后直接撤出战场; 要么根据地形, 有选择性的布置部分弹药; 或者在战地上选择小范围“象征性”布置, 甚至自身不布雷, 期待友邻单元完成任务等等, 其布雷范围的宽广、布雷量的多少也具有多样性。

作战中, 假如无人集群中的作战单元都以思量本身的生存力和维持自身持续作战能力为前提, 那么就会出现“消极怠工”, 造成“公地悲剧”[2], 导致作战计划失败。因此, 如何处理作战单元策略多样性问题, 实现作战集群整体作战效益的最大化发挥, 是当前亟需解决的技术难题和现实问题。

1? 国内外相关研究现状

在作战行动阶段,无人集群由于规模和类型不同、作战单元间需要相互协同以及战场环境实时发生变化等原因,导致集群中的信息连通十分复杂。因此, 无人集群的信息网络构建既要有传统作战网络的相关特性, 还需要有复杂网络的特性。目前, 采用随机网络[3]、社团网络[4-8]等复杂网络模型搭建信息传输框架成为主要趋势。

无人集群协同交互[9]的关键是无人作战平台之间的有效协同交互, 核心是资源全局优化配置, 实际上就是单个智能作战单元的利益诉求与集群作战效能需求的均衡, 本质是作战平台行为策略的多样性选择(更新)。集群行为策略的更新调整, 强调的是更新所带来的集群整体效用。为研究多个体合作困境, 解决“公地悲剧”情况的发生, 公共物品博弈是一个比较理想的模型[10-13]。

Santos等人[14]通过结合无标度网络特性, 推断出在无标度网络上也存在合作演化的情况, 揭示了网络的无标度特性(异质性)及大“度”节点之间的直接连接, 是合作现象涌现的核心因素。Szabo等人[15]在正则方格网络上研究了具有相变和志愿参与的空间公共物品博弈, 发现在规则网络中出现了相变现象。Wakano等人[16]发现在同一空间结构中, 利用机制可以提高公共物品博弈中合作的概率。Nowak团队[17-19]利用社团网络, 研究了人类社会产生合作行为的临界条件, 并探索了演化收敛概率和演化收敛时间之间在空间结构中的相互关系, 并将结构群体上的合作演化进一步扩展到加权图。Hauert[20]在研究经典公共物品博弈中时引入loner策略, 发现没有哪种策略是绝对占据优先条件的。Guan等人[21]发现在空间公共物品博弈中, 由于个体的学习能力有差异, 会导致合作演化时, 提高个体之间合作的能力。Szabo等人[22]引入强制更新制度, 让个体必须在3个策略中进行选择, 发现针锋相对策略能够提高集群的合作水平; 采用度为4的规则小世界网络模型[23]研究时, 发现3种策略将会循环到达稳定状态。Akcay[24]基于网络拓扑动态重构, 对策略选择产生的合作演化进行了研究。

国内, Li等人[25]通过在复杂网络上进行博弈仿真, 发现存在不完全背叛和不完全合作等混合策略, 并且这类混合策略越多, 则更能提高集群的合作能力。李艳[26]利用空间公共物品博弈模型, 研究个体相互间博弈时的多样性, 发现在混合均匀群体中, 采用持续合作策略更能让整个群体进行合作。Ye等人[27]以邻居分别为4或8的个体在规则网络和BA(Barabási-Albert)无标度网络中的合作情况发现, 邻居越多越容易促进合作。Shi等人[28-31]发现, 在公共物品博弈中, 由于具备偏好毗连的个体或者之间具有异质性, 会对集群的合作水平产生直接影响, 此外通过变化公共物品的收益系数也能造成集群的合作水平改变。此外, 北京大学王龙团队[32-37]、浙江大学郑大昉团队[38-40]、北京航空航天大学吕金虎团队[41]等以复杂网络为基, 深入研究了集群在不同情况、不同机制下的合作演化。

文献[42-47]对无人集群合作演化进行了初步探索。但是, 在解决无人集群合作演化的实际问题时, 上述成果仍存在两点不足: 一是对无人集群合作的研究中, 大部分都是基于有限混合均匀群体下, 对基于空间结构种群下的多策略情况的研究尚待展开。二是无人集群的网络架构不再是简单的全连接, 相比之下, 其更具有复杂性。本文通过构建无标度网络模型, 针对无人集群合作演化机制, 基于公共品演化博弈框架, 采用愿景驱动机制[48]进行无人集群合作演化机制建模, 通过理论推导和仿真分析多样性策略选择对集群整体收益的影响, 为实现无人集群的自组织协同提供决策支持。

2 数学模型

提高无人集群合作本领就是提升集群战斗力。处在空间结构内的“有理性思维”的作战单元, 在一定条件下自主协同达到整体效能的最大发挥, 其实质与演化博弈的思维不谋而合。因此, 研究处在空间结构内的无人集群合作能力, 关键就是解决好作战单元之间的网络构建和作战单元之间博弈时策略机制的更新问题。

2.1???无标度网络构建

无人集群在执行作战任务时, 由于数量比较庞大, 个体作战单元异构, 内部协同难度大; 再加上战场情况瞬息万变, 这些因素造成集群内部通信交互的要求高。其网络构建, 既要考虑作战、作战单元信息直接的交互原则, 又要考虑到作战指挥关系带来的网络层次更新。根据军事任务需求, 无标度网络刚好为无人集群合作演化行为发生提供了较好的空间模型基础。

无标度网络[49]和现实社会中网络特性一样, 能不断增长, 也能优先选择互联互通, 其核心思想可以表述为: 假设有m0个起点个体开始随机连接生成网络, 随着时间的增长, 在每个时间步中随机增加一个具有m(m≤m0)条边的新的个体。这里需要注意的是, 每个新增加的个体与一个已经存在的个体i连接的概率λ, 此时, 个体i的度ki和概率的计算方式为

图片

(1)

式中:?

图片

为某一时间段所有旧的个体度的求和, 其构造模型如图 1所示。

图片

图1???无标度网络模型示意图

2.2???无标度网络中公共物品演化博弈基本模型

无人集群自主协同, 主要是为适应作战环境, 在一定时间内, 多个作战单元通过多次随机选择、自主博弈, 从而获得集群效能最大目的。从本质上来看, 其实也是一个多方参与、多轮迭代的演化博弈过程。在无人集群自主协同中, 对于集群而言, 希望每一个作战单元投入尽可能多的资源, 以使集群作战效能最大化; 而对于作战单元而言, 假设每个作战单元完全理性, 则会选择不投入资源直接“搭便车”, 那么必然陷入不合作困境。公共物品博弈[50]对研究集群内个体多样性更具有针对性, 本节基于公共物品演化博弈框架, 在无标度网络中对集群自主协同过程进行建模。为便于表述, 将集群合作演化问题所涉及的概念与演化博弈术语做简单映射,如表 1所示。

图片

表1???概念映射

为推导无标度网络中作战单元总收益F, 将所需相关参数进行定义明确, 如表 2所示。

图片

表2???参数映射关系

在无标度网络中, 一个空间规模为N的无人集群, 每一个作战单元都有机会参与到一个n个作战单元组成的公共物品博弈中, 每个作战单元都可以参与投资(设支付c为1), 组成的策略集为S={0, 1/(n-1), 1/(n-2), …, 1}, 每一个时间步下, 网络中的每一个作战单元i都参与其相关的作战单元群体博弈, 即需要博弈ki+1次(ki为作战单元i的度)。

若某个作战单元x有kx个邻居, 则x参与的每个集群投资量为

图片

(2)

由公共物品博弈收益原理可知:

图片

(3)

则以作战单元x为焦点个体, 以y为中心的集群博弈时, 共有ky+1次。作战单元x的收益为

图片

(4)

由式(2)~式(4)可知:

图片

则作战单元x的总收益为

图片

(5)

2.3???策略更新机制

作战中, 在确保集群正常通信传输的情况下, 集群中作战单元互相间信息交互需求越小, 对内部通信资源压力越少, 从而在一定程度上保证集群网络的问题。从博弈中的策略更新机制来看, 愿景驱动机制主要关注个体自身平均收益与愿景水平对比变化, 来决定个体自身是否改变当前策略, 不虑邻居个体的收益, 受策略环境影响较小。因此, 这一理念比较符合无人集群合作的需求。

在传统的愿景驱动机制中, 对双策略的演化博弈而言, 参与博弈的个体将自身获得的收益将与愿景水平进行比较, 最终决定下一轮是否进行更换策略, 但由于个体策略的选择数只有两个, 更换策略时“非此即彼”, 获得收益大于愿景水平时个体偏向于更换策略, 否则保持现有策略, 很容易到达稳定。而对多策略演化博弈而言, 如果作战单元随机进行策略选择, 不考虑自身在下一轮博弈中是否增加收益, 那么将会导致演化无法到达稳定状态, 从而陷入无限循环博弈。此外, 从智能作战单元角度来看, 作战单元没有收益“期望”, 不符合作战单元的“理性思维”。因此, 需要对传统的愿景驱动机制进行改进。

假设某个作战单元i采用策略si, 获得的收益为fi与愿景水平α做比较, 以此来决定是否转换策略, 其转换概率为

图片

(6)

式中:?ω∈[0, 1]为选择强度; 作战单元i以概率P转换策略, 以概率1-P沿用当前策略。当转换策略时, 作战个体以概率P向策略si+1转换, 以概率1-P向策略si-1转换。则可知继续采用策略si?的概率为

图片

(7)

采用策略si+1的概率为

图片

(8)

采用策略si-1的概率为

图片

(9)

3 仿真分析

对第2节理论推导公式进行仿真, 通过在同一实验环境下设定相关参数, 将系统设定在40 000次博弈后开始取值, 每次取值为1 000次博弈结果的平均值, 共进行5次独立重复实验。作图分析作战单元在进行多样性选择策略时, 在不同收益系数、愿景程度、支付以及选择强度下, 对无人集群合作水平产生的影响。

3.1???收益系数r对无人集群合作的影响

假设共同参数c=1, α=2分别在以选择强度为弱选择ω=0.1、中等强度选择ω=0.5、强选择ω=1;策略数为S分别取2, 4, 8进行仿真, 相应情况如图 2所示。

图片

图2???收益系数对作战集群能力的影响

分析结果: ①在同一选择强度下, 随着无人作战单元策略数的增加, 进一步促使无人集群的合作水平的提高, 特别是在强选择环境中, 合作水平更高。这是因为作战单元策略选择的增多, 造成支付的方式多样化, 此外通过在改进愿景驱动机制条件下, 避免了作战单元随机转换策略, 在多次演化博弈时, 更能促使无人集群合作的涌现。②随着收益系数r的增加, 在多策略选择条件下, 无人集群的合作水平不断降低。这是因为对于作战单元而言, 不管个体选择什么策略, 收益系数的提高都会提高作战单元的收益, 这容易造成作战单元策略选择时的“自我满足”, 降低了演化博弈时作战单元改变策略的概率, 从而降低了整个无人集群合作水平。③当S=2时, 无人集群的合作水平随收益系数的增加而增加, 当S=4时, 无人集群的合作水平尽管有所降低, 但是表现很不明显。这是因为, 当作战单元为双策略时, 增大收益系数和提高选择强度, 都将促使无人集群的合作水平, 这也与课题组前期在全连通网络路架构中研究策略选择多样性时互相印证。而S=8时, 由于策略数够多, 无人集群已经趋向于全面合作, 因此收益系数的增加对无人集群合作水平影响不明显。

3.2???选择强度ω对无人集群合作的影响

假设参数c=1, α=2, r=2, S分别取2, 4, 8进行仿真, 相应情况如图 3所示。

图片

图3???选择强度对作战集群能力的影响

分析结果: ①当S=2时, 无人集群合作水平始终在50%之间徘徊, 这是因为所有的作战平台采取的策略几乎拥有相同的适应度, 满足采用自身原来的策略, 从而导致无人集群合作产生的效能不明显。②当S=4时, 无人集群合作水平随选择强度的增大而增大, 特别是在r=[0.1, 0.7]时, 合作水平提升很明显。这是因为在作战单位在多策略选择时, 受“偏私性”影响, 为提高自身收益, 根据改进愿景驱动机制, 随着选择强度的增大, 其策略转换的概率也逐步增大, 从而促使了合作水平提高, 导致集群合作涌现, 反映出作战效能的快速增加。③当S=8时, 由于策略的选择更加多样, 直接促使无人集群合作涌现, 导致集群合作水平无限接近100%。

3.3? ??愿景水平α对无人集群合作的影响

假设参数c=1, r=2, S分别取2, 4, 8, ω分别取0.1, 0.5, 1.0进行仿真, 相关结果如图 4所示。

图片

图4???愿景水平对作战集群能力的影响

分析结果: ①当S分别取2, 4, 8时, 即分别在弱选择强度、中等选择强度、强选择强度的条件下, 作战单元策略数的增多, 提高了无人集群合作水平能力, 表现出无人集群的合作涌现的产生, 验证了作战单元策略多样性选择在无人集群演化博弈中促合作的意义。②当S=2时, 不论是什么选择强度环境中, 愿景水平的增加对无人集群合作水平影响不大, 这是因为根据改进的愿景驱动机制可以看出, 策略的转换概率依赖于收益和愿景水平的变化。愿景水平的增加对作战的单元而言, 仅有两种策略选择, 为保持原有的收益, 它更倾向于保持自身策略不变化, 从而导致集群合作水平变化不大。③当S=4, ω=0.1时, 无人集群的合作水平随愿景水平的增加而增加, 这是因为对作战单元而言, 由于策略数的选择具有多样性, 受愿景驱动影响, 作战单元倾向于获得更大收益, 从而导致转换概率的增加, 导致无人集群作战水平的合作水平的提高。④当S=8时, 作战单元受策略选择多样性的影响, 促进了无人集群合作涌现, 集群的合作水平接近100%, 这时其他参数的变化对无人集群合作影响不大。

3.4? ??不同策略数S对无人集群合作影响

假设参数c=1, r=2, α=2进行仿真, 相应情况如图 5所示。

图片

图5???不同策略数对作战集群能力的影响

分析结果: ①不论在何种选择强度下, 无人集群合作水平都随作战单元策略选择数的增加而提高。②作战单元选择数越多, 合作水平越容易接近100%, 进一步验证了策略多样性促进无人集群合作涌现的出现。

3.5? ??支付c对无人集群合作的影响

假设参数α=2, r=2进行仿真, 相关结果如图 6所示。

图片

图6???支付对作战集群能力的影响

分析结果: ①在弱选择环境下, 当S=4时, 无人集群合作水平随支付的增加变化比较明显; 当S=2时, 无人集群合作水平随支付的增加变化不大; 当S=8时, 无人集群合作水平随支付的增加不明显, 但集群合作水平已经无限趋向于100%。这是因为, 作战单元策略多样性的选择, 在一定程度上降低了作战单元在合作中获取收益增加的难度, 从而造成无人集群合作的涌现。②作战单元策略的选择大于2时, 不论是强选择还是中等强度选择环境, 无人集群的合作水平均接近100%, 近似完全合作。这也说明了作战单元的策略多样性选择, 能促进无人集群的合作涌现出现。

4 结束语

作战中, 无人集群自主协同的关键点之一是处理好无人作战单元之间策略的选择, 从而发挥集群的最大作战效益。本文在无标度网络环境中, 引入公共物品博弈模型, 对作战单元策略多样性选择进行研究, 理论推导出集群作战单元总效能解析表达式。同时, 从作战单元具有“理性思维”角度出发, 考虑其进行多策略选择时, 期望提高自身效能, 对传统愿景驱动机制进行了改进, 通过引入多个转换概率, 确保集群最后可到达演化稳定状态。在此基础上, 仿真验证模型的可行性, 并进一步分析多样性策略选择情况下, 选择强度、收益系数、愿景水平、策略数、作战单元的支付等各类参数变化对作战集群效能的影响, 从而为无人集群作战的机制设计提供参考意见。

本研究中, 假设了无人集群中作战单元所处的无标度网络环境保持相对稳定, 而在现实战场环境中, 作战单元受攻击损毁或因战斗进程变化临时增加, 其通信的临时重组、作战单元指挥层级的临机更新等情况, 都会导致现有的网络重构, 以适应最新战场环境需求。因此, 在无人集群网络拓扑自适应动态重构下, 研究作战单元策略多样性如何影响集群合作演化将是下一步研究的方向。

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。

“人工智能技术与咨询”? 发布

文章来源:https://blog.csdn.net/renhongxia1/article/details/135543931
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。