提出了一种基于人工智能深度强化学习算法的扩展性及智能性较高的智能选择模式。在人工智能深度强化学习 算法的基础上,引入了动作抑制、四重 Q 学习 (QQL) 及归一化 Q-value 等机制,研究并实现了在满足业务延迟要求及公平 性的原则下,物联终端更智能地选择其接入或切换边缘服务器。该方案减少了业务延迟,提高了响应效率,有助于提高业务 安全及运营管理水平。 关 键 词 人工智能; 云边端; 深度强化学习算法; 边缘服务器; 配电站房运检 中图分类号 TM18 文献标志码 A doi:10.12178/1001-0548.2022119 Research on Intelligent Selection Mode of Edge Server Based on Artificial Intelligence Deep Reinforcement Learning Algorithm LI Xiaojing1*, YANG Dongdong1, HAN Rundong2, YU Hua1, and YIN Chongzhi1 (1. Electric Power Research Institute of State Grid Shanxi Electric Power Company Taiyuan 030001; 2. Equipment Department of State Grid Shanxi Electric Power Company Taiyuan 030001) Abstract Based on the artificial intelligence deep reinforcement learning algorithm, this paper proposes an intelligent selection mode with high fairness, expansibility and intelligence. On the basis of the artificial intelligence deep reinforcement learning algorithm, innovative mechanisms such as action inhibition, quadruple Q- learning (QQL) and normalized Q-value are introduced. With the research results of this paper, the IoT (Internet of Thing) terminal can more intelligently select its access or handover edge server under the principle of meeting the service delay requirements and fairness. This scheme reduces service delay, improves service response efficiency, and has good value significance for improving service security and operation management level. Key words artificial intelligence; cloud edge end; deep reinforcement learning algorithm; edge server; operation inspection of distribution station building 近年来,人工智能和物联网技术得到飞速发 展,物联终端接入数量呈现几何级数增长,相应的 物联网相关系统仍以终端感知数据采集及分析处理 为主,信息化系统由传统的 C/S、B/S 架构,逐渐 演进为云端系统结合边缘代理服务器的云?边?端 架构模式,以提高业务处理前置化能力[1]。相对传 统技术架构而言,云?边?端架构中,部署边缘服 务器更有利于大量终端设备的接入,以及结合运检 业务进行本地计算和处理,降低业务对云端后台系 统的依赖性,因为边缘服务器在物理上比传统云服务器 更靠近现场和客户,同时可提供更低的网络延迟[2]。 由于边缘服务器在计算、存储和通信资源等方 面存在一定限制,部署服务有限。当海量终端接入 后,通讯及业务处理并发量大时,存在着由于数据 计算和业务处理需排队导致堵塞延时的问题,甚至 宕机等风险[3]。由此提出在现场部署多个边缘服务 器或在附近区域租用云服务器做边缘处理,构建边 缘服务器集群。由于现场并发通讯的终端数量较 多,如何选择最佳边缘服务器进行计算和业务处理 是研究的主要问题。以电网某配电站房运检业务为 收稿日期:2022 ? 04 ? 26;修回日期:2022 ? 08 ? 30 基金项目:国网山西省电力公司科技项目 (520530202002) 作者简介:李小婧 (1992 ? ),女,高级工程师,主要从事人工智能、物联网等方面的研究. *通信作者:李小婧,E-mail:594122581@qq.com 第 52 卷 第 4 期 电 子 科 技 大 学 学 报 Vol.52 No.4 2023 年 7 月 Journal of University of Electronic Science and Technology of China Jul. 2023 例,当本地的边缘服务器已发生通讯堵塞或宕机问 题时,常见的解决方案会将终端切换到有足够容量 且延迟最低的边缘服务器[4]。 由此,本文利用人工智能 (AI),提出采用深度 强化学习 (RL) 算法的边缘服务器智能选择方法来 构建 Q 平衡网络,该网络具备高度动态匹配、高 度智能选择、最低延迟等优点。由于 RL 算法特别 适合高度变化的环境,本文基于该算法,引入动作 抑制、四重 Q 学习 (QQL) 和 Q 值归一化等机制, 构建了终端?服务器匹配延迟方差的强化学习模 型,提出智能选择边缘服务器的具体解决方案。该 方案在终端设备尤其并发数超标或边缘服务器宕机 后,终端设备快速选择最优的边缘服务器进行智能 切换,同时减轻延时等风险问题,实现了边缘服务 器在满足延迟要求下的智能动态选择切换,同时考 虑到了公平性策略[5]。本文研究不仅更好地解决了 海量终端接入及大并发时导致的边缘服务器堵塞延 迟甚至宕机等风险,同时对边缘服务器提供了更加 科学合理的部署策略,以减少服务器的数量。 1 主要问题及研究思路 1.1 主要问题 对于服务器的选择和配置方法,国内外开展了 较多研究,如文献 [6] 提出优化切换镜像服务器后 减少整体用户延迟;文献 [7] 提出了用户?服务器 匹配算法,利用系统最大化处理能力使用户切换到 不同的服务器上达到整体延迟优化;文献 [8] 提出 中值优化方法减少视频流端到端传输延迟优化问 题;文献 [9] 提出在客户端使用域名系统 (DNS) 代理,并采用负载均衡功能选择延迟最低的内容分 发网络 (content delivery network, CDN),以供客户 端选择合适的 CDN 服务器;文献 [10] 结合遗传算 法进行移动边缘计算中的服务选择,以减少时延。 但上述常见方法只考虑了减少延迟,并未实现高度 动态化、智能化、公平化[11]。 以图 1 终端?服务器拓扑图为例,U、EN 和 DEN 分别为终端、边缘节点 (单个边缘服务器) 和 委托的边缘节点[12]。EN 和 DEN 是配电站房运检系 统中的一部分,DEN 是终端首次链接的边缘节点 EN,当发生终端设备切换 EN 时,服务器选择算 法在 DEN 中运行,并由 DEN 给出终端该链接或切 换的 EN。EN EN DEN U U U U U U U U U U U U U U U DEN DEN 50 ms 50 ms 图 1 终端?服务器拓扑图 一个 EN 可处理多个终端,但其容量有限,尤 其高并发时系统必须确保终端和 EN 之间的延迟不 超过本设备指定的延迟阈值。如若有一些终端一起 同时上报数据,并且 EN 同时针对终端进行业务处 理,假设其端到端的延时阈值为 100 ms,那么任 何终端与其 EN 之间的单向延迟不能超过 50 ms, 因此给出 50 ms 的半径到每个 EN。此外,系统须 确保终端在会话中所经历的延迟彼此尽可能接近, 即终端间延迟变化最小,以提供公平的处理能力和 竞争环境[13]。从图中可以看出,黑色终端可以连接 到本地及相邻的多个 EN,考虑到多 EN 选择和延 迟阈值、最大容量等约束条件,需充分考虑如何有 效解决多变量优化问题,如终端设备会因上电\关 机\重启动态接入,每类终端设备需满足延迟阈值 要求,EN 达到处理瓶颈时引发堵塞甚至宕机等问 题;动态部署或删除 EN 时,系统能否灵活、合理 地将终端设备分配到合适的 EN 成为挑战[14]。 本文中的终端?边缘服务器匹配的公平性原则 主要指早接入的终端拥有更高的优先权以及更低的 延迟分配资源进行数据和业务处理,相对后接入的 终端存在相对意义上的“不公平”。为此,本文使 用 RL 并提出了一种智能选择方案,该方案提供了 更高的公平性,同时也能更好地减少延迟。 1.2 研究思路 针对上述问题描述,为在满足延迟的条件下, 实现动态化、智能化、公平化的终端?边缘服务器 选择,本文主要围绕以下两项内容展开研究。