团队成果分享-19
2023-4-20 08:26:17 Author: 网络与安全实验室(查看原文) 阅读量:22 收藏

团队科研成果分享

2023.04.17-2023.04.23

标题: QoS-Driven Distributed Cooperative Data Offloading and Heterogeneous Resource Scheduling for IIoT

期刊: IEEE Internet of Things Magazine, 2023

作者: Fan Zhang, Guangjie Han, Aohan Li, Chuan Lin and Li Liu.

分享人: 河海大学——李俊俪

01

研究背景

BACKGROUND

研究背景

工业物联网通过工业资源的网络互连、数据互通和系统互操作达到资源的高效利用,从而构建服务驱动型的新工业生态体系。然而,传统的云计算或终端计算模式无法满足工业物联网应用的资源密集型和低延迟需求,边缘计算便成为实现异构资源在工业终端设备(ITD)附近迁移的强大工具。由于工业物联网的异构性,需要考虑不同网络实体的协同计算和异构资源的协同分配与调度问题。因此,迫切需要设计一种协同的合作数据卸载和异构资源调度方法以保证不同业务场景下服务质量(QoS)要求。本文针对这一问题,设计了一种基于QoS驱动的分布式决策(QDDM)框架,该框架将原问题分解为工业终端设备(ITD)端DO和边缘服务器(EDS)端RS两个子问题并求解,增强了各网络节点的数据管理和调度自主权。

02

关键技术

TECHNOLOGY

关键技术

本文研究了动态设备密集型工业物联网的协同DO和异构RS (CDHR)问题。针对这一联合优化问题,设计了一个QoS驱动的分布式决策(QDDM)框架。QDDM将原问题分解为工业终端设备(ITD)端DO和边缘服务器(EDS)端RS两个子问题,针对ITD端DO子问题,提出了一种改进的基于软actor-critic (SAC)的多智能体深度强化学习(MSMD)算法以实现更准确的q值估计。基于每个ITD的DO决策,提出了一种线性逼近方法,将EDS端RS子问题转化为易于求解的线性规划子问题。

该方法的创新和贡献如下:

1)本文提出了一种通过引入软状态-动作奖励的概率分布函数改进的SAC(MSAC)算法来解决经典SAC算法中Q值估计不精确的问题。

2)将MSAC扩展到多智能体场景,提出了一种改进的基于SAC的MADRL (MSMD)算法,其中每个ITD都可以学习其去中心化DO策略。该算法创新地将集中式评论家网络分解为单个评论家网络的加权线性和,有效地解决了CTDE架构的CDM和MACA问题。

3)基于每个ITD接收到的DO决策,提出了一种线性逼近方法,对每个EDS进行分布式RS决策。该方法将原始非线性规划子问题转化为易于求解的线性规划子问题。

03

算法介绍

ALGORITHMS

算法介绍

1. MSAC算法

图1 MSAC算法示意图

在Dec-POMDP中,每个智能体都有连续的、高维的观察状态和动作空间和多模态奖励。因此,采用SAC算法进行DO决策。SAC算法的目标是最大化策略的期望收益和期望熵。然而,现有的SAC算法受到Q值估计不精确的限制。一方面,策略网络倾向于选择Q值最大的行为导致Q值高估。另一方面,经典的SAC算法利用两个Q网络输出两个估计的Q值并选择最小值来缓解Q值高估,这可能导致Q值低估和额外的计算量。

为了实现Q值的精确估计,本文提出了一种将分布RL与SAC相结合的MSAC算法。分布RL可以学习状态-动作收益的分布函数而不是收益的期望(即Q—value)。因此,智能体可以获取更多收益的统计信息,从而提高Q值的估计精度。图1展示了MSAC算法的示意图。该算法由一个评价演员网络、评价评论家网络、目标演员网络、目标评论家网络和重放缓冲区组成。两个目标网络用于生成单独的目标值,以增强训练的收敛性和稳定性。演员网络输出的是策略函数,评论家网络输出的是软状态-动作奖励的分布函数。评论家网络通过从重放缓冲区中提取的转换来训练,然后通过评论家网络的输出分布函数来训练演员网络。

2. MSMD算法

由于工业物联网环境是设备密集型的,我们将MSAC算法扩展到多智能体场景,提出了MSMD算法。MSMD算法采用CTDE架构。在训练阶段,集中的评论家网络收集所有智能体的全局信息(即联合观察行动历史、联合行动和全局奖励)来训练每个智能体的策略网络,从而解决了非平稳性问题。在执行阶段,每个智能体根据其本地的观察-动作历史和训练好的策略网络独立地做出自己的决策,增强了可扩展性。

MSMD算法在CTDE架构中引入了值函数分解(VFD)的概念。它将集中式评论家网络分解为独立评论家网络的加权线性和,自动学习每个智能体的局部软Q值函数。这带来了两个优点:1)每个智能体的策略梯度更新只依赖于它的本地评论家网络,而不是集中的评论家网络。因此,策略更新一个智能体的策略不会受到其他智能体潜在的次优策略的影响,解决了CDM问题。2)每个智能体可以利用其本地评论家网络来估计自己对全局奖励的贡献。

3. 框架描述

图2 QDDM框架图

图2显示了QDDM框架图,该框架由集中训练阶段(红色)和分散执行阶段(蓝色)组成。每个智能体包括1)一个局部评价演员网络和2)一个局部目标演员网络。边缘控制器包括1)一个集中评价评论家网络和2)一个集中目标评论家网络,3)一个评价混合网络,4)一个目标混合网络,5)D个局部评价评论家网络,6)D个局部目标评论家网络和7)一个全局重放缓冲区。局部评价演员网络表示每个智能体用于选择动作的估计策略函数。局部目标演员网络表示各智能体的目标策略函数。集中目标评论家网络表示全局软状态-动作收益的估计分布函数,用于指导每个局部评价演员网络的训练。集中目标评论家网络的期望是全局估计软Q值函数。集中目标评论家网络表示全局软状态-动作收益的目标分布函数。评价混合网络可以将全局估计软Q值函数分解为局部评价评论家网络的加权线性和。全局重放缓冲区用于存储每个时隙的全局转换。

在该框架中,采用多元正态分布对策略函数和分布函数进行建模。由于每个智能体只能获得其部分状态信息,因此利用深度递归Q网络(DRQN)模型来近似每个智能体的演员网络,其中一些深度神经网络(DNNs)的全连接(FC)层被门控递归单元(GRU)层取代。该算法具有结构简单、参数少、过拟合程度低、训练速度快等优点,可以解决各智能体局部观测的局部可观测性问题。采用多层感知器(MLP)模型对临界网络进行近似。采用FC模型生成混合网络的权值和偏置。 

3.1训练阶段

在时间步长t时,每个智能体从环境(流1)中获取其当前的局部观察动作历史,并将其输入到局部评价演员网络(流2)中,能够输出所有的概率分布可能的连续动作,并且在局部评价演员网络的末端添加约束层以删除未能满足端到端延迟和能量消耗约束的输出动作。一个动作的输出概率越高,这个动作被选中的可能性就越大。相应地,每个智能体根据局部评价演员网络随机选择一个动作(流程3)。EDS选择子动作是连续的,应该四舍五入到最接近的整数。然后,每个智能体广播它所选择的动作到EDSs(流4)。由于包含动作信息的包的大小通常相当小,可以忽略包的上传延迟。基于接收到的动作信息,每个EDS采用所提出的线性逼近方法为这些过渡段分配带宽和计算资源,从而获得全局奖励(流程5)。随后,每个智能体获得其下一个局部观察-动作历史 (流程6)。边缘控制器将经验样本存储到全局重放缓冲区中。然后,从全局重放缓冲区(流8)中随机提取几个转换用于更新集中评价评论家网络和局部评价演员网络的参数。具体更新流程如下。

首先,每个智能体将其下一个局部观测历史输入到局部目标演员网络(流9),并选择其下一个动作(流10)。然后,每个智能体将下一个动作和下一次联合观察-动作历史输入到其本地目标批评网络(流11),计算其局部目标软Q值(流12)。然后将这些Q值输入目标混合网络,计算全局目标软Q值(流13)。将下一个局部观测历史和下一个动作输入到集中目标评论家网络,并从中选择一个随机数。根据分配Bellman方程,利用全局奖励和随机数,联合目标策略函数可以近似目标分布函数(流14)。然后在集中评价评论家网络中输入当前观测历史和当前动作,输出估计的分布函数(流15)。因此,损失函数定义为估计分布函数与目标分布函数之间的Kullback-Leibler (KL)散度。通过最小化 (流16)来训练集中评价评论家网络,并采用小批量梯度下降法来最小化损失函数。随后,通过梯度反向传播(流17和流18),对评价混合网络和各局部评价评论家网络的参数进行端到端的更新。值得注意的是,每个局部评价评论家网络的参数都是共享的,从而减少了参数空间,加快了训练速度。然后,每个智能体可以根据其局部评价评论家网络(流19)训练其局部评价演员网络,以使全局软状态值最大化。最后,本文对评估网络的参数进行缓慢的跟踪,以更新目标网络的参数(流20),以提高训练的稳定性。此外,与评论家网络相比,演员网络具有更低的更新频率来学习更好的策略。

3.2执行阶段

在训练阶段之后,我们为每个智能体获得最优的局部策略。其次,每个智能体利用其局部策略和局部观测-动作历史来做出满足端到端延迟和能量控制的DO决策大前提约束。随后,基于这些DO决策,每个EDS做出满足资源约束的RS决策。

04

实验结果

EXPERIMENTS

实验结果

1. 实验装置

图3 真实工业物联网实验平台

本文建立了一个真实的工业物联网实验平台用于评估所有算法的性能。如图3所示,我们使用桌面作为SDN控制器,桌面配置Intel Core i7-8700 3.20GHz, NVIDIA GTX 1080,和32GB RAM。在这个桌面上还安装了带有Numpy和Pytorch的Python,它可以通过远程连接到CLSs桌面协议(RDP)。CLSs配备了Intel Xeon Cooper Lake 3.4GHz, NVIDIA Tesla V100和64GB RAM,使用EdgeForce G1000作为EDS。每台EdgeForce G1000都通过光纤连接到桌面,其计算能力可以通过扩展卡进行扩展。之后,本文采用EdgeForce N1000和树莓派A/B+/2B作为异构ITD。每个ITD通过IEEE 802.11 b/g/n/ac协议连接到EdgeForce G1000,并配备摄像头收集监控视频数据。考虑到各个ITD的训练速度较慢,所有方法的训练过程都是在桌面进行的。在训练阶段结束后,桌面使用secure shell (SSH)协议将训练好的神经网络(NNs)传输到各个ITD进行性能测试。

2. 收敛性

图4 四种方法的收敛性

在训练阶段,DNNs通过增加事件数进行多次训练。同时,将平均奖励作为衡量收敛性的指标来降低风险并增加实验结果的可信度。平均奖励被定义为所有episodes的每个时间步骤的平均奖励。图4显示了这四种方法的收敛属性。QDDM、COMASAC、MADDPG-SAC和MADDPG的训练时间分别为132秒、186秒、244秒和182秒。如图所示,QDDM具有最快的收敛速度和最高的平均奖励。原因在于:1)与COMA-SAC、MADDPG- sac和MADDPG相比,QDDM缓解了Q值估计的不精确性。2)与COMA-SAC相比,QDDM采用VFD来解决CDM和MACA问题。3) QDDM利用所提出的线性逼近方法进行最优RS决策。

3. 性能测试

训练阶段结束后,对所有方法进行了140个时隙的测试。QDDM、COMA-SAC、MADDPG-SAC和MADDPG的实际决策时间分别为0.003s、0.003s、0.0024s和0.0023s。由于所有方法的决策时间都可以忽略不计,因此每个ITD的延迟主要取决于数据处理的延迟。

图5 各EDS最大计算资源下的平均效用

图5显示了每个EDS的最大计算资源在30-50 Gcycle/s范围内时四种方法的平均系统效用。在该图中,当每个EDS的最大计算资源增加时,系统效用的逐渐上升是显著的。其原因是为了降低系统端到端时延,降低系统能耗。此外,QDDM的系统效用始终优于其他方法。

图6 不同ITDs数量下的平均效用

图6显示了四种方法在不同ITDs数量下的平均系统效用。从图中可以看出,随着ITDs数量的增加,系统效用显著下降。这是因为ITDs密度越高,工作负荷就越重。此外,QDDM的系统效用始终高于其他方法。

图7 最大发射功率下的平均效用

图7为每个ITD的最大发射功率在0.1 -0.9 W时四种方法的平均系统效用。从图中可以看出,当最大传输功率增大时,系统效用先急剧增大。这是因为随着传输功率的增加,上传数据的传输延迟会迅速降低,而传输能耗会缓慢增加。这可以显著提高系统吞吐量。这时系统效用趋于稳定。这是因为每个ITD都会选择一个最优的传输功率,以使系统效用最大化。此外,QDDM的系统效用始终优于其他方法。

05

总结

CONCLUSION

总结

本文将工业物联网的联合CDHR问题分解为ITD端DO和EDS端RS两个子问题。针对ITD端DO子问题,本文提出了一种MSAC算法来缓解Q值估计不准确的问题,并将该算法扩展到多智能体场景。同时,本文开发了MSMD算法为每个ITD做出分布式DO决策,该算法可以同时解决协同MADRL中CTDE架构的CDM和MACA问题。针对EDS端RS子问题,本文提出了一种线性逼近方法,对每个EDS进行最优RS决策。

END

扫描二维码关注我们

==河海大学网络与安全实验室==

微信搜索:Hohai_Network

联系QQ:1084561742

责任编辑:何宇


文章来源: http://mp.weixin.qq.com/s?__biz=MzI1MTQwMjYwNA==&mid=2247496761&idx=1&sn=ed9aef66b873fbbff662120bae1ef947&chksm=e9f1343ade86bd2ccf60231e6d3b2f90e3e6e65a7fa692e5b912aff5563191f94bcdab02220e#rd
如有侵权请联系:admin#unsafe.sh