团队科研成果分享-23
2023-8-28 16:15:46 Author: 网络与安全实验室(查看原文) 阅读量:14 收藏

团队科研成果分享

2023.08.28-2023.09.03

标题: Cooperative Partial Task Offloading and Resource Allocation for IIoT Based on Decentralized Multi-Agent Deep Reinforcement Learning

期刊: IEEE Internet of Things Journal, 2023, doi: 10.1109/JIOT.2023.3306803.

作者: Fan Zhang, Guangjie Han, Li Liu, Yu Zhang, Yan Peng, and Chao Li.

分享人: 河海大学——李俊俪

01

研究背景

BACKGROUND

研究背景

工业物联网(IIoT)为实现智能制造提供了强大平台,包括对生产过程的精准控制、制造流程的合理调度、工业资源的灵活配置,以构建应用驱动的工业生态系统。工业物联网设备可以生成大量的计算任务,这些任务通常是延迟敏感的、能源密集型的和计算密集型的。然而,传统的终端计算或云计算方式无法满足工业物联网应用的多样化服务质量需求。边缘计算可将计算、存储和网络资源迁移到IIoT设备的附近。为了实现资源的高效利用和提高卸载性能,需要考虑资源分配的优化。此外,每个IIoT设备都可以增加其发射功率以减少延迟,这会导致更高的能耗。因此,如何为动态和设备密集型工业物联网做出实时、准确、分散的任务卸载和资源分配决策,是一个亟需解决的问题。因此,本文研究了工业物联网的协作式部分任务卸载与资源分配(CPTORA)问题,旨在最小化长期总延迟和能量成本。

目前,现有研究面临着三大挑战:1)决策的实时性差:现有研究使用了一些迭代方法(如博弈论、网络经济学方法和启发式算法)来获得最优解。然而,真实的IIoT网络通常是动态的、复杂的和不确定的,包括时变的系统参数(例如,任务数据大小、IIoT设备状态和信道增益)。换句话说,当系统参数发生变化时,必须重新迭代地解决问题,从而无法满足IIoT应用的实时决策要求;2)决策精准度低:现有方法在每个时隙进行贪婪决策,忽略了系统的长期性能,容易导致局部最优;3)高节点密度:集中式方法依赖中央控制单元(CCU)收集所有网络节点的全局状态信息来做出集中式决策。随着网络节点数量的增加,这些方法的通信开销和决策复杂度急剧增加。

幸运的是,多智能体深度强化学习(MADRL)已经成为解决上述挑战的一种有前途的解决方案。为了结合集中式方法和分布式方法的优点,现有的MADRL方法通常采用集中式训练和分布式执行(CTDE)架构。在集中式训练阶段,CCU利用其全局视角为每个智能体学习由深度神经网络(DNN)表示的全局最优策略。完成训练后,每个智能体都可以利用其训练好的策略做出实时和分布式决策,而不需要CCU的参与。与集中式方法相比,MADRL方法能有效降低通信开销和决策复杂度,适用于设备密集型IIoT场景。然而,现有的基于CTDE的MADRL方法仍然面临两个主要问题:1)集中式-分布式不匹配(CDM):每个智能体的策略梯度更新依赖于集中式批评网络。一个智能体的次优策略可以通过集中式批评网络传播,从而对其他智能体的策略更新产生不利影响;2)多智能体信用分配(MACA):由联合动作产生的全局奖励使得每个智能体很难评估自己对全局奖励的贡献,因此难以促使一些智能体为了更大的全局奖励而牺牲自己。CDM和MACA问题都会降低MADRL方法的收敛速度和精度,从而导致次优的任务卸载和资源分配决策。

02

关键技术

TECHNOLOGY

关键技术

为了实现实时、准确、分散的任务卸载和资源分配,本文研究了动态和设备密集型IIoT的CPTORA问题。首先,设计了一个云边端协同网络架构,以实现负载均衡和资源高效利用。在此基础上,描述了一个CPTORA问题,以最小化长期总延迟和能量成本。为了降低该问题的复杂度,将原问题分解为设备端的任务卸载子问题和边缘服务器(ES)端的资源分配子问题。然后,提出了一种改进的基于软actor-critic(SAC)的分散MADRL (IS-DMDRL)算法来解决任务卸载子问题。每个ES在接收到每个IIoT设备的任务卸载决策后,采用拉格朗日乘子法(LMM)和KKT条件求解其资源分配子问题。该方法的创新点和贡献如下:

1)描述了一个CPTORA问题,以最小化长期总延迟和能量成本。为了降低问题的复杂度,将其分解为设备端的任务卸载子问题和ES端的资源分配子问题。其中,将任务卸载子问题描述为一个分散的部分可观察马尔可夫决策过程(DEC-POMDP)。给定每个IIoT设备的任务卸载决策,将每个ES的资源分配子问题表述为一个可分离的凹规划(SCP)问题;

2)提出了一种改进的基于SAC的集中式单智能体DRL(IS-CSDRL)算法,通过评估当前策略与目标策略之间的差异,利用散度正则化来解决收敛偏差问题。同时,引入了分布式强化学习来对状态动作回报的分布函数进行建模,从而缓解了Q值估计不准确问题;

3)将IS-CSDRL算法扩展到多智能体场景,提出IS -DMDRL算法。每个智能体都可以学习全局最优的任务卸载策略并独立做出决策。同时,采用值函数分解(VFD)方法,将集中式批评网络分解为单个批评网络的加权线性和,以自动学习每个智能体的局部Q值函数。该方法可以有效地解决CDM和MACA问题,提高现有MADRL方法的全局优化能力。

03

算法介绍

ALGORITHMS

算法介绍

(1)系统模型

A. 网络模型

如图1所示,所提出的云边端协同网络架构包括以下三层:1)IIoT设备层:该层包括各种IIoT设备,每个设备都可以通过异构无线网络接入ES层。根据应用的QoS/QoE需求,每个设备可以将其任务卸载到ES层和云层进行进一步处理;2))ES层:包括各种无线接入点(WAP)和软件定义网络(SDN)控制器。每个WAP都配备了一个ES来处理来自IIoT设备层的任务数据。每个WAP通过光纤链路连接到SDN控制器,SDN控制器通过核心网将来自ESs的任务数据转发到云端进一步处理;3)云层:该层由多个云服务器(CSs)组成,可以提供丰富的资源进行大规模计算。

图1  云边端协同网络架构图

B. 任务卸载模型

每个IIoT设备的任务数据被分成四部分,分别在IIoT设备、本地ES、非本地ES和CSs上并行处理。因此,每个IIoT设备的任务卸载决策包括任务卸载比例、ES选择决策和发射功率控制决策。

C. 通信模型

采用正交频分多址技术(OFDMA)来实现多设备间的无干扰并行数据传输。假设每个IIoT设备只占用一个子信道,采用香农公式来计算IIoT设备和本地WAP之间的上行数据传输速率。

D. 延迟成本模型

考虑了四种计算模型,包括本地计算、本地边缘计算、协同边缘计算和云计算。其中,本地计算的总延迟包括本地等待延迟和实际计算延迟,本地边缘计算延迟包括从设备到本地WAP的上行传输延迟和本地WAP的计算延迟,协同边缘计算延迟包括上行传输延迟、两个WAP之间的传输延迟和WAP的计算延迟,云计算延迟包括上行传输延迟、本地WAP和云服务器之间的传输延迟和云服务器的计算延迟。

E. 能量成本模型

IIoT设备的能量成本包括本地计算能耗和上行传输能耗。

(2)CPTORA问题

IIoT设备在t时刻的系统成本定义为完成其任务所需的延迟和能量成本的加权总和,并对延迟和能量进行归一化。总系统成本定义为所有IIoT设备的成本之和。本文的优化目标是最小化IIoT系统的长期总延迟和能量成本。约束条件包括:1)从本地ES到非本地ES和CSs的卸载百分比之和不超过1;2)每个本地ES只能选择一个非本地ES进行协同边缘计算;3)每个ES分配的带宽资源不超过其可用带宽资源;4)IIoT设备的能量成本不超过其可用能量。由于该问题包含高度耦合、连续和离散的决策变量,为了降低该问题的复杂度,将其分解为IIoT设备端的任务卸载子问题和ES端的资源分配子问题。

(3)基于多智能体深度强化学习的协作式部分任务卸载

本文提出了一种IS-DMDRL算法来学习每个智能体的最优策略。首先,针对传统SAC算法存在的收敛偏差和Q值估计不精确的问题,设计了IS-CSDRL算法。然后,通过CTDE架构将IS-CSDRL算法扩展到多智能体场景,并提出了一种IS-DMDRL算法来解决CTDE架构中的CDM和MACA问题。

A. IS-CSDRL算法

由于DEC-POMDP中的每个智能体都具有高维和混合的动作空间,以及多模态的全局奖励,因此采用SAC算法学习任务卸载策略。然而,现有的SAC算法仍然存在两个问题:1)收敛偏差:策略熵的引入改变了原RL(即原MDP)的优化目标,从而导致策略的收敛偏差;2) Q值估计不精确:一方面,策略通常从所有估计的Q值中选择具有最大Q值的动作,从而导致Q值的高估。另一方面,现有的SAC算法利用两个Q网络来产生两个估计Q值,并选择最小值来减少Q值的高估,从而导致Q值的低估和额外的计算量。

针对上述问题,提出了一种IS-CSDRL算法。该算法由两个actor网络、两个critic网络和一个经验回放池组成。这两个actor网络分别负责输出估计策略和目标策略,两个critic网络分别用于输出估计分布函数和目标分布函数。然后,通过从经验回放池中提取的经验样本来训练critic网络。然后,通过critic网络的输出分布函数来训练actor网络。

B. IS-DMDRL算法

本文使用CTDE架构将所提出的IS-CSDRL算法扩展到多智能体场景,进而提出了IS-DMDRL算法。在集中式训练阶段,集中式critic网络收集所有智能体的全局信息来学习每个智能体的策略网络。在分布式执行阶段,每个智能体根据其本地的观察-动作历史和训练好的策略网络独立地做出决策。此外,IS-DMDRL算法在CTDE架构中引入了VFD,将集中式critic网络分解为单个critic网络的加权线性和,以自动学习每个智能体的局部Q值函数。

图2 IS-DMDRL算法架构图

图2为IS-DMDRL算法的架构图,每个智能体包含:1)一个局部评估actor网络和2)一个局部目标actor网络。SDN控制器包含:1)一个集中式评估critic网络、2)一个集中式目标critic网络、3)一个评估混合网络、4)一个目标混合网络、5)|U|个本地评估critic网络、6)|U|个本地目标critic网络、7)全局经验回放池。本文采用多元正态分布对分布函数和策略函数进行建模。由于每个智能体只能观察到部分环境信息,因此使用DRQN模型来逼近每个智能体的策略函数。采用多层感知器(MLP)模型对critic网络进行近似,采用全连接(FC)网络生成混合网络的权值和偏置。IS-DMDRL算法包括集中式训练过程(紫色)和分布式执行过程(蓝色)。

集中式训练:在时隙t,每个智能体u从环境中收集其局部观察-动作历史(流程1),并将该历史输入到其本地评估actor网络中(流程2),并输出所有可能的连续动作的概率分布,其中在actor网络的最后添加约束层,以删除不满足约束条件的输出动作。然后,每个智能体u根据其策略函数随机选择一个动作(流程3)。每个智能体将其选择的动作发送给相应的ESs(流程4)。每个ES采用LMM和KKT条件为这些智能体分配计算和带宽资源(流程5)。然后,每个智能体执行其动作并获得全局奖励R^t和下一个局部观测-动作历史(流程6)。SDN控制器将全局经验转移样本e^t存储到全局经验回放池中(流程7)。随后,从全局经验重放池中随机提取一小批经验样本(流程8),来更新critic网络和actor网络。通过最小化损失函数来训练集中式评估critic网络(流程9),使得评估critic网络能够接近目标critic网络。然后,通过梯度反向传播来更新混合网络(流程10)和局部critic网络的参数(流程11)。然后,通过最大化目标函数来训练每个智能体的actor网络(流程12)。最后,通过缓慢跟踪评估网络的参数来更新目标网络的参数(流程13)。

分布式执行:每个智能体利用其训练好的局部评估actor网络和局部观察-动作历史来独立做出任务卸载决策。

C. ES端的资源分配算法

每个ES的资源子问题可以描述为一个SCP问题。因此,本文采用LMM和KKT条件来解决资源分配子问题。首先,构造拉格朗日函数。然后,对拉格朗日乘子和每个决策变量分别求偏导数。然后,令每个偏导数等于0。最后,通过消元法求得最优解。

04

实验结果

EXPERIMENTS

实验结果

本文搭建了一个真实的实验平台来评估所有算法的性能。使用台式机作为SDN控制器来训练所有算法,该台式机安装了Python、Numpy、PyTorch。使用EdgeForce G1000作为ES,采用EdgeForce N1000和树莓派A/B+/2B作为异构IIoT设备。每个IIoT设备通过IEEE 802.11 b/g/n/ac协议连接到EdgeForce G1000,并配备一个摄像头来生成视频处理任务。本文的对比算法包括MADDPG、MADDPG-SAC、MASAC和 COMA-SAC。

1. 算法收敛性能

从图3可以看出,IS-DMDRL收敛到稳定值的速度最快,并且收敛值优于基准算法。原因如下:1)与COMA-SAC、MADDPG-SAC和MASAC相比,IS-DMDRL减小了收敛偏差,缓解了Q值估计不准确问题;2)与COMA-SAC相比,IS-DMDRL采用VFD方法同时解决了CDM和MACA问题。此外,虽然IS-CSDRL算法的收敛速度最慢,但其稳定值仍然优于基准算法。原因如下:1)IS-CSDRL是一种集中式算法,无法实现并行训练,从而降低了训练速度;2)IS-CSDRL算法利用散度正则化和分布RL改进了传统的SAC算法,从而获得了更好的全局奖励。

图3 算法收敛性能

2. 算法执行性能

算法训练完成后,对这些算法进行了120个时隙的测试,使用了三个性能指标来评估这些算法:平均总系统成本(AOSC)、平均执行延迟(AED)和平均能耗(AEN)。

图4 ES计算能力变化时的AOSC、AED和AEN

从图4中可以看出,随着ES计算能力的提高,AOSC、AED、AEN逐渐下降,这是因为当每个ES的计算能力增加时,会有更多的任务上传到ESs,以减少延迟和能量成本。此外,IS-DMDRL算法的AOSC、AED和AEN均优于基线算法。

图5 IIoT设备数量变化时的AOSC、AED和AEN

从图5中可以看出,随着IIoT设备数量的增加,AOSC、AED和AEN也急剧增加,原因是IIoT设备的数量越多,每个ES的工作负载就越重。此外,IS-DMDRL算法的AOSC、AED和AEN的增长最慢,性能始终优于基线算法。

图6 IIoT设备最大发射功率改变时的AOSC、AED和AEN

从图6中可以看出,随着IIoT设备最大传输功率的增加,AOSC和AED显著下降,而AEN稳步增长,这是因为随着传输功率的增加,上行数据传输延迟迅速降低,而传输能耗却缓慢增加。然后,AOSC、AED和AEN趋于稳定,这是因为每个IIoT设备都选择了最佳发射功率,以最大限度地降低总体系统成本。此外,IS-DMDRL算法的AOSC、AED和AEN的增长最慢,性能始终优于基线算法。结果表明,功率控制科可以实现能量和延迟之间的权衡,从而降低系统总成本。

05

总结

CONCLUSION

总结

本文研究了设备密集型IIoT的联合CPTORA问题。为了降低问题的复杂性,将问题分解为IIoT设备端的任务卸载子问题和ES端的资源分配子问题。为了解决任务卸载子问题,提出了一种IS-CSDRL算法,以解决传统SAC算法的策略收敛偏差和Q值估计不准确问题。然后,将IS-CSDRL算法进一步扩展到多智能体场景,提出了IS-DMDRL算法来学习每个IIoT设备的分布式任务卸载策略。该算法可以有效地解决传统CTDE架构的CDM和MACA问题。然后,根据接收到的任务卸载决策,每个ES采用LMM和KKT条件求解其资源分配子问题。与其他最新的MADRL算法相比,IS-CSDRL和IS-DMDRL算法有效地降低了系统总延迟和能量成本。

END

扫描二维码关注我们

==河海大学网络与安全实验室==

微信搜索:Hohai_Network

联系QQ:1084561742

责任编辑:何宇


文章来源: http://mp.weixin.qq.com/s?__biz=MzI1MTQwMjYwNA==&mid=2247498076&idx=1&sn=fd15b0f72ab4a75d4fce7e0f7bff951e&chksm=e9f1395fde86b049c510f30b0d91eed8099ea07eef2cbb3f6a145904408f2eaebc8253a870a6&scene=0&xtrack=1#rd
如有侵权请联系:admin#unsafe.sh