每周文章分享-114
2023-7-1 04:56:14 Author: 网络与安全实验室(查看原文) 阅读量:17 收藏

每周文章分享

2023.06.26-2023.07.02

标题: Personalized Privacy-Aware Task Offloading for Edge-Cloud-Assisted Industrial Internet of Things in Automated Manufacturing

期刊: IEEE Transactions on Industrial Informatics,vol.18,No.11,2022.

作者: Dawei Wei, Ning Xi, Xindi Ma, Mohammad Shojafar, Saru Kumari and Jianfeng Ma

分享人: 河海大学——张帆

研究背景

工业物联网(IIoT)的快速发展吸引了大量制造业部署传感器来监测和控制生产过程,以实现自动化。在自动化制造中,边缘计算可通过将任务卸载到边缘计算服务器(ECS)来帮助生产线满足IIoT传感器处理大量数据的要求。现有的研究提出基于深度强化学习(DRL)的方法来解决IIoT任务卸载问题,虽然基于DRL的方法可以有效地提高IIoT中任务卸载对动态环境的适应性,但DRL的固有缺陷导致了值函数很容易被反向强化学习(RL)等推理算法推导出来,从而引发云平台隐私泄露。同时,子任务不同卸载决策的个性化隐私要求也未曾被考虑到。为解决上述问题,本文面向边云辅助的IIoT体系结构,提出了一种基于局部差分隐私(LDP)的基于DRL的任务卸载方法,以满足子任务卸载决策的个性化隐私保护需求。

关键技术

面对边缘云辅助的工业物联网架构,本文提出了一种基于局部差分隐私(LDP)的基于深度强化学习的任务卸载方法,以满足子任务卸载决策的个性化隐私保护需求。本文基于LDP为每个子任务的卸载决策设置个性化的隐私级别,通过本地执行的生产线根据个人隐私级别为不同的子任务生成个性化差分噪声,并将差分噪声加入到一种服务质量感知的DRL算法中学习具有成本效益的卸载策略。生产线根据其当前的任务卸载策略将任务卸载到ECS,并将探索经验存储到云平台的经验回放缓冲区中。最后,采用优先级经验重放技术来提高策略更新的性能。

该方法的创新和贡献如下:

1)研究了自动化制造中基于DRL的任务卸载方法在边云辅助IIoT中的固有缺陷。在这种情况下,由攻击者控制的ECS能够通过推理算法获得卸载策略的价值函数,并构造特定的输入来获得更多的子任务。

2)提出了基于局部差分隐私的深度强化学习(LDP-DRL)的隐私保护任务卸载方法。在所提出的方法中,该差分噪声在本地产生,以防止云平台隐私泄露。

3)在DRL算法的探索和策略更新过程中加入差分噪声,通过保护DRL算法的价值函数来提供个性化的隐私保障,并在LDP-DRL方法中集成了优先级经验重放(PER),以提高学习性能。

算法介绍

(1)系统模型

图1  边缘云辅助IIoT任务卸载系统

本文考虑的边缘云辅助IIoT任务卸载系统有三个主要组成部分:生产线,ECS,云平台。在图1中,步骤1将生产线的服务质量需求QR和M个ECSs的能力上传到云平台。本文采用了部分卸载模型,即每个子任务可以在ECS和生产线上同时处理。在步骤1中,生产线可以同步云平台所训练的任务卸载策略的超参数。在步骤2中,生产线根据其当前的卸载策略做出卸载决策。然后,在步骤3中获得调度结果。在本文中,考虑一个结构化调度任务,它可以表示为(T, E),其中T={ti}是子任务的集合,E={c(ti,tj)}是两个子任务的关系,包括并行和顺序。第i个子任务由特定的IIoT传感器生成,定义为ti=(Cti,Fti),Cti是子任务的数据大小,Fti是最大处理时间。假设生产线至少将Bm个子任务卸载到ECS,从而实现各个ECS之间的负载均衡。最后,在步骤5中,云平台根据上传的经验样本,采用改进的基于DRL的方法学习满足服务质量要求和ECS能力约束的任务卸载策略。

1)QoS模型

生产线的服务质量要求QR由三个指标组成,包括能量成本、时间成本和成功率。本文忽略了返回处理结果的成本,因为结果通常只包含少量的比特,将它们从ECS传输到生产线只需要很少的成本。

能量成本:包括将子任务卸载到ECS的能量和在ECS上处理子任务的能量。前者取决于发射功率Utp、比特数量Ct和传输速率Utr,而后者取决于ECS的CPU频率Pm和比特数Cti。因此,任务的能量成本为:

其中η是处理1比特数据所需要的CPU周期,d是有效系数。在本文中,η=1000。

(2)时间成本:包括传输时间和完成时间。由于任务的结构,两个相继的子任务的传输时间和完成时间是两者之和,而两个并行子任务的传输时间和完成时间是两者中的最大值。

(3)成功率:由于ECS中每个子任务的最大处理时间和任务队列的最大长度,导致任务卸载失败。

2)攻击模型

假设云平台是诚实但好奇的,并且存在正常和伪装的ECS。云平台可以安全的更新任务卸载策略,对ECS上传的经验样本很好奇。此外,假设伪装的ECS知道任务卸载策略的输入和输出。基于上述假设,伪装的ECS可以采用逆RL算法等推理算法来推断IIoT传感器中部署的基于DRL的价值函数。然后,伪装的ECS修改其能力以满足生产线的服务质量要求。假设所推断值函数为ri*,推理算法的目的是使ri*接近于真实的价值函数。

(2)基于局部差分隐私的强化学习方法(LDP-DRL)

本文的优化目标是在给定任务、QoS需求QR、和每个ECS的能力下,找到一个最优的任务卸载策略,满足生产线的服务质量要求和隐私要求。将IIoT上的任务卸载问题描述为一个MDP,包括:

(1)状态空间:系统状态si∈S定义为已经卸载的子任务ti的比例si∈[0,1],如果所有子任务都被卸载到ECS,则状态为终止状态。

(2)动作空间:动作ai∈A载子任务ti的比例的调整,ai=[0,0.25]。

(3)奖励函数:用来评估在状态动作对si和ai下的服务质量,因此奖励函数被表示为所有服务质量度量的和(即能量成本、时间成本和成功率成本)。然而,由于每个服务质量度量在不同的范围内,因此采用归一化函数η(•)来对所有度量进行归一化处理。 

图2  LDP-DRL框架

LDP-DRL方法的关键思想是利用噪声为IIoT传感器产生的子任务提供隐私保护,从而保护生产线的卸载决策。然后,基于LDP,为每个子任务的卸载决策设置个性化的隐私级别。最后,将差分噪声加入到一种服务质量感知的DRL算法中,学习具有成本效益的卸载策略。LDP-DRL方法的框架如图2所示,它包括三个主要阶段:生成个性化差分噪声(蓝线部分)、探索(红线部分)和策略更新(黄线部分)。

A.生成个性化差分噪声

生产线首先初始化一个字典,即噪声ki(·),来存储第i个子任务的所生成的个性化差分噪声。为保证噪声的新鲜度,噪声ki(·)将按一定的周期被重置为NULL。对于噪声ki(·),使用for循环为第i个子任务的所有可能动作分配特定的差分噪声。在循环中,生产线生成一个高斯噪声N(φi,υi)。然后,生产线将噪声\i附加到噪声ki中。最后,对所有噪声ki(·)升序排序。

B.探索

为了启动策略学习过程,生产线同步来自云平台的超参数,并在云平台中的每个episode之后重新初始化环境参数。然后,生产线根据其当前策略做出卸载决策。为了增加探索的随机性,生产线以较小的概率随机选择一个动作,以学习更优策略。然后,生产线收到其卸载决策的奖励,并获得生产线的新状态。根据奖励和新状态,生产线生成经验样本,并将其存储到云平台的重放缓冲区中。在存储经验样本期间,云平台将持续检查重放缓冲区大小。一旦重放缓冲区的大小大于或等于小批量的大小,云平台将通过优先级经验重放技术来采样小批量样本进行策略更新。

C. 策略更新

随着小批量的输入,云平台需要生产线执行差分噪声生成算法来刷新差分噪声。然后,依次计算用于策略更新的必要参数,包括重要性采样权重、TD误差和累积策略梯度。其中,重要性采样权重可以修正优先级经验重放所引入的偏差的因子。然后,计算TD误差,并且TD误差的绝对值可以用于更新经验样本的优先级,再计算累积的政策梯度并更新策略的参数。最后,更新目标策略的函数。

实验结果分析

实验设置:本文考虑一个自动化制造中的任务卸载场景,包括一个调度任务T,其中有n个子任务,M = 1000个ECSs。实验采用AMD Ryzen Threadripper 3970X处理器在4.5 GHz和16gb RAM的Ubuntu虚拟机上进行仿真。

A.不同个体隐私级别下LDP-DRL方法的收敛性能

图3  LDP-DRL方法的收敛性

图3展示了在不同个体隐私级别下LDP-DRL方法的收敛性能,其中σi=0表示值函数不受LDP保护的非LDP情况。由图可知,随着σi的增加,与非LDP情况相比,LDP-DRL方法需要更多的episode才能收敛。

B.不同折扣因子下LDP-DRL方法的奖励值的累积分布函数

图4  LDP-DRL方法的奖励值的CDF

图4为在不同折扣因子下LDP-DRL方法的奖励值的累积分布函数。结果表明,在收敛前,γ=0.99和γ=0.999的奖励累积速度比γ=0.9时要快。此外,γ=0.9时的累积速度逐渐赶上γ=0.999时的累积速度。原因是因为较小的折扣因子不能实现长期性能。此外,虽然γ=0.99时的累积速度快于γ=0.999时的累积速度,但γ=0.99时的收敛回报小于γ=0.999时的收敛回报,说明采用γ=0.999可以获得更好的性能。

C. 不同个体隐私级别下LDP-DRL方法的奖励距离

图5  不同个体隐私级别下LDP-DRL方法的奖励距离

如图5所示,奖励距离随着σi的增加而增加。在给定σi的情况下,奖励距离随着训练集数的增加而减小。当σi = 0.32和σi = 0.74时,学习过程分别为1.27和6.7。由于σi = 0.74的情况也可以使LDP-DRL方法收敛于期望奖励,因此我们可以选择σi = 0.74以获得更好的隐私保证。

D. 不同ECS计算能力下三种方法的QoS要求

 

图6  不同ECS计算能力下三种方法的QoS要求

图6展示了在不同ECS计算能力下三种方法的QoS要求,由图可知,LDP-DRL方法需要经历更多的episode才能获得与DRL-non-LDP方法相似的服务质量,这体现了隐私和服务质量之间的权衡。此外,贪婪方法可以获得比LDP-DRL方法更好的服务质量性能,然而,这种贪婪的方法不能保护卸载决策的隐私性,无法在实践中应用。为了进一步研究LDP-DRL方法在不同Pm和σi下的学习性能,本文可视化了QR的分布。通过(d)可以看出,在(σi = 0.32, Pm = 3 GHz)和(σi = 0.74, Pm = 3 GHz)两种情况下,LDP-DRL方法可以在不探索太多经验的情况下快速收敛。然而,这两种情况都无法获得比其他情况更好的QR。

在其他情况下,σi = 0.32, Pm = 5 GHz时QR值最佳,其奖励距离为27.06。

E. 不同子任务数量下三种方法的QoS要求

图7 不同子任务数量下三种方法的QoS要求

由图7可知,贪婪方法的性能优于LDP-DRL和DRL-non-LDP方法。然而,随子任务数量的增加,性能优势减小,原因在于贪婪的方法难以适用于子任务数量较大的场景。因此,所提出的LDP-DRL方法可以在提供隐私保证的同时获得更好的服务质量。

总结

本文提出了一种基于LDP-DRL的隐私保护任务卸载方法,该方法在本地生成差分噪声,为子任务提供个性化的隐私保护,并在云中执行改进的DRL算法,以学习IIoT动态环境下的最优或次优QoS感知任务卸载策略。此外,本文还评估了折扣因子对收敛性的影响。

==河海大学网络与安全实验室==

微信搜索:Hohai_Network

联系QQ:1084561742

责任编辑:何宇


文章来源: http://mp.weixin.qq.com/s?__biz=MzI1MTQwMjYwNA==&mid=2247497704&idx=1&sn=2d965557a761aba3dc1d1c24b39cf8c2&chksm=e9f137ebde86befd61506acecb7cdc9939a444b8d2f78566ab3c61a0c1145663108bf86a8d4c#rd
如有侵权请联系:admin#unsafe.sh