每周文章分享-104
2023-4-22 00:1:44 Author: 网络与安全实验室(查看原文) 阅读量:17 收藏

每周文章分享

2023.04.17-2023.04.23

简介

JIANJIE

标题: Dynamic Service Function Chain Orchestration for NFV/MEC-Enabled IoT Networks: A Deep Reinforcement Learning Approach

期刊: IEEE Internet of Things Journal, vol. 8, no. 9, pp. 7450-7465, 1 May1, 2021.

作者: Yicen Liu, Hao Lu, Xi Li, Yang Zhang, Leiping Xi and Donghao Zhao.

分享人: 河海大学——张锋冉

研究背景

YANJIUBEIJING

网络功能虚拟化(NFV)和移动边缘计算(MEC)是互联网服务提供商(ISP)为应对各种挑战而引入的,这些挑战阻碍了满足物联网(IoT)应用程序对体验质量的要求。在支持NFV/ MEC的物联网网络中,任何物联网服务都可以表示为由几个严格有序的虚拟网络功能(VNF)组成的服务功能链(SFC),这些功能链可以在地理上放置在靠近物联网终端的边缘云上。然而,由于物联网终端数量众多,物联网网络高度动态,在混合边缘云中确定VNF的位置和优化端到端延迟的路由服务路径是一个具有挑战性的问题。该问题也称为SFC动态编排问题(SFC- DOP)。为了解决SFC-DOP问题,本文提出一个用于物联网深度强化学习(DRL)的SFC动态编排框架。同时提出了一种基于DRL的SFC-DOP算法,该算法结合了演员-评论家和确定性策略梯度方案,能够有效地处理物联网中的SFC-DOP问题。

关键技术

GUANJIANJISHU

本文通过使用基于深度确定性策略梯度(DDPG)的方法来应对各种用户的端到端延迟需求。与以往研究考虑离散SFC编排动作的SFC-DOP不同,本文专注于基于DDPG的SFC-DOP算法,该算法在网络条件和连续动作的动态性质下运行,完全适用于物联网网络。本文是首次尝试将DDPG应用于物联网网络中的SFC-DOP。

本文的主要贡献总结如下:

1)本文首先提出了用于支持NFV/MEC的物联网网络的SFC动态编排架构,并创造性地设计了用于DRL-IoT的SFC动力学编排框架。

2)与考虑离散SFC编排动作的相关工作相比,本文考虑了动态网络场景和连续动作,这更适合物联网网络场景。

3)考虑到物联网网络和大量物联网终端的动态特性,作者发现很难应用传统的优化方法来处理物联网网络中的SFC-DOP。因此,本文试图将SFC-DOP公式化为DRL任务,它可以在动态和复杂的网络场景中处理SFC-DOP。此外,本文详细描述了基于DRL的模型所需的必要元组。

4)为了解决动态和复杂物联网中的SFC-DOP问题,本文提出了一种基于DDPG的具有演员-评论家网络和确定性策略梯度的SFC-DOP算法,该算法可以在连续动作空间上执行。

算法介绍

SUANFAJIESHAO

(1)SFC动态服务架构

在支持NFV/MEC的物联网网络中,物联网终端之间的端到端通信引发了巨大的高速和实时流量请求。通过NFV/MEC技术,可以用一组以功能和逻辑方式链接的VNF来表示物联网服务。此外还可以通过灵活地编排SFC,以处理大量的实时流量请求。物联网SFC现象产生于这样一个事实,即流量需要以严格预定义的顺序通过多个VNF进行传输。物联网SFC可以处理来自物联网终端的大量流量,然后将流量路由到核心云,从而适应众多物联网服务需求。

图1 物联网网络中的SFC动态编排架构

由多个边缘云组成的物联网网络中的SFC动态编排架构如图1所示,其中VNF和相应的虚拟链路可以动态映射到底层网络上,从而实现服务链。本文将架构划分为四个主要平面,包括应用程序平面、控制平面、虚拟平面和基础设施平面。在顶层,可以实现各种类型的SFC,以适应众多的物联网服务,这些服务可以用于过滤和压缩来自物联网终端的流量。

网络运营商(NO)可以指定自己的特定物联网服务请求,并租赁定制的SFC。控制平面接收来自物联网终端的服务请求,并且可以利用多样化的VNF来编排不同的SFC。NO可以在控制平面上运行编排算法,以灵活地管理底层虚拟化资源,从而实现混合边缘云中的VNF布局,并在这些相邻的VNF对之间进行流量路由。物联网SFC可以灵活地组成一组异构VNF实例(VNFI),该实例可以处理大量的物联网应用流量。虚拟化平面包含多个虚拟化的底层资源(如CPU、存储、带宽等)和虚拟机。这些资源和虚拟机可以动态分配,从而形成多个独立的网络切片。网络切片技术被认为是一种重要的使能器,它可以使多个网络切片共享一个基础设施,并且一个网络切片实现一个服务逻辑,作为SFC,其中包含网络提供的所需VNF。基础架构平面主要由物联网终端和部分云服务器(边缘服务器和核心云服务器)组成,可用于支持服务功能链接。基础设施平面为服务功能路径提供可处理、存储和连接的计算资源、存储和网络设施;为了更好地为物联网应用提供网络服务,应根据物联网网络中不同用户的端到端延迟要求,协同边缘服务器和核心服务器实现SFC编排。

(2)基于DRL的SFC动态编排框架

图2 物联网DRL三级模型概述

如图2所示,概述了基于物联网DRL的SFC动态编排框架。该框架包含了核心层、边缘层和物联网终端层三个层次。

终端层:物联网终端层主要由移动用户和物联网设备组成,可以监控公共基础设施环境。物联网终端的目的是将本地可消费的流量过滤后发送给边缘服务器和核心服务器,用于支持SFC动态编排,提供物联网应用。

边缘层:边缘层包括一些边缘计算元素,如基站、MEC服务器等。这些可以部署在物联网网关附近,用于收集和上传网络信息(例如,网络状态、物联网服务请求等)。然后,将网络信息发送到位于核心服务器上的DRL驱动的网络优化智能体。相应的网络状态作为训练网络模型的输入,基于DRL的智能体是核心层中重要的组件。提取的网络模型可输出到边缘云中的NFV-orchestration (NFVO)和SDN-controller (SDNC),实现SFC动态编排。

核心层:核心层的关键是DRL驱动的网络优化智能体,因此需要足够的数据进行训练。核心服务器不仅可以自适应地训练网络模型并计算最优的SFC动态编排策略,而且可以根据物联网应用程序的QoE需求,与边缘服务器和核心服务器协作部署服务。

SFC动态服务流程描述如下:随着即将到来的物联网服务从物联网终端发出请求,相应的服务请求会按顺序分配到最近的相邻边缘云。边缘层的SDNC和NFVO可以自动监测和感知网络信息。将网络状态和物联网服务请求反馈给核心层DRL驱动的网络优化智能体,从而训练网络模型,提取最优策略到边缘云的SDNC和NFVO。如果相邻边缘云无法满足IoT服务请求的相应约束,则可以再次调用核心层DRL驱动的智能体,获得另一种SFC编排策略。

(3)系统模型

本文认为物联网中的SFC-DOP类似于VNF-FG动态编排问题。对于物联网应用的每个SFC,SFC-DOP的重点是将边缘服务器和核心服务器上的VNF链接起来,并在到达目的地之前对通过VNF的流量进行有序引导,使端到端延迟最小化,同时满足相应的IT资源(即CPU和存储)、带宽资源和延迟约束。本文假设以循环方式操作一批IoT SFC,并且SFC中的VNF按逻辑顺序嵌入。此外,物联网服务请求以连续的时间间隙到达,并随时间变化。本文提出的SFC编排模型包括物联网服务请求到达、嵌入(或在无法满足相应资源约束的情况下被拒绝),以及处理后离开。

物联网场景的概率分布P描述如下:

本文考虑了一个标准的DRL设置,其中智能体与环境交互,并通过联邦奖励提高其性能。下一个状态和预期奖励可以通过当前状态和采取的行动来预测。DRL驱动的智能体能够利用SFC编排的动态特性,通过采取行动,观察过渡转移,并获得下一个奖励函数值。下一个预期奖励可以用如下描述:

(4)基于深度确定性策略梯度的SFC动态编排算法

图3 基于DDPG的动态分层SFC编排方案

基于DDPG的SFC动态编排方法的主要流程如图3所示。网络状态为s时,演员网络μ选择动作的过程可表示为:

用评论家网络Q来近似动作值函数Q,可以表示为:

为了使学习过程更加稳定,本文引入目标网络来构造目标演员μ`和目标评论家Q`,在目标网络中,更新策略的计算如下:

损失函数和梯度更新函数可以表示为:

实验结果分析

SHIYANJIEGUOFENXI

1.环境设置

本文考虑到所提出的基于DDPG的SFC编配方法的适用性和通用性,在具有3.6 Ghz双核Intel酷睿i7和8Gb RAM的PC上搭建仿真环境。采用NetworkX工具生成基底边缘云网络,采用TensorFlow框架实现基于DDPG的方法。本文通过NetworkX工具生成一个随机网络拓扑结构,有N个基底节点和ρ的连接概率。其中,随机网络的生成主要由基底节点和任意基底节点之间的连接概率决定。图4显示了一个100节点的基底网络拓扑结构(N = 100, ρ = 0.3),其中4个总圆被模拟为核心服务器,20个总圆被模拟为边缘服务器,其余被模拟为交换节点。针对物联网业务请求,本文在基底网络拓扑中嵌入了10个不同的由20种网络功能组成的SFC,同时包括总有序SFC和部分有序SFC,对于每种网络功能f,本文在边缘服务器上部署1 ~ 3个VNF,在核心服务器上部署1 ~ 5个VNFs在有向图Gv中,总共有60个候选VNF,可以相应地确定交通流速率。

图4 随机网络示例:N=100,ρ=0.3

2.实验仿真

图5 训练过程中基于DRL的不同算法的平均episode奖励

如图5所示,随着训练次数的增加,每条曲线逐渐收敛。从Y轴的角度可以观察到DDPG的平均episode奖励表现明显好于A3C和DQN。从另一个角度来看,DDPG、A3C和DQN在大约800 episode、1700 episode和2600 episode后变得稳定,DDPG在每次训练中节省了更多的时间。由于DQN框架仅适用于离散动作空间,DQN在收敛到稳定状态方面花费了更多的训练时间,因此DQN表现最差。另外两种基于DRL的算法,即A3C和DDPG,由于其演员-评论家框架和策略梯度方案适合于连续动作空间,因此实现了更好的解决方案。

图6 随机拓扑中SFC-DOP的不同算法的平均延迟(基底节点数量从100到500不等,ρ=0.5)

图6显示了在随机网络场景中,当连接概率固定为0.5并且随机网络的基底节点数量从N=100变为N=500时,SFC-DOP的不同算法的平均端到端延迟。如图6所示,可以观察到每个算法的趋势在初始阶段逐渐减少,但随着底层网络拓扑的规模而增加。原因是底层网络拓扑的规模对体验质量有明显的影响。可以观察到,目标值随着基底节点规模的增加而减小,直到N=300左右,这是因为目标函数值是由基底网络拓扑规模的增加决定的。更多的边缘云节点可能会带来更多的底层资源,从而获得更好的解决方案。在目标函数值达到底部后,每种算法的趋势逐渐增加的原因可能是因为更多的边缘云和基底节点会导致更多的端到端延迟和更少的奖励。从另一个角度来看,图6中获得的结果表明,DDPG获得了最好的延迟,而Viterbi获得了最差的延迟。基于DQN的SFC-DOP算法的性能比DDPG和A3C差,原因是DQN只能处理离散和低维的动作空间,这并不完全适用于动态和复杂的物联网网络场景。最后,A3C的性能略差于DDPG,原因是A3C的执行效率低下,并导致在评估策略时出现高方差,这可能会危及算法的收敛性。

图7 SFC-DOP的不同算法的平均VNF处理延迟(时隙从0到30变化,N=500,ρ=0.5)

如图7所示,可以观察到Viterbi、GA、DDPG、A3C和DQN在30个时隙内获得了相似的趋势,而PH总是给出最低的即时VNF处理延迟,这是因为它采用了基于多层感知器的模型来预测所需的VNF数量,这可以提前确定VNF处理资源,并且因此捕获最小VNF处理延迟。

图8 SFC-DOP不同算法的平均传输延迟(时隙从0到30不等,N=500,ρ=0.5)

如图8所示,DDPG几乎可以比所有对比算法执行得更好。此外,可以注意到PH在前5个时隙的表现优于其他对比算法,然而,PH在下一个时隙逐渐失去优势。原因是PH在物联网服务请求数量很少的初始阶段可以很好地接近最优解决方案。随着服务请求数量的增加,PH可能会以捕获局部最小延迟为代价进行快速收敛,这在动态和复杂的物联网网络场景中是无效的。

总结

ZONGJIE

本文提出了一个用于物联网DRL的SFC动态编排框架,并创造性地提出了基于DDPG的SFC动力学编排算法,从而处理动态和复杂的物联网网络场景。本文采用了DDPG算法,以提供一种已被证明完全适用于物联网网络场景的实用解决方案。仿真结果表明,与基于A3C、基于DQN、基于GA、基于Viterbi和基于PH的SFC编排算法相比,基于DDPG的SFC-DOP算法具有出色的性能。

==河海大学网络与安全实验室==

微信搜索:Hohai_Network

联系QQ:1084561742

责任编辑:何宇


文章来源: http://mp.weixin.qq.com/s?__biz=MzI1MTQwMjYwNA==&mid=2247496746&idx=1&sn=780d96d8f26ad3392960925b0f50c424&chksm=e9f13429de86bd3f09d96a89fbc658d80ea5167ce1a238c81ddf156a9c41b22c9eae08cc3dfa#rd
如有侵权请联系:admin#unsafe.sh