每周文章分享
2023.03.20-2023.03.26
标题:Exploiting Propagation Delay in Underwater Acoustic Communication Networks via Deep Reinforcement Learning
期刊:IEEE Transactions on Neural Networks and Learning Systems, doi: 10.1109/TNNLS.2022.3170050.
作者:Xuan Geng,Yahong Rosa Zheng.
分享人:河海大学——孙世强
壹
背景介绍
在时隙划分的MAC协议中,由于水下信道的传播时延长且不可预测,使得调度方案的设计难以达到较高的效率。近年来,已有的RL或DRL算法被应用到UWANs环境,其中传播延迟被视为环境的特征,而这些算法在一定条件下被证明了优越性,能够提升网络吞吐量,因此目前研究人员将目光转向DRL算法与水下MAC协议设计结合的方向。但是目前的一些工作存在着忽略水下长传播延迟、忽略不同节点的不同传播延迟等问题,因此对于水下环境而言,设计可以合理利用不同节点的不同传播延迟的MAC协议具有重要意义。
贰
关键技术
本文作者在2019年提出了一种针对UWANs的sync-DL-MAC协议,本文将其扩展为async-DL-MAC协议。sync-DL-MAC协议假设agent从每个时隙开始使用固定的传输延迟,并且在每个时隙中执行两个操作之一:不传输或传输。固定传输延迟要求时隙足够长,以覆盖网络中所有节点经历的最大延迟,以便接收节点可以检测每个时隙内的冲突或成功,并立即给出反馈。这种约束会导致时间浪费,因为具有最大传播延迟的节点可能在大多数时间处于空闲状态。
相比之下,async-DL-MAC中的agent有更多的动作可以选择:不传输或选择延迟传输,允许节点在不同的时隙中传输具有不同延迟的数据包。汇聚节点将检测不同时隙之间的冲突,而不需要在同一时隙内传输和到达。这使agent能够学习最佳时延作为每个时隙中的传输开始时间,以便更好地利用空闲时间。这种async-DL-MAC方案还使网络能够减少时隙长度,从而提高分组成功率。
叁
算法介绍
本部分首先介绍本文的网络模型,然后通过波传播模拟数据包冲突,然后详细说明本文的两个算法:sync-DL-MAC和async-DL-MAC。
1. 网络模型
为了研究网络吞吐量,本文考虑一个具有多个源节点向一个汇聚节点发送数据包的UAN,如下图所示。
图1 网络模型
假设源节点使用不同的MAC协议共享时隙,其中一个节点配备了基于DL-MAC的agent,其他节点采用TDMA或slotted Aloha协议。agent尽量利用传输时间资源来提高吞吐量。因为TDMA和slotted Aloha都是分时协议,它们留下了一些空闲时间资源,可以由agent学习使用。本文假设在混合TDMA和slotted Aloha的环境下,对agent的学习能力进行评估。其中,TDMA节点在每y个时隙中使用x个分配的时隙重复发送数据包。Aloha节点可以使用两种协议中的一种进行传输:一种是sync-q-Aloha,另一种是async-q-Aloha。sync-q-Aloha在每个时隙开始时以q概率发送数据包。async-q-Aloha以q概率发送一个包,但可能在每个时隙内随机启动传输。DL-MAC节点采用提出的两种MAC协议之一:sync-DL-MAC或async-DL-MAC,其中sync-DL-MAC只能在一个时隙开始时以固定的时延发送数据包,而async-DL-MAC可以在不同的时隙以不同的时延发送数据包。
图2给出了Aloha节点和DL-MAC节点的同步和异步计时模型,其中TP为数据包持续时间,Ts为时隙长度,Tg为保护时间。对于第n个节点,Aloha或sync-DL-MAC的同步模式在每个时隙有固定的延迟Tr[n],而对于每个发送节点n和每个时隙t, Aloha或async-DL-MAC的异步模式有不同的延迟Tr[n, t]。async-q-Aloha和async-DL-MAC的区别在于,在async-q-Aloha中随机选择Tr[n, t],而在async-DL-MAC中学习Tr[n, t]。为了不失一般性,本文假定Tr[n] = 0为同步模式。
图2 同步和异步计时模型
2. 波传播和数据包冲突
使用时间度量δ对时域进行采样,即将Ts、Tp、Tg和Tr[n,t]设置为δ的整数倍。每个传输节点的波传播如下图所示,为了更好地说明问题,将三维空间中的传输节点和汇聚投影到二维空间上。对于所有节点n和时隙τ,传输节点的波前和波后形成一个固定宽度w_f [n,τ]-w_r [n,τ]=vδT_P的环。
图3 波传播与碰撞检测 (a)时间实例τ1:无冲突 (b)时间实例τ2:发生冲突
计算一个时隙内每个时间实例τ≤δ(T_s-T_g-T_r)的所有发射节点的波前。如果两个传输节点的环在汇聚位置的空间重叠,则表明碰撞。图3(a)所示的情况表明在τ1时间点没有碰撞,而图3(b)所示的情况表明在τ2时间点发生碰撞。
3. sync-DL-MAC
sync-DL-MAC要求网络中的每个节点从每个时隙开始以固定的时延进行传输,如图2(a)所示的同步模型所示。需要在一个时隙内完成数据包的发送和接收,所以需要时隙长度覆盖网络的最大传播延迟。agent的最优策略是捕获其他非agent节点未使用的空闲时隙,或者捕获已经被其他非agent节点使用但由于传输和传播延迟的差异而仍然可以被agent重用的时隙。在sync-DL-MAC协议中,agent作为纯源节点在每个时点可以采取以下两种操作之一:at = Transmit或No Transmit。根据源节点采取的操作,接收器检查碰撞并确定观察结果,ct = Success, Collision或Idle。Idle表示第t个时隙没有节点传输;因此,这个时间段实际上被浪费了。结合动作和观测信号,状态定义为
sync-DL-MAC有五种状态: st = (Transmit, Success)、(Transmit, Collision)、(No Transmit, Success)、(No Transmit, Collision)和(No Transmit, Idle)。为了适应不断变化的水下环境,agent必须考虑过去TW的时间段,吸取过去的经验。带有历史窗口的状态被定义为一个向量:
奖励函数定义为
SYNC-DL-MACagent的最优策略π∗是寻找所有合适的传输时隙,以最大化长期预期回报。
损失函数:
将DQN应用于定义的主体-环境模型。
4. async-DL-MAC
由于sync-DL-MAC存在局限性:时隙需要覆盖最大传播延迟,这个约束会导致时间浪费,因为具有最大传播延迟的节点可能在大多数时间处于空闲状态。因此async-DL-MAC的改进:增加了一个新动作—选择延迟传输允许节点在不同的时隙中传输具有不同开始延迟的数据包,这使agent节点能够学习最佳开始时延作为每个时隙中的传输开始时间,更好地利用空闲时间,减少时隙长度,提高分组成功率。
假设从每个时隙的最大允许开始延迟为δ的M个单位。async-DL-MAC的动作定义为
其中m表示为从时隙t开始延迟mδ秒后传输。观测信号为:
状态定义为
奖励函数定义为
5. sync-DL-MAC和async-DL-MAC区别
1) 动作是最大的区别;
2) async-DL-MAC中的时隙可能更短,历史状态长度可能更长;
3) 最优策略的不同: sync-DL-MACagent占用其他非agent节点未使用的空闲时隙或已被非agent节点使用但仍可重用的时隙,而async-DL-MACagent必须学习最优的传输开始延迟,以避免与其他节点发生冲突。
肆
实验结果
仿真参数
对比协议:TDMA、sync-q-Aloha和async-q-Aloha;
评价指标:网络吞吐量和包成功交付率;
仿真结果:
由于节点的位置与传播时延有关,并且对结果有重要影响。仿真考虑两种情况:
情况I:3个源节点与sink具有不同的距离;
情况II:3个源节点与sink具有相同的距离。
吞吐量按平均奖励计算:
1. 3个源节点的吞吐量分析——sync-DL-MAC的情况1
为了评估sync-DL-MAC agent的性能,所有三个源节点从每个时隙开始以固定的时延开始它们的传输。为了覆盖最大传播,时隙的长度被设置为δT_s=0.4s。总吞吐量如图4所示。在情况I的情况下,其中三个节点与汇点的距离不同,sync-DL-MAC agent在捕获网络中的空闲时隙方面做得很好。
当sync-q-Aloha节点的传输概率固定在q=0.2时,即使TDMA节点将其占用率在Y为10时,将X从3增加9,其吞吐量也保持接近0.2。sync-DL-MAC agent还实现接近1的吞吐量,因为到sink的不同距离允许agent捕获由TDMA节点占用的相同时隙。因此,这种情况的总吞吐量随着TDMA节点的占用增加而增加。类似地,当TDMA占用率保持在X/Y=3/10时并且sync-q-Aloha节点的传输概率增加时,TDMA节点保持0.3吞吐量,而sync-q-Aloha节点随着Q增加而增加其吞吐量。该agent可以捕获几乎所有的时隙,吞吐量接近1。当三个节点位于不同距离的汇聚节点时,它们和谐共存。
图4 单个节点的吞吐量和三源节点网络的总和吞吐量:一个sync-DL-MAC agent与TDMA和sync-q-Aloha共存
2. 3个源节点的吞吐量分析——sync-DL-MAC的情况2
在具有三个源节点相同距离的情况II的情况下,吞吐量结果如图5所示,其中当TDMA节点或sync-q-Aloha节点增加其传输时,总和吞吐量可能降低。这是因为TDMA节点和sync-q-Aloha节点具有相当高的彼此冲突的概率,并且agent只能捕获其他两个节点不发送的空时隙。当TDMA节点或ALOHA节点增加占用率时,agent所能做的最好的事情就是不发送。
图5 单个节点的吞吐量和三源节点网络的总和吞吐量:一个sync-DL-MAC agent与TDMA和sync-q-Aloha共存
3. 3个源节点的吞吐量分析——async-DL-MAC的情况1
对于情况I,async-DL-MAC agent与其他两个节点很好地共存,并且可以实现接近0.99的吞吐量,如图6所示。只有当async-q-Aloha节点将其传输概率增加到Q=0.3以上时, agent的吞吐量才略有下降。另外两个节点由于到汇点的距离不同,也可以完全偶然地避免碰撞。因此,总吞吐量结果随着非agent节点传输频率的增加而增加。
图6 单个节点的吞吐量和三源节点网络的吞吐量:一个async-DL-MAC agent与TDMA和async-q-Aloha共存
4. 3个源节点的吞吐量分析——async-DL-MAC的情况2
在情况II下,当非agent节点增加其传输时,吞吐量结果也会改善,如图7所示。当async-q-Aloha节点增加其传输概率q时,agent的吞吐量具有较小的增益,因为agent更难捕获其中async-q-Aloha节点以随机开始延迟进行传输的相同时隙。然而,与图5所示的sync-DL-MAC协议相比,异步agent的收益是一个巨大的改进。这是因为async-DL-MAC agent学习调整传输启动延迟m以避免与非agent节点发生冲突,从而改变其到sink的等效距离。考虑到异步网络的时隙长度是同步网络的一半,异步网络的每秒比特吞吐量是同步网络的两倍多。
图7 单个节点的吞吐量和三源节点网络的吞吐量:一个async-DL-MAC agent与TDMA和async-q-Aloha共存
5. 包成功交付率
sync-DL-MAC要求δT_s覆盖网络中的最大传播延迟,因此,在sync-DL-MAC情况下仅允许δT_s≥0.4s。在情况II中,使用Async-DL-MAC的优势是显而易见的,因为Async-DL-MAC可以改变开始延迟以对抗由于到接收器的相等距离而引起的冲突。还值得注意的是,X/Y=0.7和Q=0.3意味着TDMA和ALOHA节点将占据网络中的几乎所有时隙。该agent在非 agent节点占用的时隙中进行传输,避免了冲突,从而提高了性能。
图8 三源节点网络中sync-DL-MAC和async-DL-MAC的包成功率比较(X = 7, q = 0.3)
伍
总结
本文研究了一种新的用于UANs的DL-MAC协议,该协议利用水声通信中固有的传播延迟来提高网络吞吐量和分组成功率。当与传统的TDMA或ALOHA节点共存时,DL-MAC agent使用DQN与水下网络交互,并学习通过sync-DL-MAC或async-DL-MAC协议尽可能频繁地发送。sync-DL-MAC agent简单地学习在给定时隙中发送或不发送,这捕获了其他节点没有使用的空闲时隙,或者当它碰巧有很高的避免冲突的机会时重新使用由其他节点占用的时隙。相反,async-DL-MAC agent能够决定是否在时隙中发送,并将延迟确定为发送开始时间。通过动作为网络设计提供了灵活性,因为可以缩短时隙以提高分组成功率。
-END-
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇