每周文章分享
2023.02.20-2023.02.26
标题: Deep Residual Shrinkage Networks for Fault Diagnosis
期刊: IEEE Transactions on Industrial Informatics, vol. 16, no. 7, pp. 4681-4690, July 2020, doi: 10.1109/TII.2019.2943898.
作者: Minghang Zhao, Shisheng Zhong, Xuyun Fu, Baoping Tang, and Michael Pecht.
分享人: 河海大学——陈建杭
壹
背景介绍
近年来,深度学习已经成为基于振动的故障诊断中的有用工具。然而,对于传统的深度学习方法来说,参数优化往往是一项困难的任务。误差函数的梯度必须逐层反向传播,在流过许多层之后,逐渐变得不准确。结果在开始层(即,靠近输入层的层)中的可训练参数不能被有效地优化。
从大型旋转机器(如风力涡轮机、制造机器和重型卡车)收集的振动信号通常包含大量噪声。在处理高噪声振动信号时,网络的特征学习能力往往会下降。作为局部特征提取器的卷积核,由于噪声的干扰,可能无法检测出与故障相关的特征。在这种情况下,在输出层学习到的高级特征通常没有足够的辨别能力来正确地对故障进行分类。因此,有必要开发新的深度学习方法,用于强背景噪声下旋转机械的振动故障诊断。
贰
关键技术
为了提高对高噪声振动信号的特征学习能力,实现较高的故障诊断精度,本文提出了一种名为深度残差收缩网络新的深度学习方法。在深层结构中插入软阈值作为非线性变换层,以消除不重要的特征。此外,考虑到阈值的合理取值通常依赖专家经验,本文方法还集成了神经网络作为可训练模块来自动确定阈值,从而不需要信号处理方面的专业知识。
该方法的创新和贡献如下:
1)本文开发了两个深度残余收缩网络(DRSN),即具有通道共享阈值的DRSN (DRSN-CS)和具有通道自适应阈值的DRSN (DRSN-CW),以提高ResNets对高噪声振动信号的特征学习能力。
2)为了有效地消除噪声相关特征,将软阈值作为非线性转换层插入到深层架构中。
3)阈值采用特殊设计的子网络自适应确定,使每条振动信号都可以有自己的阈值集。
叁
算法介绍
1. 残差网络(ResNet)
图1 残差网络结构图
ResNet是一种经典的卷积神经网络架构,如图1所示。残差单元(RBU)是基本组件。在一般的卷积网络中,交叉熵误差的梯度是逐层反向传播的。在ResNet中,通过恒等映射,梯度可以有效地流向靠近输入层的较早的层,从而更有效地更新参数,避免由于网络深度过深产生的梯度消失问题。本文方法主要就是对残差单元进行了改进。
图2 残差单元结构图
残差单元由两个批归一化层,两个ReLU激活层,两个卷积层和一个恒等映射组成。它这样设计的一个思想是假如中间这两层卷积一点东西都没学到,通过这个恒等映射可以保证输出的东西不会比之前学到的差。批归一化的主要作用是保证输入数据分布的相对稳定,加快模型收敛。批归一化计算公式如下:
其中,x_n为批归一化前的特征,y_n为归一化后的特征。
2. 软阈值函数
在许多信号去噪方法中,软阈值化经常被作为关键步骤来使用。一般情况下,将原始信号变换到一个近零值不重要的域,然后应用软阈值法将近零特征转换为零。小波阈值化的一个关键任务是设计一种滤波器,能够将有用信息转换为非常积极或消极的特征,将噪声信息转换为接近零的特征。深度学习使用梯度下降算法自动学习滤波器,从而避免了对专家经验的依赖。因此,将软阈值和深度学习相结合消除噪声相关信息,构建高度鉴别特征。
软阈值的公式为:
式中x为输入特征,y为输出特征,τ为阈值,即为正参数。在ReLU激活函数中,软阈值不是将负特征置零,而是将接近零的特征置零,这样就可以保留有用的负特征。软阈值处理过程如下图(a)所示。可以观察到输出对输入的导数要么为1要么为零,这可以防止梯度消失和爆炸问题,如下图(b)所示。导数可以表示为:
图3 软阈值函数及其导数
3. 深度残差收缩网络
本文方法主要是在经典的ResNet网络中融入软阈值函数,使得网络对噪声有更强的抑制能力。在传统的残差块的基础上,作者提出了两个变体结构DRSN-CS 和 DRSN-CW。在以往的工作中,软阈值函数阈值的确定是非常困难的,因此深度残差收缩网络中设计了学习模块对阈值进行自适应设定。
(1) DRSN-CS
图4 DRSN-CS残差块结构(左) 整体结构(右)
图4是DRSN-CS的结构,在它的残差块(图4左)中有一个专门的模块用于估计软阈值的阈值。在这个模块中,对特征图 x的绝对值进行全局平均池化运算,得到一维向量。然后,将一维向量传播到二层FC网络中,得到与SE-Net相似的缩放参数。然后在二层FC网络的末端应用sigmoid函数,将缩放参数缩放到(0,1)的范围,可以表示为:
式中z为RSBU-CS中二层FC网络的输出,α为对应的缩放参数。然后将尺度参数α乘以|x|的平均值,得到阈值。这种做的目的是,软阈值的阈值不仅需要是正的,而且不能太大。如果阈值大于特征图的最大绝对值,则软阈值的输出为零。综上所述,RSBU-CS中使用的阈值表示如下:
(2) DRSN-CW
图5 DRSN-CW残差块结构(左) 整体结构(右)
DRSN-CW的结构如图5所示。DRSN-CW和DRSN-CS的不同之处在于CW中对特征图的每个通道应用一个单独的阈值。通过绝对值运算和GAP层将特征映射x简化为一维向量,传播到二层FC网络中。FC网络的第二层有一个以上的神经元,神经元的数量等于输入特征图的通道数。使用将FC网络的输出缩放到(0,1)的范围:
式中z_c为RSBU-CW中二层FC网络的输出,α_c为对应的缩放参数。因此,阈值可以表示为:
肆
实验结果
本文仿真中所使用的故障数据集由下图传动系统诊断模拟器采集得到,该模拟器主要由电机、两级行星齿轮箱、两级定轴齿轮箱和可编程磁制动器组成,共包含无故障(H)、滚动轴承内圈故障(F1)、滚动轴承外圈故障(F2)、滚动轴承滚珠故障(F3)、齿轮根部裂隙(F4)、齿轮表面坑洞(F5)、齿轮齿断裂(F6)和齿轮缺失(F7) 8种健康状态。
图6 数据集设置
振动信号采集的采样频率为12 800 Hz。对于每种状况,实验中考虑了三种不同的转速(20、30和40 Hz)和三种扭转载荷(1、6和18 lb·ft)。在每个特定转速和扭转载荷下,收集400个样本,使每种健康状况为3 × 3 × 400 = 3600个样本。每次观测信号为0.16 s,共有2048个数据点。
1. 有效性实验
为了验证DRSN在不同背景噪声下诊断机器故障的有效性,在每个信号中加入高斯白噪声、拉普拉斯噪声和粉色噪声,其信噪比(SNRs)分别为5 ~ -5 dB。具体地,对原始振动信号进行了噪声叠加
图7 加入高斯噪声结果图
图8 加入拉普拉斯噪声结果图
图9 加入粉噪声结果图
从图7可以看出,随着信噪比的减小,整体准确率出现明显下降,但是本文提出的DRSN-CW和DRSN-CS相对于ResNet始终有着明显的提高,说明了嵌入软阈值化的有效性。在拉普拉斯噪声中,DRSN-CS和DRSN-CW两种变体依旧保持明显优于ResNet的性能表现,说明本文方法对于拉普拉斯噪声有比较好的抑制作用。粉色噪声中可以看出,粉色噪声对CNN产生了比较明显的影响,以ResNet为基础的三种方法准确率相较拉普拉斯噪声没有出现明显下降。
图10 平均准确率对比图
图11 计算时间对比图
从图10可以看出,DRSN-CW比DRSN-CS在平均准确率上提高了1.02%,主要是因为不同通道的特征图通常包含不同数量的噪声相关信息,DRSN-CW可以应用不同的阈值对特征图的不同通道中的特征进行缩小,比DRSN-CS更灵活,更有效地消除噪声相关的信息。从计算时间上来看,DRSN-CS和DRSN-CW由于多了阈值计算,比ResNet多了很多计算时间,DRSN-CW时间小于DRSN-CS主要是由于少了一个平均计算。
图12 SNR=-5的高斯噪声下各方法错误率
从图12可以看出在高噪环境下DRSN-CW错误率更低。与DRSN-CS相比,DRSN-CW的精度更高的一个直接原因是特征图的不同通道往往包含不同数量的噪声相关信息。因此,DRSN-CW可以应用不同的阈值来收缩特征图的不同通道上的特征,比DRSN-CS对特征图的所有通道应用一个通用的阈值更灵活。因此,开发的DRSN-CW可以更有效地消除噪声相关信息,可以产生比DRSN-CS更高的精度。
2. T-SNE可视化
图13 T-SNE结果图
如图13(a)和(b)所示,不同健康条件下的测试观察结果在CNN和ResNet中高度混合在一起。一些状况(如F6)的观测分布在几个不同的区域,因为振动信号是在不同的操作条件下采集的,具有不同的特征。CNN和ResNet不能将它们投射到相同的区域。相反,如图13(c)和(d)所示,在DRSN-CS和DRSN-CW中,相同状况的样本的观察结果大多集中在同一区域,也基本上与其他状况的观察结果分离。原因是在深层架构中集成软阈值作为收缩函数,可以降低噪声相关特征,从而使最后一层的高层特征更具辨别能力。
伍
总结
本文提出了两种新的深度学习框架应对高噪环境下的故障诊断问题。将软阈值化嵌入到深度学习框架中,使得学习的高级特征更具辨别力,同时摆脱了对于信号处理专业知识的依赖。但本文方法在每个残差块都嵌入了收缩模块,不仅会造成计算量的增大,也会造成一定程度的信息丢失。
-END-
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇