每周文章分享
2022.07.11-2022.07.17
标题:Marine Animal Segmentation
期刊:IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 4, pp. 2303-2314, April 2022.
作者:Lin Li, Bo Dong, Eric Rigall, Tao Zhou, Junyu Dong, and Geng Chen.
分享人:河海大学——朱远洋
01
研究背景
BACKGROUND
研究背景
随着人工智能技术的发展,深度学习已被应用于与海洋动物相关的各种研究课题,如鱼类识别、海洋动物识别、海洋生物和考古学、水下图像增强等。在这些课题中,海洋动物分割(MAS)起着至关重要的作用,因为它可以为从复杂的水下环境中识别海洋动物提供重要的信息,这种信息对于渔业行业进行更有效的渔业资源监测具有很大的潜力。
然而,由于两个主要问题,准确的MAS是一项具有挑战性的任务:(i)水下环境的复杂性。水下亮度不足导致获取的图像亮度低,并且由于水下混浊的环境,图像是模糊的,还会存在颜色失真问题。(ii)海洋动物的伪装特性。为了生存,各种海洋动物(如珊瑚、琵琶鱼和虾)利用逼真的伪装方法,在水下栖息地(如海床、珊瑚礁和海滩)隐藏自己。
此外,限制基于深度的MAS模型发展的最严重问题是缺乏大规模的MAS数据集。据我们所知,目前还没有大规模的对象级标签数据集可用于MAS。
图1. 水下环境的典型例子: (a)海螺, (b)鱼, (c)螃蟹
02
关键技术
TECHNOLOGY
关键技术
本文精心构建了第一个大规模的MAS数据集,称为MAS3K。MAS3K的主要特点在于三个方面:
1) MAS3K数据集共包含3103张图像,其中1588张是伪装图像,1322张是普通图像,193张是没有海洋动物的水下图像。
2) MAS3K数据集的海洋动物类别包括脊椎动物和无脊椎动物,涵盖7个超级类别,如节肢动物、哺乳动物、海洋鱼类、爬行动物等。在超级类别下,MAS3K数据集有37个子类,如螃蟹、鲨鱼、海星、海龟等。
3) 为每个图像提供了丰富的注释。这些图像都有高质量的对象级注释。此外,它们还具有用于细粒度数据分析的类别、属性和伪装方法注释,允许更多样化的应用。
在此基础上,提出了一种基于多个交互特征增强模块(IFEM)和级联解码模块(CDM)的深度学习MAS模型ECD-Net。通过对从骨干网络中提取的多尺度特征进行交互融合,利用IFEM来增强特征表示。然后,生成的特征被提供给CDM,每个CDM由以级联方式组织的多个解码器组成。
图2. MAS3K数据集中的海洋动物属性和伪装方法的例子
03
算法介绍
ALGORITHMS
算法介绍
1. 交互式特征增强模块
在图3(a)中,{F_i}_i = 1, 2, 3, 4表示来自骨干的特征,它们在卷积后具有相同数量的通道(在本文的例子中为64)。它们的分辨率为{[W/k, H/k], k = 2, 4, 8, 16},其中W和H表示输入图像的宽度和高度。
图3. 本文的ECD-Net以及相关的交互式特征增强模块(IFME)和交叉融合组件(CFC)
在实际应用中,底层特征(比如F1)提供了丰富的细节信息,如边界、纹理、空间结构等。相反,由于下采样操作,高层次特征(比如F4)包含更多的语义信息,但是它失去了结构细节,这可能会在预测的分割图中引起物体边缘的模糊效果。多层特征的融合可以有效地丰富从主干提取的特征,最终有效地提高分割精度。因此,本文提出了IFEM(如图3(b)所示)来融合多层次特征,以增强特征表示能力。具体描述如下:
其中Cat(·)、U(·)、D(·)和Conv(·)代表串联操作、上采样操作、下采样操作以及将通道数减半的卷积操作。通过使用IFEM,新的特征Fi'捕获了不同层次的特征。
2. 级联解码器模块
如图3(c)所示,有多个以级联方式组织的CDM。每个CDM由三个处于不同阶段的交叉融合组件(CFC)组成。设I1(i, j)和I2(i, j)为第j个CDM的第i阶段的CFC的输入特征,其中i=1, 2, 3,j=1, 2, …, N,N代表CDM的总数。类似地,定义O1(i, j)和O2(i, j)作为相应的输出特征。如图3(a)所示,每个CFC都与其相邻的CFC相连。具体来说,CFC的一个输入I1(i, j)是上一阶段的CFC的输出之一,即I1(i, j)=O1(i−1, j)。另外,通过将O2与IFEM提供的F4相加得到另一个输入I2(i. j),即I2(i, j)=O2(i, j−1)+F4'。
值得注意的是,送入CFC的两种特征具有不同的尺度,因此融合后的特征可以捕捉到丰富的上下文信息。在数学上,融合过程描述如下:
最后,采用集成学习策略得到最终结果P。更具体地说,通过将不同CDM的输出相加来融合它们,即:
其中Pj表示第j个CDM的输出。
3. 混合损失函数
使用由三个损失组成的混合损失。前两个损失,加权二进制交叉熵(wBCE)损失LwBCE和加权IoU(wIoU)损失LwIoU,是像素位置感知损失。最后一个损失是一致性增强损失LCEL。本文的混合损失函数L针对最终预测P定义为:
其中,a、b和c是三个调优参数。通过大量的实验,作者发现a、b和c的最佳设置分别为1、1和0.5。
4. 提出的数据集
1)图像收集:MAS3K数据集共包含3103张图像,包括1588张伪装图像、1322张普通图像和193张背景图像。共考虑了37个海洋动物的子类别。这些图像主要从以下三个来源收集:
①现有的伪装物体检测数据集(COD10K)和显著物体检测数据集(SED2、DUTS、DUT-OMRON、MSRA-10K、ECSSD、HKU-IS、SOD和SOC);
②现有的水下图像数据集(“labeled fishes in the wild”、UIEB和MUED);
③互联网:在Unsplash和Google Images上搜索关键词:marine animal, ocean animal, fish, underwater, camouflaged animal, unnoticeable animal, camouflaged fish, seahorse, octopus等。
将数据集分为训练集、验证集和测试集,比例为6:2:2。每组中的图像都是从子类中随机选择的。
2)数据注释:MAS3K提供了丰富的注释,允许进一步的应用,如联合物体分割和分类、物体属性识别、伪装方法识别等。
①对象级的注释。
②类别注释(图4)。MAS3K中的海洋动物类别包括脊椎动物和无脊椎动物。将这些海洋动物分为7个超类,包括哺乳动物、爬行动物、海洋鱼类、节肢动物、腔肠动物、软体动物和其他。在这些超级类别下,MAS3K数据集包括37个子类别,如海螺、章鱼、比目鱼、海豹等。如果一个子类中的图像数量少于15张,就把这些图像归入超级类“other”中。
图4. 海洋动物类别(a)MAS3K的海洋动物超级类和子类(b)子类的词云(c)一些类别的例子,魟鱼、螃蟹、小丑鱼、海龟.
③属性注释。为每张图片标注了七个属性,包括大物体、小物体、多物体、遮挡、形状复杂、无法定义边界和视野外,详见表1。每张图像可以有多个属性。
表1. 属性描述
④伪装方法注释(表2)。引入了六种伪装图像的方法,定义如下:模仿(M-method)、颜色匹配(CM-method)、破坏性着色(DC-method),不规则轮廓(IO-method),主动伪装(AC-method)和透明(T-method)。一个伪装图像可以体现多种伪装方法。
表2. 伪装方法
04
实验结果
EXPERIMENTS
实验结果
1. 定量评估
表3显示了本文的ECD-Net和10个现有的最先进的(SOTA)竞争模型在五个评估指标下的定量结果。本文的ECDNet在所有数据集中都优于竞争模型。具体地说,在CAMO-CHAM-test(由191张海洋动物伪装图像组成,来自CHAMELEON和CAMO数据集)中,(i)提高了平均交并比(mIoU)、加权F-measure(Fwβ)和平均E-measure(mEϕ),(ii)降低了平均绝对误差(MAE),以及(iii)提供了可比的结构相似性度量(Sα,其中α=0.5)。此外,在MAS-test中,本文的ECD-Net在所有评估指标方面都提供了最好的结果。表3中,“↑”表示得分越高越好,反之则为“↓”。最好和次好的结果分别用红色和蓝色标出。
表3. 在不同模型上的定量结果
2. 定性评估
为了进一步展示提出的ECD-net模型的优势,针对不同的模型提供了一些直观的可视化结果。如图5所示,ECD-Net提供了最接近实际情况的最佳结果。此外,与竞争模型相比,提出的模型提供的分割图具有更完整的对象和更准确的边缘。最后,提出的模型对低边界对比度(第一和第三行)、复杂对象(第四、第六和第十行)和低质量水下环境(第五、第七和第八行)具有较强的鲁棒性。
图5. 不同模型的视觉比较
3. 消融研究
在MAS3K数据集上进行了消融实验,以考察IFEM和CDM的有效性。如表4所示,基线(即“A”)在所有评价指标中得分最低。相比之下,带有IFEM或CDM的消融版本提高了性能。具体地说,在主干中加入CDM(即“C”)后,mIOU、Fwβ和Sα显著增加。此外,在骨干上加入IFEM(即“B”)也提高了性能,充分证明了本文设计的有效性。最后,提出的模型的完整版本(即“E”)具有两个CDM,提供了最好的性能。
表4. 消融研究的量化结果
4. 模型复杂性和执行时间
如表5所示,本文的ECD-Net在参数较少的前提下取得了最好的mIoU结果,与SINet相比,它在仅增加8%的参数的情况下将mIOU提高了5.9%。
表5. 模型参数和mIoU的比较
还将ECD-Net及其关键模块(即IFEM和CDM)的平均GPU推理时间显示在表6中。本文的ECD-Net能够在NVIDIA 2080Ti GPU上实现28.5 FPS(1/0.0349)的实时分割,表明该方法具有很高的效率。此外,IFEM和CDM相对较轻,不会导致太多的计算。
表6. ECD-Net及其关键模块的平均GPU推理时间
05
总结
CONCLUSION
总结
在这项工作中,作者构建了第一个大规模MAS数据集MAS3K,并提出了一个有效的MAS模型ECD-Net。MAS3K数据集提供了丰富的海洋动物图像和高质量的注释,可以有效地推动MAS技术的发展。此外,在数据集构建过程中充分考虑了复杂的水下环境和海洋动物的伪装特性。ECD-Net是一种有效的基于深度的MAS模型,配备了多个IFEM用于交互式功能增强和以级联方式组织的CDM。大量实验表明,ECD-Net显示出卓越的MAS性能,并且优于10个SOTA对象分割模型。
END
扫描二维码关注我们
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇