删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种结合全局和局部相似性的小样本分割方法*

本站小编 Free考研考试/2021-12-25

小样本语义分割旨在使用少量有标注的图像对新类目标进行分割,其关键问题之一是如何提取支持图像(有标注的图像)和查询图像(待分割的无标注图像)的相似关系,实现先验知识的迁移。现有的小样本分割方法[1-5]常被建模为两分支卷积神经网络,分别是支持分支和查询分支。支持分支提取支持图像的分割先验,查询分支则用于提取查询图像在嵌入空间中的特征,根据支持分支的分割先验,构建两者之间的相似关系,实现对查询图像的分割。
然而,现有的方法通过单独考虑图像的全局线索或者局部线索构建支持图像和查询图像的相似关系。例如,一些方法[1-2, 6-8]只考虑了全局线索,而忽略了蕴含细节信息的局部线索,使得模型难以实现细节的准确分割。另一方面,一些方法如LTM[3]只考虑了局部线索,忽略了携带有丰富语义信息的全局线索,导致模型的通用性和泛化性受限。综合两者的优劣,本文将全局线索和局部线索相结合,克服彼此的缺点,使得两者相互促进,获得更优的分割结果。
基于上述分析,在建模支持图像分割先验和查询图像特征之间的关系时,本文同时考虑了支持图像的全局线索和局部线索。具体地,本文提出了一个新的注意力谱生成器,根据支持图像和查询图像之间的关系,更准确地输出查询图像的注意力谱。注意力谱生成器包含2个级联的模块:全局引导器和局部引导器。全局引导器对特征间的全局相似性进行构建,局部引导器建模特征间的局部相似性。本文提出一种新的基于指数函数的全局相似性度量方式,可以对查询图像特征中与支持图像全局分割先验相似的部分进行增强,同时对不相似的部分进行削弱,更有效地对全局相似性进行度量。受到LTM[3]的启发,基于局部关系矩阵,使用局部引导器对局部相似性进行建模,从而得到与类别无关的注意力谱。将全局引导器和局部引导器进行级联,实现了全局相似性和局部相似性的融合。在Pascal-5i数据集上对所提方法进行实验验证,所提方法在1-shot设定下mIoU达到59.9%,5-shot设定下mIoU达到了61.9%,均优于现有方法。
本文所作出的贡献如下:
1) 提出了一种新的小样本分割模型,在进行关系建模时,同时考虑了支持图像的全局线索和局部线索,通过同时使用特征之间的全局相似性和局部相似性实现更准确的分割。
2) 在进行全局相似性建模时,提出了一种新的基于指数函数的全局相似性度量方式,能够更有效地建模全局相似性。
3) 在Pascal-5i数据集上进行了实验验证。所提方法优于最新的对比方法(在1-shot设定下mIoU达到了59.9%,5-shot设定下mIoU达到了61.9%)。
1 相关工作 1.1 小样本学习 小样本学习旨在使用少量样本,学习可以迁移到未知类别的知识,进而实现未知类目标识别的泛化。现有的小样本学习方法可以分为3类:基于模型微调的方法[9]、基于图模型的方法[10]、基于度量学习的方法[11-12]。基于模型微调的方法使用少量新类样本,对模型的参数进行微调。基于图模型的方法建立支持样本和查询样本之间的图模型,对新类样本进行识别。基于度量学习的方法度量支持样本和查询图像之间的距离,继而识别新类样本。目前,小样本学习已在图像分类、图像分割等领域得到了广泛的关注。
1.2 语义分割 语义分割对图像中每个像素点所属类别进行预测。基于全卷积网络(FCN)[13],研究人员提出了一系列语义分割方法[14-18],并验证了其有效性。为了得到含有丰富语义信息的特征表达,全卷积网络大量使用池化、跨步长卷积等操作,从而降低特征的分辨率,丰富特征的语义信息。不仅如此,为了提高感受野,DeepLab[15]使用空洞卷积。然而,现有的语义分割方法不能对未知类目标分割进行泛化,因此,研究者提出小样本分割任务,旨在使用少量有标注实现未知类目标的有效分割。
1.3 小样本分割 小样本分割旨在使用少量有标注的图像对新类目标进行分割。现有的小样本分割方法根据其思路可以分为3类:基于度量学习的方法[1-3]、基于元学习的方法[4-5]、基于原型学习的方法[6-7]。基于度量学习的方法[1-3]建模支持图像和查询图像之间的相似性,通过迁移支持图像分割先验实现查询图像的分割。基于元学习的方法[4-5]利用支持分支提取的信息预测查询图像的分类器权重,进而实现查询图像的分割。基于原型学习的方法[6-7]将支持图像的前景和背景分别映射为2个原型先验,然后使用距离最近的原则对查询图像进行分割。其中,基于度量学习的方法被广泛应用到小样本分割的任务中,并且取得了良好的效果。本文方法采用度量学习的思路进行建模。
1.4 国内小样本学习研究现状 文献[19]对融合小样本学习和零样本学习相关方法进行综述,主要介绍了当前小样本学习和零样本学习的一些主流方法。文献[20]将小样本学习与域迁移结合,应用于跨域人脸欺诈检测中。文献[21]利用度量学习的思路,提出了一种基于小样本学习的零器件表面缺陷检测的方法。文献[22]将小样本学习应用于点云分类中,提出了一种基于迁移学习的点云分类方法。文献[23]提出了一种基于已知类权重生成未知类权重的方法,有效地避免了小样本学习中灾难性遗忘的问题。
2 本文方法 2.1 小样本分割问题设置 对于未知类数据Dtest,小样本分割网络致力于提取未知图像的前景区域。通常,分割网络在有标注的已知类数据集Dtrain上进行训练,其中DtrainDtest中的图像类别没有交集。具体地,小样本分割将Dtrain分为支持训练集和查询训练集。
对于k-shot设定,从支持集合的支持训练集和查询训练集中随机采样k张支持图像及其对应的二值掩膜进行训练。测试阶段,小样本网络则根据输入的k张支持图像及其对应的二值掩膜对未知的查询图像进行分割。
2.2 方法框架 本文提出一种新的小样本分割网络,致力于通过全局和局部线索对特征之间的关系建模以生成更精确的注意力谱。最终实现查询图像前景部分的增强和背景部分的削弱。
本文方法框架如图 1所示,所提网络共包括4个步骤:
图 1 本文方法总体框架 Fig. 1 General framework of proposed method
图选项




步骤1?? 将支持图像和查询图像输入到特征提取器CNN中,得到支持图像特征Fs和查询图像特征Fq
步骤2?? 为了滤除Fs的背景部分,接着将下采样后支持图像掩膜MsFs相乘,得到的Fs只包含支持图像的前景信息。
步骤3?? 将FsFq以及Ms输入到基于全局和局部相似性度量的注意力谱生成器中,构建与类别无关的注意力谱att,以突出查询图像的前景区域。
步骤4 ??将att与另一查询图像特征Fq相乘,并输入到上采样网络,得到最终的预测结果P
所提网络的核心是注意力谱生成器,其基于全局和局部相似性。对注意力谱att进行构建,其由2个级联的模块组成:全局引导器和局部引导器。全局引导器用于对特征之间的全局相似性进行度量。局部引导器则建模局部相似性。在全局引导器方面,提出了一种新的基于指数函数的全局相似性度量方式,可以对查询图像特征中与支持图像先验相似的部分进行增强,同时对不相似的部分进行削弱,更好地进行全局相似度量。在局部引导器方面,受到方法LTM[3]的启发,基于局部关系矩阵,使用局部引导器对特征的局部相似性进行建模,从而得到最终与类别无关的注意力谱。
2.3 注意力谱生成器 本文基于全局和局部相似性对注意力谱att进行构建,具体如图 2所示。具体思路是:将FsFq映射到同一个嵌入空间,在嵌入空间中对全局和局部相似性进行建模,最终生成与类别无关的注意力谱。
图 2 注意力谱生成器结构 Fig. 2 Structure of attention generator
图选项




具体地,FsFq被输入到一个嵌入模块E中,分别得到嵌入特征φs=E(Fs)和φq=E(Fq)。然后,利用全局引导器,对φsφq的全局相似性进行建模,实现φqφs中全局信息相似的部分指数型增强,生成粗糙的查询图像特征φq。接着利用局部引导器对φsφq中的每个空间位置之间的关系进行度量。通过将Msφsφq输入局部引导器中,得到最终与类别无关的注意力谱att
2.4 全局引导器 现有的基于全局相似性度量的方法计算查询图像特征的每个空间位置与支持图像全局分割先验的余弦距离。然而,该方法将导致查询图像特征中前景部分和背景部分的可区分度较差的问题。针对上述问题,提出了一种新的全局引导器,如图 3所示。
图 3 全局引导器的细节结构 Fig. 3 Detailed structure of global guider
图选项





2.4.1 全局余弦相似性 按照式(1),对φs进行全局平均池化,获得支持图像全局分割先验vecs。进一步,按照式(2),计算φq每一个空间位置与vecs的余弦距离,进而获得能够表征φsφq之间全局余弦相似度的余弦相似谱SSi的值越高,表示当前位置i的局部特征φq, ivecs越相似。
(1)

式中: h为矩阵的高度维度大小;w为矩阵的宽度维度大小。
(2)


2.4.2 基于指数函数的全局相似性度量 由于S的值域为[-1, 1],本文期望对S值越高的部分进一步增强,对S值越低的部分进行削弱,从而得到一个新的可以表征距离的相似谱。基于上述分析,提出一种基于指数函数的全局相似性度量方式。具体地,基于式(3),增强了与vecs相似的查询图像特征,削弱了与vecs不相似的查询图像特征。
(3)

式中: λ为超参数。
可以看出,如果Si=1,则表明当前位置i的特征φq, ivecs有较高的相似性,所提方法可以得到一个新的attgi注意力值,它的值为λ,是大于1的,故所提方法对位置i进行了增强。相反地,若Si=-1,则表明当前位置i的特征φq, ivecs不相似,所提方法计算得到的attgi值为1/λ,若λ越大,则attgi越接近0,从而对位置i进行了削弱。
在实验中,将λ设为10、20、40,分别获得attg1=10Sattg2=20Sattg3=40S。进而对attg1attg2attg3取平均,得到如式(4)所示的attg,其表征了全局相似性度量。
(4)

基于上述原理,获得了基于全局相似性度量的注意力谱attg,其对查询图像特征中与支持图像全局分割先验相似的部分进行增强,同时对不相似的部分进行削弱。
因此,如图 3所示,根据式(5),所提全局引导器可获得前景与背景可区分度更高的查询嵌入特征φq
(5)

式中:“?”为逐元素相乘。
为了获得更具鲁棒性的φq,本文在训练阶段将φq进行上采样,输出粗糙的分割结果Φ。这里使用如式(6)所示的交叉熵损失对此过程进行监督。
(6)

式中:Gi, j为查询图像标签掩膜在位置(i, j)的值; Φi, jΦ在位置(i, j)的值。
2.5 局部引导器 包含丰富细节的局部线索对于目标分割任务非常重要,而局部相似性由局部线索所刻画。受到LTM[3]的启发,本文基于局部关系矩阵,使用局部引导器对每一对局部空间特征的相似性进行建模,从而得到最终的与类别无关的注意力谱。

2.5.1 局部关系矩阵 本文对支持图像和查询图像特征之间的局部相似性进行测度。所提方法考虑类似Non-local[24]中提出的关系矩阵。给定2个特征F1F2,其尺寸为C×H×W,度量F1F2局部相似性的局部关系矩阵R(F1, F2)为
(7)

所得R(F1, F2)为(H×W)×(H×W)尺寸的矩阵,其中的每个元素R(F1, F2)i, j表征了局部特征F1, iF2, j的余弦相似性。
本文的局部引导器对φqφs的每一对局部特征点进行比较,根据式(7)计算局部关系矩阵R=R(φq, φs)。

2.5.2 基于局部关系矩阵的注意力谱构建 令MqMs分别为查询图像和支持图像降采样后的掩膜。在理想情况下,式(8)成立:
(8)

在式(8)中,MqMs的尺寸被调整为(H×W)×1和1×(H×W),φqφs分别调整尺寸为(H×WCC×(H×W)。
局部引导器的目标是: 根据局部相似性,构建与类别无关的注意力谱att。由于attφq中的前景部分进行增强,对背景部分进行削弱,可以将其视为查询图像的粗糙分割结果。因此,式(8)近似为
(9)

更进一步,将式(9)的左侧替换为R,得到
(10)

显然,Ms为行满秩矩阵,其右逆Msr-可根据式(11)计算:
(11)

式中:MsHMs的共轭转置。
因此,基于式(12),得到最终的注意力谱att。最后,将att调整大小为H×W
(12)


2.5.3 局部引导器实现流程 局部引导器具体细节如图 4所示。将φqφs的尺寸分别调整为(H×WCC×(H×W),将其输入基于式(7)的协同注意力模块中,获得局部关系矩阵R。同时,所提网络根据式(11)对重置尺寸的Ms计算右逆Msr-。最后,基于式(12)构建最终的注意力谱att
图 4 局部引导器的细节结构 Fig. 4 Detailed structure of local guider
图选项




在训练阶段,由于所提网络的与类无关性,将所有前景类别视为“前景”一类,背景视为一类。为了获得更具鲁棒性的att,所提方法将att转化为一个2×H×W的概率谱ρ。具体地,由于att的值域为[0, 1],将其视为前景概率谱,则1-att可视为背景概率谱。进而将att1-att按通道维度拼接,获得ρ=Concat(att, 1-att),从而实现从注意力谱att到概率谱ρ之间的转化。进而使用式(13)所示的交叉熵损失对其进行优化。
(13)

式中:La为该损失函数;ρi, jρ在位置(i, j)的值。
本文的局部引导器受到LTM[3]的启发,不同之处在于:LTM[3]仅考虑局部相似性,并且对局部关系矩阵R的构建使用L2损失函数监督。该方法的弊端有2点:①缺乏全局分割先验的引导;②由于L2损失是逐元素计算的,缺乏结构信息。这对测试阶段新类的R的构建是不利的,使得该方法的可扩展性受限。本文方法在将查询图像特征φq输入局部引导器时,已经滤除了大量背景,不需要对R的构建进行监督,这样使得生成的att更具鲁棒性。
2.6 上采样网络 获得注意力谱att以后,将attFq相乘,获得最终的查询图像特征σq,此时已经对其背景部分进行了有效的滤除。所提网络将σq输入到上采样网络中,获得最终的预测结果P。上采样网络结构如图 5所示,使用了空洞空间金字塔池化(ASPP)[14]进行多尺度融合,使得结果更具鲁棒性。使用式(14)对这个过程进行监督。
(14)

图 5 上采样网络架构 Fig. 5 Framework of up-sample network
图选项




式中: Pi, jP在位置(i, j)的值。
在整个训练阶段,使用的损失函数为
(15)

2.7 k-shot分割 在k-shot设定下,LTM[3]输入k张支持图像,每张支持图像与查询图像建模局部关系,分别生成k个注意力谱[att1, att2, …, attk],进而将其平均化,得到最终的注意力谱att。其弊端在于平均化的过程中丢失了部分局部线索,使得注意力谱更加粗糙。为了更好地实现对全局相似性和局部相似性的结合,提出一种新的基于拼接的k-shot分割方案。
k张支持图像[S1, S2, …, Sk]同时输入特征提取器中, 分别得到k个特征[fs1, fs2, …, fsk],将其特征按高度维度进行拼接,可以得到一个融合特征fs。同时,所提网络对查询图像提取特征,获得fq。将k张支持图像分割掩膜[Ms1, Ms2, …, Msk]按高度维度拼接,得到fs对应的掩膜Ms。进而,将fsfqMs输入所提注意力谱生成器中,先后进行2.4节所提全局相似性度量和2.5节所提局部相似性度量,获得fs对应的注意力谱att。同时将fq输入卷积层,得到fs。将fqatt逐元素相乘,进而输入2.6节所提上采样网络,得到k-shot分割结果。
所提k-shot方案优点在于建模局部相似性时,对查询图像特征与k个支持图像特征每个点的余弦距离进行测度,避免了局部信息的丢失,能够生成更精细的注意力谱att
3 实验 3.1 实现细节 为了验证方法的有效性,在Pascal-5i数据集上进行了实验验证,使用Pytorch深度学习框架对模型构建,所有的实验平台为Nvidia Titan XP GPU,使用Adam优化器对所提模型参数进行优化,学习率设置为10-4。本文使用了不同的主干网络作为特征提取器验证性能,分别为在ImageNet[25]上预训练的VGG16[26]、ResNet50[27]、ResNet101[27]。在训练阶段,冻结了特征提取器的参数;在测试阶段,使用了多尺度策略和DenseCRF[28]。将查询图像调整大小为320×320、416×416、224×224,对提取的多尺度特征进行平均化,进而进行后续操作。
3.2 Pascal-5i数据集 Pascal-5i是基于Pascal数据集和SBD数据集构建的。Pascal-5i数据集中一共有20类目标,按照现有小样本分割研究的常用设置,将其分成4个子集,每个子集图像有5类目标图像。
数据集的划分如表 1所示。实验阶段,采用交叉验证法,轮流将Fold0、Fold1、Fold2、Fold3作为测试集,另外3个子集作为训练集,得到4个训练-测试集为[(Fold1、Fold2、Fold3), Fold0], [(Fold0、Fold2、Fold3), Fold1], [(Fold0、Fold1、Fold3), Fold2], [(Fold0、Fold1、Fold2), Fold3]。
表 1 Pascal-5i四个子集的划分 Table 1 Four subsets setting of Pascal-5i
子集 类别
Fold0 飞机、自行车、鸟、船、瓶子
Fold1 公交车、轿车、猫、椅子、牛
Fold2 餐桌、狗、马、摩托车、人
Fold3 盆栽、山羊、沙发、火车、显示器


表选项






3.3 评价指标 使用了所有前景类别的平均交并比mIoU作为评价指标,这个指标被广泛地运用于小样本分割任务评价中。mIoU值越高,模型的性能越好。
同时,也使用前景交并比和背景交并比的平均值FB-IoU作为参考指标。
3.4 对比实验
3.4.1 不同主干网络下的对比实验 由于不同主干网络对模型性能有较大的影响,为了保证公平性,分别使用不同的主干网络,和其他现有方法进行对比,mIoU对比结果如表 2表 3所示,表中最佳实验结果加粗。
表 2 不同主干网络下,本文与现有方法的1-shot对比实验mIoU结果 Table 2 Comparative experimental results (mIoU) of proposed method and existing methods under 1-shot setting using different backbone networks ?%
主干网络 方法mIoU平均值
F0 F1 F2 F3
VGG16OSLSM[4] 33.6 55.3 40.9 33.5 40.8
Co-FCN[29] 36.7 50.6 44.9 32.4 41.2
SG-One[1] 40.2 58.4 48.4 38.4 46.4
PANet[6] 42.3 58.0 51.1 41.2 48.2
FWB[8] 47.0 59.6 52.6 48.3 51.9
本文 50.3 65.3 53.0 50.8 54.9
ResNet50CANet[2] 52.5 65.9 51.3 51.9 55.4
LTM[3] 54.6 65.6 56.6 51.3 57.0
CRNet[30] 55.7
本文 54.6 67.8 57.4 52.1 58.0
ResNet101FWB[8] 51.3 64.5 56.7 52.2 56.2
本文 57.5 68.7 58.7 54.5 59.9


表选项






表 3 不同主干网络下,本文与现有方法的5-shot对比实验mIoU结果 Table 3 Comparative experimental results (mIoU) of proposed method and existing methods under 5-shot setting using different backbone networks ?%
主干网络 方法mIoU平均值
F0 F1 F2 F3
VGG16OSLSM[4] 35.9 58.1 42.7 39.1 44.0
Co-FCN[29] 37.5 50.0 44.1 33.9 41.4
SG-One[1] 41.9 58.6 48.6 39.4 47.1
PANet[6] 51.8 64.6 59.8 46.5 55.7
FWB[8] 50.9 62.9 56.5 50.1 55.1
本文 50.3 66.3 54.7 55.3 56.7
ResNet50CANet[2] 55.5 67.8 51.9 53.2 57.1
LTM[3] 56.4 66.6 56.9 56.8 59.2
CRNet[30] 58.8
本文 54.8 68.1 59.9 56.2 59.8
ResNet101FWB[8] 54.9 67.4 62.2 55.3 60.0
本文 58.1 69.8 60.8 58.9 61.9


表选项






表 2表 3实验结果表明,所提方法使用不同的主干网络,在1-shot设定和5-shot设定下实验mIoU结果均优于现有方法。
同时,本文进一步在FB-IoU指标下,与其他现有方法进行对比。表 4表 5分别列出了在1-shot和5-shot设定下,所提方法与其他现有方法的FB-IoU对比实验结果,表中最佳实验结果加粗。由表 4可以看出,所提方法使用不同的主干网络,在1-shot设定下结果均优于现有方法。表 5的5-shot实验结果也充分说明了所提方法的有效性。
表 4 不同主干网络下,本文与现有方法的1-shot对比实验FB-IoU结果 Table 4 Comparative experimental results (FB-IoU) of proposed method and existing methods under 1-shot setting using different backbone networks ?%
主干网络 方法FB-IoU平均值
F0 F1 F2 F3
VGG16OSLSM[4] 61.3
Co-FCN[29] 60.1
SG-One[1] 63.1
PANet[6] 66.5
本文 68.6 77.3 65.3 68.4 69.9
ResNet50CANet[2] 71.0 76.7 54.0 67.2 67.2
CRNet[30] 66.8
本文 71.5 78.7 70.6 69.1 72.5
ResNet101 本文 73.7 79.4 71.8 70.2 73.8


表选项






表 5 不同主干网络下,本文与现有方法的5-shot对比实验FB-IoU结果 Table 5 Comparative experimental results (FB-IoU) of proposed method and existing methods under 5-shot setting using different backbone networks ?%
主干网络 方法FB-IoU平均值
F0 F1 F2 F3
VGG16OSLSM[4] 61.5
Co-FCN[29] 60.2
SG-One[1] 65.9
PANet[6] 70.7
本文 68.0 77.6 66.5 71.8 71.0
ResNet50CANet[2] 74.2 80.3 57.0 66.8 69.6
CRNet[30] 71.5
本文 71.1 78.8 72.7 69.7 73.1
ResNet101 本文 73.5 80.0 72.6 72.9 74.8


表选项







3.4.2 全局相似性度量对比实验 为了验证所提出的全局相似性度量方式的有效性,进一步将模型中全局相似性度量方式替换为余弦距离(SG-One[1]中提出)和通道维度拼接的方式(CANet[2]中提出)。并且为了消除局部引导器对实验结果的影响,本节实验仅仅保留全局相似性建模,即仅保留了全局引导器。本节使用ResNet50作为主干网络,对3种全局相似性度量方式进行了对比,mIoU结果如表 6所示,表中最佳实验结果加粗。可以看出,表 6所示实验结果证明了本文提出的全局相似性度量方式的有效性。
表 6 全局相似性度量方式的对比实验mIoU结果 Table 6 Comparative experimental results (mIoU) of global similarity metric ?%
全局度量方式mIoU
1-shot 5-shot
余弦距离 51.3 53.2
通道维度拼接 46.5 47.2
所提全局相似性度量 53.8 55.7


表选项







3.4.3 k-shot设定下的对比实验 为验证本文k-shot设定方案的有效性,在5-shot设定下,对方法LTM[3]中平均化注意力谱的方式和所提k-shot方案进行对比,对比实验mIoU结果如表 7所示,表中最佳实验结果加粗。表 7所示实验结果证明了所提k-shot方案的有效性。
表 7 5-shot设定方案对比实验mIoU结果 Table 7 Comparative experimental results (mIoU) under 5-shot setting ?%
设定方式 mIoU
平均化注意力谱 59.1
所提k-shot方案 59.7


表选项






3.5 消去实验
3.5.1 全局引导器和局部引导器的消去实验 本文提出了2个级联的模块:全局引导器和局部引导器。为了验证这2个模块的有效性,在1-shot和5-shot设定下,使用ResNet50作为主干网络,进行了消去实验。实验测得mIoU结果如表 8所示,表中最佳实验结果加粗。
表 8 全局引导器和局部引导器的消去实验mIoU结果 Table 8 Ablation experimental results (mIoU) of global guider and local guider ?%
全局引导器 局部引导器mIoU
1-shot 5-shot
53.8 55.7
56.8 59.0
58.0 59.7


表选项






表 8可以看出,当单独使用全局引导器时,模型效果最差,这是因为仅使用全局引导器时,缺少了局部细节的刻画。单独使用局部引导器时,模型性能略有提升,其原因是局部细节的刻画更加丰富,不足之处在于缺少全局信息的引导。当同时使用全局引导器和局部引导器时,模型的性能较好,此时模型已经充分结合了全局相似性和局部相似性。

3.5.2 损失函数的消去实验 所提方法使用的损失函数L包含3项:LsegLaLseg0Lseg为整体损失函数的核心,用于监督最终预测结果的生成。因此,实验中始终保持Lseg,对其余2项进行消去实验。使用ResNet50作为主干网络,在1-shot和5-shot设定下,进行本节的消去实验,实验的mIoU结果如表 9所示,表中最佳实验结果加粗。
表 9 损失函数的消去实验mIoU结果 Table 9 Ablation experimental result (mIoU) of loss function ?%
Lseg La Lseg0mIoU
1-shot 5-shot
55.4 57.7
56.6 58.6
55.9 57.9
58.0 59.7


表选项






可知,当本文同时使用3项损失函数时,所提模型性能较好。
3.6 可视化结果
3.6.1 分割效果较好的可视化结果 进一步列出了部分高质量的分割结果,如图 6所示。可知,由于结合了全局和局部线索,本文方法对轮廓的刻画较为精细。
图 6 部分分割效果较好的可视化结果 Fig. 6 Some visualized high-quality segmentation results
图选项





3.6.2 分割效果较差的可视化结果 对于分割效果较差的图片,也进一步展示了部分典型代表,并且对其分割失败原因进行分析。部分分割效果较差的可视化结果如图 7所示。
图 7 部分分割效果较差的可视化结果 Fig. 7 Some visualized low-quality segmentation results
图选项




对于第1行可视化结果,由于查询图像的目标存在遮挡,且查询图像与支持图像外表差异较大,所提方法对其不能很好地进行分割。对于第2、3行可视化结果,查询图像中含有猫、狗2类目标,由于猫和狗的类间差异较小,所提网络将其视为一类目标进行分割。这是小样本分割的难点,也是将来进一步研究的重点。
4 结束语 本文提出了一种新的小样本分割模型,在构建注意力谱时,有效地结合全局相似性和局部相似性。该注意力谱生成器包含2个级联的模块:全局引导器和局部引导器。全局引导器用于建模特征间的全局相似性,局部引导器用于建模特征间的局部相似性。具体来说,在全局引导器中,提出了一种新的全局相似性度量,对查询图像特征和支持图像全局分割先验进行关系建模,更有效地输出前景增强、背景削弱的查询图像特征。进一步通过引入基于局部关系矩阵的局部引导器,所提方法对支持图像特征和查询图像局部特征之间的相似性进行建模,最后得到与类别无关的注意力谱。Pascal-5i数据集的实验验证了所提方法的有效性。

参考文献
[1] ZHANG X, WEI Y, YANG Y, et al. Sg-One: Similarity guidance network for one-shot semantic segmentation[J]. IEEE Transactions on Cybernetics, 2020, 50(9): 3855-3865. DOI:10.1109/TCYB.2020.2992433
[2] ZHANG C, LIN G, LIU F, et al. CANet: Class-agnostic segmentation networks with iterative refinement and attentive few-shot learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 5217-5226.
[3] YANG Y, MENG F, LI H, et al. A new local transformation module for few-shot segmentation[C]//International Conference on Multimedia Modeling. Berlin: Springer, 2020: 76-87.
[4] SHABAN A, BANSAL S, LIU Z, et al. One-shot learning for semantic segmentation[EB/OL]. [2020-07-18]. https: //arxiv.org/abs/1709.03410.
[5] TIAN P, WU Z, QI L, et al. Differentiable meta-learning model for few-shot semantic segmentation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. [S. l. ]: AAAI Press, 2020: 12087-12094.
[6] WANG K, LIEW J H, ZOU Y, et al. PANet: Few-shot image semantic segmentation with prototype alignment[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 9197-9206.
[7] LIU J, QIN Y. Prototype refinement network for few-shot segmentation[EB/OL]. (2020-05-09)[2020-07-18]. https://arxiv.org/abs/2002.03579.
[8] NGUYEN K, TODOROVIC S. Feature weighting and boosting for few-shot segmentation[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 622-631.
[9] FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks[J/OL]. (2017-07-18)[2020-07-18]. https://arxiv.org/abs/1703.03400.
[10] KIM J, KIM T, KIM S, et al. Edge-labeling graph neural network for few-shot learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 11-20.
[11] SNELL J, SWERSKY K, ZEMEL R. Prototypical networks for few-shot learning[C]//Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2017: 4077-4087.
[12] SUNG F, YANG Y, ZHANG L, et al. Learning to compare: Relation network for few-shot learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 1199-1208.
[13] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 3431-3440.
[14] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. [2020-07-18]. https://arxiv.org/abs/1706.05587.
[15] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[16] LIN G, MILAN A, SHEN C, et al. RefineNet: Multi-path refinement networks for high-resolution semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 1925-1934.
[17] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted intervention. Berlin: Springer, 2015: 234-241.
[18] ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 2881-2890.
[19] 潘崇煜, 黄健, 郝建国, 等. 融合零样本学习和小样本学习的弱监督学习方法综述[J]. 系统工程与电子技术, 2020, 42(10): 2246-2256.
PAN C Y, HUANG J, HAO J G, et al. Survey of weakly supervised learning integrating zero-shot and few-shot learning[J]. Journal of Systems Engineering and Electronics, 2020, 42(10): 2246-2256. DOI:10.3969/j.issn.1001-506X.2020.10.13 (in Chinese)
[20] 孙文赟, 金忠, 赵海涛, 等. 基于深度特征增广的跨域小样本人脸欺诈检测算法[J/OL]. 计算机科学[2020-09-27]. http://kns.cnki.net/kcms/detail/50.1075.TP.20200911.1518.024.html.
SUN W Y, JIN Z, ZHAO H T, et al. Cross-domain few-shot face presentation attack detection method based on deep feature augmentation[J/OL]. Computer Science, 2020[2020-09-27]. http://kns.cnki.net/kcms/detail/50.1075.TP.20200911.1518.024.html (in Chinese).
[21] 于重重, 萨良兵, 马先钦, 等. 基于度量学习的小样本零器件表面缺陷检测[J]. 仪器仪表学报, 2020(7): 214-223.
YU C C, SA L B, MA X Q, et al. Few-shot parts surface defect detection based on the metric learning[J]. Chinese Journal of Scientific Instrument, 2020(7): 214-223. (in Chinese)
[22] 雷相达, 王宏涛, 赵宗泽. 基于迁移学习的小样本机载激光雷达点云分类[J]. 中国激光, 2020, 47(11): 1110002.
LEI X D, WANG H T, ZHAO Z Z. Small sample airborne LiDAR point cloud classification based on transfer learning[J]. Chinese Journal of Lasers, 2020, 47(11): 1110002. (in Chinese)
[23] 李文煜, 帅仁俊, 郭汉. 克服小样本学习中灾难性遗忘方法研究[J]. 计算机应用与软件, 2020, 37(7): 136-141.
LI W Y, SHUAI R J, GUO H. Overcoming catastrophic forgetting in few-shot learning[J]. Computer Applications and Software, 2020, 37(7): 136-141. (in Chinese)
[24] WANG X, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 7794-7803.
[25] DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2009: 248-255.
[26] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014-11-18)[2020-07-18]. https://arxiv.org/abs/1409.1556.
[27] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778.
[28] KR?HENBVHL P, KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]//Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2011: 109-117.
[29] RAKELLY K, SHELHAMER E, DARRELL T, et al. Conditional networks for few-shot semantic segmentation[C]. International Conference on Learning Representations, 2018.
[30] LIU W, ZHANG C, LIN G, et al. CRNet: Cross-reference networks for few-shot segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 4165-4173.


相关话题/图像 实验 网络 数据 信息

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于信息素启发狼群算法的UAV集群火力分配*
    随着无人机(UnmannedAerialVehicle,UAV)技术和人工智能的快速发展,利用大量具有自主作战能力且成本低廉的UAV组成UAV集群突破对手防御体系,对目标实施饱和打击以及对入侵机群进行空中拦截是UAV集群作战的重要手段[1-2]。美军已经开展了多项关于UAV集群研究及试验验证,并将U ...
    本站小编 Free考研考试 2021-12-25
  • 基于趋势符号聚合近似的卫星时序数据分类方法*
    时间序列是按照时间排序的一组随机变量,其通常是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果[1]。在卫星的测控管理过程中,会产生大量的遥测数据,它们以时间序列的形式存储在数据库中。而运行状态监测系统传感器产生的监测数据通过遥测系统传输至地面控制中心,此类数据是地面判断在轨卫星运行 ...
    本站小编 Free考研考试 2021-12-25
  • 带空间结构的人工神经网络建模方法*
    空间自回归模型自20世纪70年代由Anselin和Cliff等提出并推广以来[1-2],日益受到重视。通过引入空间权重矩阵将空间效应引入传统回归模型,空间自回归模型能够更加全面地分析各种变量之间的变化规律,增强模型的解释能力[3]。目前,空间自回归模型已广泛应用于环境问题[4]、区域经济增长[5]等 ...
    本站小编 Free考研考试 2021-12-25
  • 高强度弹性合金的微孔铣削实验研究*
    近年来,微细切削技术愈加受到重视,成为新兴的先进制造技术,在加工领域获得广泛应用[1]。微细切削加工是指利用微型切削刀具(直径1mm以下的铣刀或钻头、微型车刀等)对微小尺寸(几微米到几毫米)的工件进行材料切削去除,并且其切削深度为微米级的切削加工方法[2-4]。一般,微细切削加工可获得较高的加工精度 ...
    本站小编 Free考研考试 2021-12-25
  • 基于改进Faster R-CNN的SAR图像飞机检测算法*
    合成孔径雷达(SyntheticApertureRadar,SAR)与光学和红外等被动式传感器相比,具有全天时、全天候、高分辨率的独特优势,在战场态势感知、典型目标识别和精确制导等军事领域具有突出的战略意义。飞机作为一种典型的人造目标,军事价值极其重要,高效、准确获取机场、空域等位置的飞机目标信息, ...
    本站小编 Free考研考试 2021-12-25
  • 多表冗余惯导数据融合算法及在自对准中的应用*
    激光陀螺捷联惯导系统(LaserStrapdownInertialNavigationSystem,LSINS)具有动态范围广、耐冲击振动、可靠性高等优点,远征一号、嫦娥探测器等空间飞行器及多数现役火箭均采用LSINS提供姿态、位置等导航信息。多表冗余惯导系统通过仪表冗余设计,显著提高系统的可靠性, ...
    本站小编 Free考研考试 2021-12-25
  • 空地量子密钥分发网络中数据协调方案*
    量子密钥分发(QuantumKeyDistribution,QKD)技术是量子通信中发展比较成熟的一个分支,目前研究人员已经在一些地区设计实验了一些节点数量有限的小型化QKD网络,其中基于量子卫星的QKD网络可以极大地增加通信距离。虽然量子卫星克服了远距离光子损耗的问题,但是通信的实时全方位覆盖和多 ...
    本站小编 Free考研考试 2021-12-25
  • 基于级联注意力机制的孪生网络视觉跟踪算法*
    视觉跟踪是计算机视觉领域的难点问题之一,是实现更高级视觉理解与场景分析的基础[1]。视觉跟踪技术广泛应用在视频监控、人机交互、机器人、视频编辑和无人驾驶等领域。在仅给定初始帧目标位置和大小信息的条件下,视觉跟踪任务需要实现对后续帧中运动目标持续且稳定的跟踪。由于目标在运动过程中存在着尺度变化、旋转、 ...
    本站小编 Free考研考试 2021-12-25
  • 极稀疏投影数据的CT图像重建*
    传统计算机断层成像(CT)机在螺旋扫描情况下旋转一周一般需要投影1000~2000次[1-2]。已有研究显示,CT检查的X-射线辐射可增加病人患癌症的风险[3-4],过量的X-射线辐射还会对人体产生不可逆的辐射损害如染色体变异等[5-6]。临床上,可以通过减少投影角度数来降低X-射线对人体的伤害。减 ...
    本站小编 Free考研考试 2021-12-25
  • 基于形态学滤波的快速多通道图像EMD*
    1998年,美国工程院院士Huang等[1]提出了一种适用于处理非线性非平稳信号的经验模态分解(EMD)方法,其对输入的一维信号极大(小)值点进行三次样条插值得到上(下)包络,并进行重复筛分操作提取出若干个尺度由细到粗的内蕴模态函数(IMF)分量和一个余量。EMD方法是完全数据驱动的自适应方法,能够 ...
    本站小编 Free考研考试 2021-12-25