基于级联注意力机制的孪生网络视觉跟踪算法*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

视觉跟踪是计算机视觉领域的难点问题之一，是实现更高级视觉理解与场景分析的基础^[1]。视觉跟踪技术广泛应用在视频监控、人机交互、机器人、视频编辑和无人驾驶等领域。在仅给定初始帧目标位置和大小信息的条件下，视觉跟踪任务需要实现对后续帧中运动目标持续且稳定的跟踪。由于目标在运动过程中存在着尺度变化、旋转、变形、快速运动以及背景中的光照变化、相似物体干扰等复杂因素，实现长时稳定的目标跟踪依然是一项富有挑战性的任务。
近年来，对视觉跟踪任务的研究主要集中在2个方面：①提高算法的速度；②提高跟踪的精度。从速度上讲，相关滤波算法是最成功的跟踪框架之一^[2-5]，最开始提出的MOSSE算法^[2]，运行速度达到了近700帧/s，主要得益于采用了快速傅里叶变换和较为简单的手工特征。但是这类算法在面对复杂场景时，往往难以应对，性能会大幅下降。从精度上讲，随着深度学习在计算机视觉各个领域的成功应用^[6-8]，将其与视觉跟踪进行结合，便成了当前研究的热点。相比于相关滤波算法，基于深度学习的跟踪算法在性能上获得了极大的提升，能较好地应对大多数困难场景。但是这类算法的速度大多较慢，比如VOT2015的冠军算法MDNet^[9]采用离线训练加在线微调的方式获得了很好的跟踪性能，但是不到1帧/s的跟踪速度使得与实际应用相距较远。后续又提出了大量将深度特征和相关滤波进行结合的算法^[10-13]，进一步提高了相关滤波算法的跟踪精度，但是跟踪速度依然较慢。
最近，基于孪生网络的目标跟踪算法在跟踪精度和跟踪速度上取得了很好的平衡，在大量数据集上取得了优异的性能表现，引起了广泛的关注与研究^[14-15]。基于孪生网络的跟踪算法将跟踪视为一个相似性匹配任务，通过在超大规模的数据集上离线学习关于目标的通用特征，在线跟踪时将初始帧作为模板，在后续帧中寻找与初始帧最相似的区域作为目标的当前位置。由于没有在线更新，使得相比其他深度学习算法，基于孪生网络的跟踪算法有着明显的速度优势。
但是这类算法由于缺乏对模板的更新使得跟踪算法难以应对目标在时域上的复杂变化，同时在目标存在相似物体干扰的时候，容易导致模型漂移甚至丢失目标。对此，研究人员尝试在网络中引入在线学习机制，Guo等^[16]提出了动态孪生网络(DSiam)，对模板不断进行在线微调，同时抑制背景干扰，通过牺牲部分速度优势来换取精度的提升。为了进一步提高孪生网络对特定目标的特征表达能力，本文在网络中引入了非局部注意力模块和通道注意力模块。通过非局部注意力模块实现对目标区域的重点关注，通过通道注意力模块提高模型对目标时域变化的适应性。
本文从提高孪生网络对特定目标的适应性入手，提出了基于级联注意力机制的孪生网络视觉跟踪算法。并在OTB2015^[17]上对所提算法进行了性能测试，相比于基准算法全卷积孪生网络(SiamFC)，在跟踪精度和成功率上都有较大程度的提升。
1 算法本文提出了基于级联注意力机制的孪生网络视觉跟踪算法，如图 1所示。其中虚线框表示级联注意力模块，主要是通过结合非局部注意力与通道注意力挖掘关于目标的实例特征，为了进一步提高跟踪性能，采用多模型集成的方式将原始输出和最终输出进行融合，并在大规模数据集上进行了训练。在测试阶段将输出响应图与未加注意力模块的输出响应图进行融合，取得了较大幅度的性能提升。

图 1 本文算法框架 Fig. 1 Framework of proposed algorithm

图选项

1.1 全卷积孪生网络基于孪生网络的目标跟踪算法本质是在进行相似性学习，假定模板图像设为z，候选图像设为x，f为度量相似性的函数，首先通过网络对模板图像和候选图像提取特征为φ(x)和φ(z)，2个图像的相似度便可记为f(φ(x), φ(z))。当图像大小一致时，相似度变为一个值，当图像大小不一致时，相似性度量变为一个响应图。孪生网络跟踪算法通过添加交叉相关层实现相似性的计算如下:

(1)

式中：b为一个偏置项，代表在每个位置上加上相同的实数值；“*”为交叉相关操作。取响应图最大值便是目标对应的位置。训练时采用大量的正负样本对和逻辑回归损失函数对网络进行训练。具体的训练细节可参见文献[14]。
1.2 级联注意力机制注意力机制最早在自然语言处理领域取得了很大的成功，尤其是自注意力机制的提出，极大地促进了自然语言处理领域的发展。近年来，大量的研究工作将注意力机制运用到计算机视觉领域，从显著性图像识别到全景分割，都有注意力机制的影子。为了提升孪生网络对特定目标的判别和表达能力，本文提出了联合非局部注意力和通道注意力的级联注意力模块，一方面对空间的显著性区域进行加强，另一方面通过通道权重的分配提高模型对不同目标的区分能力。接下来对各个模块进行简要的介绍。

1.2.1 非局部注意力模块假定最后一层卷积层的输出特征矩阵表示为X∈R^r×w×d，其中d为特征通道数; r、w为最后一层卷积层的特征图大小。将在特征图的每个空间位置上提取的特征记为x_i, i∈[1, N], N=h×w，x_i为d维的特征向量，本文采用的非局部算子可以描述为

(2)

式中: i、j为输出位置的标签; h为一种关系函数，用来计算x_i、x_j间的相似性; g为提取该位置的特征向量; C(x)为归一化系数。传统的卷积操作仅考虑了卷积核大小区域内的特征关系，而非局部算子可以实现对全任意位置直接相关性的计算，可以更好突出相关性较高的目标区域^[18]。如图 2所示，本文采用非局部算法常用的高斯函数作为特征向量之间的相似性度量。

图 2 非局部注意力模块 Fig. 2 Non-local attention module

图选项

(3)

1.2.2 通道注意力模块深度神经网络的多通道特征可以实现目标更加鲁棒的表示，但是几乎所有网络结构都将各层通道的特征同等对待，而对于不同的目标，各个通道特征所起的作用是不同的。对于某个特定目标的跟踪，可能只有某部分通道的响应是有用的，其他通道的响应反而是一种干扰。对此，本文借鉴SENet网络^[19]的通道注意力模块(见图 3)，建模高层特征通道之间的相互关系。通过添加的模块可以得到关于通道特征重要性的权重向量，经过Sigmoid层，实现权重的规范化。

图 3 通道注意力模块 Fig. 3 Channel attention module

图选项

1.3 多模型集成为了进一步提高算法的鲁棒性，和原有的SiamFC输出进行结合，最终的响应图由2个分支进行加权平均而得

(4)

式中：f₁为原始SiamFC的输出；f₂为加了注意力机制的输出；λ为加权系数，在本文中取为0.5。和SiamFC类似，在尺度估计上依然采用多尺度搜索的方式，为了计算效率，本文仅采用3个尺度。
1.4 算法流程首先通过GOT10k和VID数据集对构建的网络进行联合训练。在跟踪过程中，通过注意力机制对最后一层的特征进行调整，进一步提高了模型的判别能力。为了进一步提高算法性能，将未加注意力机制的原始结构输出的响应图和最终的响应图进行融合。为了减轻运算负担，本文仅采用3个尺度实现尺度估计。本文基于级联注意力机制的孪生网络视觉跟踪算法如下：
输入：图像序列I₁，I₂，…，I_n，目标初始位置p₀=(x₀, y₀)，目标初始尺度s₀=(w₀, h₀)。
输出：每帧图像的跟踪结果p_t=(x_t, y_t)，s_t=(w_t, h_t)。
对于t=1, 2, …, n，do：
(0) 预处理。
(a) 通过GOT10k数据集对网络进行训练；
(b) 将首帧信息输入网络提取目标模板特征。
(1) 定位目标中心位置。
(a) 在第t帧选择ROI区域特征，输入孪生网络和模板特征进行匹配；
(b) 通过式(1)、式(4)计算其响应图；
(c) 提取最大值确定第t帧中目标的中心位置p_t。
(2) 确定目标最佳尺度。
(a) 利用p_t和前一帧目标尺度s_t-1进行多尺度采样，得到采样图像集Is={Is₁, Is₂, …, Is_m}，m为尺度估计个数；
(b) 采用文献[14]中的尺度估计方法确定第t帧中目标的最佳尺度s_t。
2 仿真实验为验证本文算法的有效性，在Ubuntu18.04操作系统下，采用Pytorch1.1.0框架和Python编程实现了本文算法，并采用了GOT10k工具箱对构建的网络进行训练和测试。本文采用GOT10 k数据集作为网络的训练集。在Intel Xeon 2.4 GHz的处理器上对本文算法进行训练和测试，并利用GPU(TITANXp)进行加速。
在OTB2015数据集^[17]上将所提算法与其他10种主流且相关的跟踪算法进行比较，这些算法包括：
1) 基于预训练深度特征与相关滤波算法结合的方法：HCF^[20]。
2) 基于传统手工特征的相关滤波算法：Staple^[21]、SAMF^[22]、LCT^[23]、KCF^[4]。
3) 基于端到端学习的跟踪算法：CFNet^[24]、DCFNet^[25]、SiamFC^[14]。
4) 其他算法：MEEM^[26]。
OTB2015数据集包含有100个富有挑战性的视频序列，这些视频序列涉及到的跟踪场景可以被分为11个标注属性，包括快速运动(Fast Motion，FM)、背景杂波(Background Clutters，BC)、运动模糊(Motion Blur，MB)、目标形变(Deformation，DEF)、光照变化(Illumination Variation，IV)、平面内旋转(In-Plane Rotation，IPR)、低分辨率(Low Resolution，LR)、目标遮挡(Occlusion，OCC)、平面外旋转(Out-of-Plane Rotation，OPR)、目标超出视野(Out-of-View，OV)、尺度变化(Scale Variation，SV)。本文采用跟踪精度和成功率2个指标对算法的性能进行评估，其中跟踪精度指的是：估计的中心位置误差在20个像素以内的帧数占总帧数的百分比；跟踪成功率指的是估计框和标注框的交并比(IOU)大于0.5的帧数占总帧数的百分比。
2.1 定性分析定性分析主要将本文算法和3种对比算法在5个具有挑战性的图像视频上进行对比，包括Matrix、CarScale、Skiing、MotorRolling、Human9。如图 4所示，本文算法能够很好地应对这些复杂场景，尤其是在快速运动的小目标和尺度估计上，甚至比最新的SiamRPN算法性能还好，证明了本文算法的有效性。

图 4 定性分析 Fig. 4 Qualitative analysis

图选项

1) 背景干扰：相似物体的干扰一直是SiamFC系列算法的难点问题之一，尤其在“Matrix”视频序列中，跟踪目标一方面运动较快，另一方面背景中存在着大量相似的物体，使得大部分算法难以成功地跟踪目标。SiamFC算法和CFNet算法在#45帧均丢失了目标，而本文算法得益于注意力机制的引入，可以实现对目标持续且稳定的跟踪。
2) 尺度变化：目标的尺度变化是跟踪过程中的常见情况，在“CarScale”视频序列中，随着汽车由远及近驶来，目标不断变大。CFNet算法和SiamRPN算法在最后均跟踪到了车头位置，SiamFC算法对目标的尺度估计偏大，而本文算法在采用和SiamFC算法相同的尺度估计方法的前提条件下，却得到了相对较好的尺度估计结果。进一步证明更好的特征表达不仅对定位精度有好处，同时也可以得到更加好的尺度估计结果。
3) 低分辨率：当跟踪目标的分辨率较低的时候，可供利用的信息极其有效，使得视觉跟踪任务变得更加困难。在“Matrix”和“Skiing”中目标的分辨率均较低，这就需要孪生网络具有更好的特征表达能力。在“Skiing”中，仅有本文算法和SiamRPN算法可以实现持续的跟踪，SiamFC算法和CFNet算法在#40帧左右均丢失了目标。而相比于SiamRPN算法，本文算法有着更好的跟踪准确性。
4) 光照变化：光照变化会造成目标像素信息发生较大的变化，在“MotorRolling”和“Human9”中，目标均存在明显的光照变化。在“MotorRolling”中还存在目标较大程度的旋转变化。SiamFC算法和CFNet算法在2个视频序列中均丢失了目标，而本文算法通过注意力机制以及模型集成的方法，可以实现在这些复杂场景中对目标稳定的跟踪，且相比于其他算法，有着更好的跟踪精度。
2.2 算法整体性能图 5为本文算法和对比算法的跟踪精度和成功率的对比曲线，图 5(a)中数值为整体精度的平均值；图 5(b)中数值为成功率的平均值。相对于基准算法SiamFC，本文算法在跟踪精度和成功率上都有明显的性能提升，主要得益于注意力机制的应用以及在大规模数据集上进行训练。相比于同样基于SiamFC算法的改进算法——DCFNet和CFNet，本文算法依然取得了更好的性能表现，在基准算法SiamFC上跟踪精度提高了9.3%，成功率提高了5.4%。

图 5 不同算法的跟踪精度曲线和成功率曲线 Fig. 5 Curves of distance precision and success rate of different algorithms

图选项

进一步证明了注意力机制在提高孪生网络模型判别力方面的有效性。表 1为几种深度学习跟踪算法在OTB2015上的性能和速度对比。在跟踪速度方面，SiamFC算法表现最好(83.7帧/s)，其次是CFNet算法(78.4帧/s)，而本文算法的运行速度为58帧/s，虽然速度有所下降，但是在跟踪精度和成功率上均远高于上述2种算法。同时和基于深度特征和相关滤波的HCF算法相比，本文算法在速度上依然有着很大的优势。
表 1 深度学习算法跟踪速度对比 Table 1 Comparison of tracking speed of deep learning algorithms

算法	本文	HCF	CFNet	DCFNet	SiamFC
跟踪速度/(帧·s^-1)	58	10.2	78.4	65.9	83.7

表选项

2.3 算法各属性性能为了更加细致地分析本文算法在各类跟踪场景下的性能表现，采用OTB100数据集中的11个标注属性对本文算法与对比算法进行分析，图 6和图 7分别列出了各属性下各个算法的跟踪精度和成功率，红色代表最优结果，绿色代表次优结果图 6括号中数值表该属性下的平均定位精度，图 7括号中数值表该属性下的平均成功率。从图 6和图 7中可以看出，本文算法在几乎所有属性上均取得了最优或次优的跟踪结果。

图 6 不同属性下算法的跟踪精度对比曲线 Fig. 6 Tracking precision comparison curves of algorithm under different attributes

图选项

图 7 不同属性下算法的跟踪成功率对比曲线 Fig. 7 Tracking success rate comparison curves of algorithm under different attributes

图选项

2.4 消融分析为了进一步分析算法各部分对跟踪性能的影响，对本文算法进行拆分并在OTB2015数据集上做了3组对比实验，实验结果如图 8所示。图中：本文(Chanel)为只加通道注意力模块；本文(Non-locall)为只加入非局部注意力模块。

图 8 算法关键环节对跟踪性能影响对比实验 Fig. 8 Comparison experiment of influence of key parts of algorithm on tracking performance

图选项

从图 8中可以看出，通道注意力模块对跟踪性能有较大影响，说明该模块在提高算法对特定目标的判别力上有着较大的作用。另外非局部注意力机制的引入可以很好地降低杂乱背景的干扰，进一步提高算法的跟踪性能。
2.5 跟踪失败情况分析图 9显示了几个跟踪失败的例子，图中Ground truth表示目标真实位置，对于Bird2序列，当目标在长时间遮挡后再次出现，由于固定大小的搜索区域难以覆盖到目标，导致跟踪失败。对于Singer2序列，由于背景相比于目标更加显著，使得深度特征难以很好地进行分辨，使得本文算法最后错误的跟踪到背景中的灯光。对于Jump序列，目标存在剧烈的平面内变化和快速运动，孪生网络模型由于不具备快速的更新能力，使得本文算法不能很快适应目标，同时算法不具备精细的尺度估计能力，最后导致目标丢失和模型漂移。后续将从提高算法的重检测能力以及对目标变形的快速适应能力方面进行深入的研究。

图 9 跟踪失败情况 Fig. 9 Tracking failures

图选项

3 结束语本文提出了一种基于级联注意力机制孪生网络视觉跟踪算法。通过在SiamFC的基础网络结构中增加非局部注意力模块和通道注意力模块提升模型的判别能力，并在大规模数据集GOT10k和VID上进行训练。实验结果也证明了本文算法的有效性，在所有11个属性上都有明显的性能提升。后续将考虑在更加复杂的模型中进行注意力机制的引入，除了通道和非局部注意力，更多地去挖掘时间序列上的关联性。

参考文献

[1]	SMEULDERS A W M, CHU D M, CUCCHIARA R, et al. Visual tracking:An experimental survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 36(7): 1442-1468.

[2]	BOLME D S, BEVERIDGE J R, DRAPER B A, et al.Visual object tracking using adaptive correlation filters[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2010: 2544-2550.

[3]	HENRIQUES J F, CASEIRO R, MARTINS P, et al.Exploiting the circulant structure of tracking-by-detection with kernels[C]//Proceedings of the European Conference on Computer Vision.Berlin: Springer, 2012: 702-715.

[4]	HENRIQUES J F, RUI C, MARTINS P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

[5]	DANELLJAN M, SHAHBAZ K F, FELSBERG M, et al.Adaptive color attributes for real-time visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2014: 1090-1097.

[6]	GIRSHICK R, DONAHUE J, DARRELL T, et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2014: 580-587.

[7]	LONG J, SHELHAMER E, DARRELL T.Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2015: 3431-3440.

[8]	RAWAT W, WANG Z. Deep convolutional neural networks for image classification:A comprehensive review[J]. Neural Computation, 2017, 29(9): 2352-2449.

[9]	NAM H, HAN B.Learning multi-domain convolutional neural networks for visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2016: 4293-4302.

[10]	DANELLJAN M, HAGER G, KHAN S F, et al.Convolutional features for correlation filter based visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops.Piscataway: IEEE Press, 2015: 58-66.

[11]	DANELLJAN M, ROBINSON A, KHAN F S, et al.Beyond correlation filters: Learning continuous convolution operators for visual tracking[C]//Proceedings of the European Conference on Computer Vision.Berlin: Springer, 2016: 472-488.

[12]	BHAT G, JOHNANDER J, DANELLJAN M, et al.Unveiling the power of deep tracking[C]//Proceedings of the European Conference on Computer Vision.Berlin: Springer, 2018: 483-498.

[13]	DANELLJAN M, BHAT G, KHAN S F, et al.ECO: Efficient convolution operators for tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2017: 6931-6939.

[14]	BERTINETTO L, VALMADRE J, HENRIQUES J F, et al.Fully convolutional siamese networks for object tracking[C]//Proceedings of the European Conference on Computer Vision.Berlin: Springer, 2016: 850-865.

[15]	LI B, YAN J Y, WU W, et al.High performance visual tracking with siamese region proposal network[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 8971-8980.

[16]	GUO Q, FENG W, ZHOU C, et al.Learning dynamic siamese network for visual object tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2017: 1781-1789.

[17]	WU Y, LIM J, YANG M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848.

[18]	WANG X, GIRSHICK R, GUPTA A, et al.Non-local neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 7794-7803.

[19]	HU J, SHEN L, SUN G.Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 7132-7141.

[20]	MA C, HUANG J B, YANG X K, et al.Hierarchical convolutional features for visual tracking[C]//IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2015: 3074-3082.

[21]	BERTINETTO L, VALMADRE J, GOLODETZ S, et al.Staple: Complementary learners for real-time tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2016: 1401-1409.

[22]	LI Y, ZHU J.A scale adaptive kernel correlation filter tracker with feature integration[C]//Proceedings of the European Conference on Computer Vision.Berlin: Springer, 2014: 254-265.

[23]	MA C, YANG X, ZHANG C, et al.Long-term correlation tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2015: 5388-5396.

[24]	VALMADRE J, BERTINETTO L, HENRIQUES J, et al.End-to-end representation learning for correlation filter based tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2017: 5000-5008.

[25]	WANG Q, GAO J, XING J L, et al.DCFNet: Discriminant correlation filters network for visual tracking[EB/OL].(2017-04-13)[2019-11-20].http://arxiv.org/abs/1704.04057.

[26]	ZHANG J, MA S, SCLAROFF S.MEEM: Robust tracking via multiple experts using entropy minimization[C]//Proceedings of the European Conference on Computer Vision.Berlin: Springer, 2014: 188-203.