近年来,深度网络模型因其良好的特征提取性能,在机器视觉领域得到了广泛的应用。Wang等[1]提出的结构化输出深度跟踪(SO-DLT)模型延续了深度学习目标跟踪(DLT)算法离线预训练和在线微调的思想,使用卷积神经网络(CNN)作为目标特征提取网络;文献[2]提出的全卷积网络跟踪(FCNT)模型在深入分析深度网络模型不同特征层输出特点的基础上,构建了新的深度网络用于目标特征提取。实践证明,CNN网络模型具有强大的特征学习能力和特征表达能力,对目标本身各种形态变化的适应性较强。由于梯度的传播方向是从后到前,随着CNN网络层数的不断增加,根据链式法则,隐含层的梯度值会进行连乘,从而导致浅层隐含层的梯度衰减剧烈,出现梯度消失或爆炸的问题。2016年,He等[3]提出了残差学习的思想,残差块的输出由该残差块的输入及卷积层的输出共同组成,训练新的残差函数,降低了网络的学习难度,避免网络出现退化问题。
近年来,一些基于分块的方法逐渐应用在目标跟踪领域。文献[4]由人工选取目标分块及其相关权重,目标的形状和外观变化能够得到有效表达。文献[5]在核相关滤波(KCF)算法的基础上,根据目标轮廓采取不同的分块策略,利用有效子块更新目标模板并确定出目标的整体位置。
综上所述,针对无人机跟踪过程中目标尺度不断变化导致跟踪性能较低的问题,本文提出一种基于残差学习的自适应无人机目标跟踪算法。首先,为了克服网络层数加深导致的网络退化问题,结合无人机图像的特点,构建了空洞卷积残差网络(Dilated Convolution-Residual Network,DC-ResNet)模型,该模型在残差网络结构中引入空洞卷积[6],优化了网络结构,可以提取到目标更深层次的特征信息。其次,通过核相关滤波算法构建滤波模板,得到该目标特征下的预测位置,进而确定出目标中心所在位置;在尺度计算模块,利用矩形跟踪框的不同外观特性对目标进行自适应分块处理,提取各子块的目标特征进行单独跟踪,从而得到各子块的最大响应位置。根据视频前后两帧各子块最大响应位置的相对变化计算出目标尺度的伸缩系数,进而缩放目标框的大小,改善由于目标发生尺度变化导致跟踪失败的问题。最后,根据准确的目标位置和尺度更新目标外观模板。仿真实验结果表明,本文算法能更好地适应目标发生尺度变化、遮挡等问题,有效提高了跟踪算法的准确度。
1 基本原理 1.1 残差学习 残差网络是一种基于CNN的结构,相比于普通卷积网络,残差网络通过恒等映射的引入在输入、输出之间建立了一条快捷连接(Shortcut Connection),从而使得梯度能够很好地传递到浅层,减轻深层网络的训练负担。图 1为两层残差网络结构。
![]() |
图 1 残差网络结构 Fig. 1 Residual block structure |
图选项 |
假设残差学习单元第一层的输入为x,输出为H(x),则可以定义一个残差映射F(x)为H(x)-x(假设其输入、输出是相同维度),原始的函数映射H(x)可以表示为F(x)+x。He等[3]通过实验证明,尽管2种形式都能渐进地拟合函数映射H(x),但优化残差映射F(x)比优化原始映射H(x)容易得多。
对于一个两层的残差学习单元,假设其输入为x,输出为y,其残差学习定义如下:
![]() | (1) |
![]() | (2) |
式中:σ为激活函数;W1和W2分别为第1层和第2层的权重。
所以,对于多层残差学习单元的输出,则有
![]() | (3) |
由式(3)可以看出,在网络结构中引入恒等快捷连接不会增加网络的参数量和网络模型的计算复杂度。
1.2 空洞卷积 标准的残差网络模型一直采用小尺寸卷积核,这样虽然可以减少网络参数计算量,但是在特征图分辨率较高的情况下,小尺寸卷积核的局部感受野太小,可能捕捉不到好的目标特征。若换成较大的卷积核,则又会增加网络的参数量和计算量。空洞卷积在普通卷积层中引入了一个新的参数——扩张率(Dilation Rate),该参数定义了卷积核在处理数据时各值间的距离。在不增加网络结构的卷积层层数或网络计算量的前提下,使用空洞卷积可以扩大卷积核的感受野,从根本上降低了网络模型的复杂程度;另外,空洞卷积能够灵活地聚合目标多尺度上下文信息,保持相同的空间分辨率[7-9]。与卷积层和池化层相比,空洞卷积的输出及其包含的信息更加详细。因此,前几个卷积阶段可以使用空洞卷积代替普通卷积层和池化层,提高网络的整体性能。
图 2为空洞卷积示意图,其中,使用3×3的卷积核进行不同的卷积操作。由此可见,空洞卷积可以扩大卷积核的感受野,且不会增加卷积核的参数数量和计算量。
![]() |
图 2 空洞卷积示意图 Fig. 2 Schematic diagram of dilated convolution |
图选项 |
2 基于残差学习和自适应尺度的无人机目标跟踪 2.1 DC-ResNet模型 在无人机目标跟踪过程中,目标经常处于复杂的环境背景,且场景中目标的尺度也在不断发生变化,这对跟踪算法提出了更高的要求。随着CNN的发展,尤其是深度卷积网络的提出,研究发现,网络层数是影响网络性能的一个关键因素。一方面,网络越深,模型效果越好;另一方面,当网络层数增加到一定数目后,训练精度反而变差,导致模型训练难度增大,出现网络退化现象。残差学习网络可以很好地减轻深层网络的训练负担,空洞卷积可以在不增加网络参数的前提下增大卷积核的局部感受野,提取到目标更深层次的特征信息[6]。因此,将空洞卷积引入到残差学习网络模型中,结合两者的优势构建了DC-ResNet网络。
DC-ResNet网络架构如图 3所示,其中“×3”表示该阶段含有3个残差模块(ResBlock)。该网络模型共包含6个Stage,Stage 1和Stage 2利用空洞卷积代替了传统卷积,Stage 2、Stage 3和Stage 4均包含3个残差模块,Stage 5和Stage 6则采用传统的卷积操作。
![]() |
图 3 网络整体结构 Fig. 3 Overall network structure |
图选项 |
各阶段具体参数设置如下:
1) Stage 1:输入256×256的彩色图像,使用32个扩张率为2,3×3的空洞卷积核进行卷积,再采用批量归一化(Batch Normalization,BN[10])替代Dropout,网络训练速度大幅提高,进行非线性映射ReLU函数。
2) Stage 2:输入通道设置为32,先经过1×1的卷积操作,再使用扩张率为2,3×3的空洞卷积核进行卷积,此时网络感受野扩大为5×5,保留了更多的原始图像信息,进行1×1的卷积操作。每次卷积操作后都经过BN层和非线性映射ReLU层,并在修正后的残余模块中添加恒定的乘法缩放层(通过实验验证在该网络模型中缩放层恒定的常数值w取0.1时训练较稳定),该单元重复3次;加入crop操作,目的是去除残差单元中受填充影响的特性,其余操作不变,重复1次。
3) Stage 3、Stage 4与Stage 2的结构相似。Stage 3的输入通道设置为128,输出为256,采用3×3的标准卷积操作,该单元重复3次;Stage 4的输入通道设置为256,输出为512,采用3×3的标准卷积操作,该单元重复3次。
4) Stage 5与Stage 1的结构相似,采用3×3的标准卷积核,个数为1024个,经过非线性映射层和池化层。
5) Stage 6:采用1×1的标准卷积操作。
2.2 自适应尺度 无人机在目标跟踪过程中需要不断调整飞行姿态和高度实现准确跟踪,导致跟踪目标和无人机之间的相对距离变化频繁,目标易发生尺度变化、形变等情况。经典的目标跟踪算法在视频序列初始帧人工标定跟踪框的大小和位置,忽略了目标在运动过程中的尺度变化,整个跟踪过程使用大小固定的跟踪框。当目标尺度发生变化时,算法的跟踪效果并不理想,容易发生漂移现象,导致算法的准确度降低。为了实现高效、鲁棒的目标跟踪,采用分块的方法对目标进行跟踪。当目标尺度发生变化时,各子块的相对位置也随之发生变化,但固定的目标分块策略未考虑到目标尺度在跟踪过程中的多样性。因此,根据视频初始帧矩形跟踪框的不同外观特性对目标采取不同的分块策略,实现目标尺度自适应跟踪。
若目标的纵横比大于阈值T1, 将目标沿水平方向三等分,如图 4(a)所示(如横向行驶的汽车);若目标纵横比小于阈值T2, 将目标沿垂直方向三等分,如图 4(b)所示(如行人);若目标纵横比在阈值T1和T2之间, 则将目标四等分,如图 4(c)所示(如车尾)。为了有效利用跟踪框的背景信息,将各子块的搜索区域限制为目标子块大小的2倍。
![]() |
图 4 自适应分块 Fig. 4 Adaptive block diagram |
图选项 |
通过核相关滤波算法确定出目标的中心位置Pt后,利用矩形跟踪框的不同外观特性对目标进行自适应分块处理。在对各子块进行跟踪时,分别利用各子块上训练好的分类器,找出子块上的最大响应位置,通过计算目标各子块最大响应位置的相对变化得到目标尺度的伸缩系数,进而可以由伸缩系数缩放视频前一帧中目标的尺度,得到当前帧目标的尺度。具体步骤如下:
步骤1??假设视频序列第t-1帧目标的中心位置为Pt-1,目标尺度为wt-1×ht-1,对其自适应分块,找出各子块的最大响应位置为(xi(t-1), yi(t-1));第t帧中,以Pt-1为中心,选取大小为αwt-1×αht-1的图像块,提取图像块的深度特征,由核相关滤波算法计算出最大响应值位置Pt为当前帧目标中心所在位置。
步骤2??在第t帧中,以Pt为中心,选取大小为wt-1×ht-1的图像块,将该图像块进行自适应分块,分别利用各子块上训练好的分类器,找出各子块的最大响应位置为(xi(t), yi(t))。
步骤3??计算伸缩系数rt,rt由子块上最大响应位置之间距离的相对变化得到,如下:
![]() | (4) |
式中:n为分块数。
步骤4??计算伸缩系数的移动平均值ρt,如下:
![]() | (5) |
式中:T为移动平均参数。
步骤5??第t帧中目标尺度为
![]() | (6) |
式中:wt和ht分别为第t帧目标的宽和高。
2.3 算法流程 图 5为基于残差学习的自适应无人机目标跟踪算法流程。算法步骤如下:
![]() |
图 5 基于残差学习的自适应无人机目标跟踪算法流程 Fig. 5 Flowchart of adaptive UAV target tracking algorithm based on residual learning |
图选项 |
步骤1??构建网络模型。根据无人机视频图像的特点,结合残差学习网络和空洞卷积的优点构建特征提取网络。
步骤2??初始化。根据视频序列初始帧跟踪框的纵横比,对目标进行自适应分块;通过构建的深度网络提取目标和各子块图像的深层次特征,利用其特征训练相应的分类器并计算系数矩阵。
步骤3??目标定位。以Pt-1为中心,将大小为扩大一定比例的图像块输入到网络中,然后将提取的深度特征输入核相关滤波,计算出最大响应位置Pt为当前帧目标中心所在位置。
步骤4??尺度计算。分别计算出各子块的最大响应位置,根据前后两帧各子块最大响应位置的相对变化,确定目标尺度伸缩系数。
步骤5??模板更新。根据准确的目标位置和尺度,更新目标外观模板,更新子块中心和子块上分类器的系数。
3 仿真实验 3.1 网络性能分析 为验证改进网络的有效性,在相同运行环境和参数的前提下,将DC-ResNet与传统CNN、残差网络(ResNet)、空洞卷积神经网络(DilatedNet)分别在ILSVRC2012数据集上进行实验结果分析和比较。
表 1为4种网络模型在数据集上取得的分类准确率数值。由表 1可知,4种分类模型在迭代30000次以后,其准确率均已达到平衡,且改进模型的准确率较其他3种模型均有所提高。其中,较CNN模型的准确率提高了7.2%,较ResNet模型的准确率提高了2.2%,较DilatedNet模型的准确率提高了4.9%,该改进模型的最终分类精度可达83.9%。
表 1 网络模型性能比较 Table 1 Performance comparison of network models
迭代次数 | 分类准确率 | |||
DC-ResNet | CNN | ResNet | DilatedNet | |
30000 | 0.835 | 0.775 | 0.813 | 0.790 |
35000 | 0.837 | 0.778 | 0.817 | 0.796 |
40000 | 0.837 | 0.778 | 0.820 | 0.795 |
45000 | 0.836 | 0.780 | 0.818 | 0.802 |
50000 | 0.839 | 0.782 | 0.821 | 0.800 |
表选项
3.2 实验结果与分析 为验证本文算法(RL-SAT)的有效性,选取UAV123[11]数据集、VisDrone2018[12]数据集和UAV Video Database数据集中的视频序列作为测试数据集,主要包括汽车、卡车、船、飞机、行人等类别,视频序列中可能包括目标自身形态变化、相似目标、运动模糊、遮挡、背景干扰、尺度变化及光照变化等复杂情况。视频帧均经过高斯滤波进行预处理。将本文算法与Struck[13]、FCNT[2]、LCT[14]、DSST[15]、MEEM[16]、BACF[17]和CFNet[18]7种跟踪算法进行实验效果对比,部分跟踪结果如图 6所示。其中,FCNT算法和CFNet算法是基于深度学习的跟踪算法,LCT算法和DSST算法考虑了目标的尺度变化问题。这里展示了Car2、Bus4、Skateboard和Person5四组无人机视频序列的实验结果。
![]() |
图 6 部分视频仿真结果 Fig. 6 Partial results of video simulation |
图选项 |
1) Car2序列。目标存在明显的尺度变化,跟踪的汽车在图像中逐渐变小。Struck算法的目标框大小始终未变,丢失了大量正样本信息,在第505帧时导致目标跟踪发生偏移;而本文算法能够灵活地跟踪目标,当目标尺度发生变化时,跟踪框的大小也随之发生变化,具有良好的尺度自适应性。
2) Bus4序列。目标发生尺度变化,同时存在部分遮挡。红色目标框始终包含目标图像,而绿色目标框在逐渐向左偏移。第277帧时目标跟踪框包含了树木的遮挡信息。从第277帧到第388帧,目标发生了明显的尺度变化,且伴随外部遮挡干扰,本文算法通过提取目标的深层次信息,并自适应目标尺度,使得跟踪框与目标的真实尺度基本重合。
3) Skateboard序列。从第79帧到第198帧,目标一直处于暗光环境下,且其尺度在逐渐缩小。从第198帧到第327帧,场景中有一个强烈暗光干扰。受复杂背景因素干扰等影响,FCNT算法和Struck算法虽然可以跟踪上目标,但跟踪精度并不高,跟踪框的中心位置逐渐与目标发生偏离。但改进算法能够较准确跟踪目标,且缩小目标的尺度。在第270帧时,目标虽然也受到强烈的暗光干扰影响,但改进算法仍能稳定的跟踪目标。
4) Person5序列。目标存在明显的尺度变化,随着无人机拍摄视角的变化,跟踪的行人在图像中逐渐变大。目标处于跑步姿态,双手和腿在运动过程中时刻发生变化,MEEM算法和BACF算法跟踪框的中心与目标中心相比略偏左。本文算法利用构建的DC-ResNet网络提取目标深层次特征,提高对目标外观变化的鲁棒性,提高跟踪精度。在第285帧进行尺度放大时,本文算法根据各子块峰值响应点的相对变化,自适应地调整跟踪框的大小使其尽可能适应目标的尺寸,减少无关背景信息干扰,使得跟踪算法在无人机视频中始终正确跟踪目标。
为了进一步验证跟踪效果,采用中心位置误差CLE和覆盖率RO两种评价指标进行对比评价,结果如图 7和图 8所示。在4组测试视频中,当目标发生明显的尺度变化时,FCNT算法和Struck算法出现了较大的跟踪偏差,而本文算法的中心位置误差曲线始终保持在较低水平。在Bus4视频序列中,LCT算法的中心位置误差前期较小,随着帧数增加,目标尺度变化较大,其误差随之变大,但本文算法仍然取得较低的中心误差。Car2和Bus4视频中中心位置误差相对稳定,本文算法的覆盖率明显高于其他对比算法。本文算法在无人机目标跟踪过程中始终保持了相对较低的中心位置误差和较高的覆盖率。
![]() |
图 7 中心位置误差曲线 Fig. 7 Curves of center position errors |
图选项 |
![]() |
图 8 覆盖率曲线 Fig. 8 Curves of coverage rate |
图选项 |
为了更加准确地分析跟踪性能,将本文算法与7种主流跟踪算法在UAV123数据集和VisDrone2018数据集上进行实验效果对比。分别采用跟踪精确率(Precision)和跟踪成功率(Success)2种评价指标进行定量分析,结果如图 9和图 10所示。图中:图例中的数字分别表示中心位置误差取值为20时对应的跟踪精确率和覆盖率取值为0.5时对应的跟踪成功率。在UAV123数据集和VisDrone2018数据集上,本文算法的跟踪精确率提升的相对较小,分别提升了13.3%和2.4%;在跟踪成功率方面表现比较突出,分别提升了8.6%和18.4%。图 11(a)、(b)分别为UAV123数据集和VisDrone2018数据集视频序列中目标发生尺度变化的测试曲线。可以看出,本文算法较其他算法在尺度变化的测试中具有更高的跟踪精确率和成功率。
![]() |
图 9 在UAV123数据集上的跟踪精确率和成功率 Fig. 9 Tracking accuracy and success rate in UAV123 dataset |
图选项 |
![]() |
图 10 在VisDrone2018数据集上的跟踪精确率和成功率 Fig. 10 Tracking accuracy and success rate in VisDrone2018 dataset |
图选项 |
![]() |
图 11 尺度变化场景测试曲线 Fig. 11 Curves of scale change scene test |
图选项 |
4 结论 1) 本文结合残差学习和空洞卷积的优点设计了DC-ResNet网络模型,既可以减轻深层网络的训练负担,也可以在不增加参数的前提下增大卷积核的局部感受野,提取到目标更深层次的特征信息。
2) 根据视频序列初始帧跟踪框的外观特性对目标进行自适应分块,并单独跟踪每个目标子块。根据前后两帧各子块最大响应位置的相对变化计算出目标尺度的伸缩系数,进而计算出目标尺度,可以有效解决目标发生尺度变化、遮挡等问题。
参考文献
[1] | WANG N, LI S, GUPTA A, et al.Transferring rich feature hierarchies for robust visual tracking[EB/OL].(2015-01-19)[2019-10-20].https://arxiv.org/abs/1501.04587. |
[2] | WANG L, OUYANG W, WANG X, et al.Visual tracking with fully convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2015: 3119-3127. |
[3] | HE K M, ZHANG X Y, REN S Q, et al.Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Patern Recognition (CVPR).Piscataway: IEEE Press, 2016: 770-778. |
[4] | NEJHUM S M S, HO J, YANG M H.Visual tracking with histograms and articulating blocks[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Piscataway: IEEE Press, 2008: 546-553. |
[5] | 段伟伟, 杨学志, 方帅, 等. 分块核化相关滤波目标跟踪[J]. 计算机辅助设计与图形学学报, 2016, 28(7): 1160-1168. DUAN W W, YANG X Z, FANG S, et al. Block nucleation correlation filtering target tracking[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(7): 1160-1168. (in Chinese) |
[6] | KUDO Y, AOKI Y.Dilated convolutions for image classification and object localization[C]//Fifteenth IAPR International Conference on Machine Vision Applications.Piscataway: IEEE Press, 2017: 452-455. |
[7] | YU F, KOLTUN V.Multi-scale context aggregation by dilated convolutions[EB/OL].(2015-11-23)[2019-10-20].https://arxiv.org/abs/1511.07122. |
[8] | CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab:Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. DOI:10.1109/TPAMI.2017.2699184 |
[9] | CHEN L C, PAPANDREOU G, SCHROFF F, et al.Rethinking atrous convolution for semantic image segmentation[EB/OL].(2017-06-17)[2019-10-20].https://arxiv.org/abs/1706.05587. |
[10] | IOFFE S, SZEGEDY C.Batch normalization: Accelerating deep network training by reducing internal covariate shift[EB/OL].(2015-02-11)[2019-10-20].https://arxiv.org/abs/1502.03167. |
[11] | MUELLER M, SMITH N, GHANEM B.A benchmark and simulator for UAV tracking[C]//European Conference on Computer Vision.Berlin: Springer, 2016: 445-461. |
[12] | ZHU P, WEN L, BIAN X, et al.Vision meets drones: A challenge[EB/OL].(2018-04-20)[2019-10-20].https://arxiv.org/abs/1804.07437. |
[13] | HARE S, SAFFARI A, TORR P H S.Struck: Structured output tracking with kernels[C]//IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2011: 263-270. |
[14] | MA C, YANG X, ZHANG C, et al.Long-term correlation tracking[C]//Computer Vision & Pattern Recognition, 2015: 5388-5396. https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ma_Long-Term_Correlation_Tracking_2015_CVPR_paper.pdf |
[15] | WANG R, ZOU J, CHE M, et al.Robust and real-time visual tracking based on single-layer convolutional features and accurate scale estimation[C]//Chinese Conference on Image and Graphics Technologies, 2018: 471-482. |
[16] | ZHANG J, MA S, SCLAROFF S.MEEM: Robust tracking via multiple experts using entropy minimization[C]//European Conference on Computer Vision.Berlin: Springer, 2014: 188-203. |
[17] | GALOOGAHI H K, FAGG A, LUCEY S.Learning background-aware correlation filters for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2017: 1135-1143. |
[18] | VALMADRE J, BERTINETTO L, HENRIQUES J, et al.End-to-end representation learning for correlation filter based tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Piscataway: IEEE Press, 2017: 2805-2813. |