删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种基于视频预测的红外行人目标跟踪方法

本站小编 哈尔滨工业大学/2020-12-05

一种基于视频预测的红外行人目标跟踪方法

柳恩涵1,张锐1,赵硕2,王茹1

(1.哈尔滨理工大学 自动化学院,哈尔滨 150080; 2.哈尔滨工程大学 计算机科学与技术学院,哈尔滨 150001)



摘要:

红外视频与普通彩色视频相比易受周围环境的影响,在红外行人跟踪中行人目标外观轮廓和灰度分布常有较大幅度变化,导致跟踪困难.为解决此问题,本文提出了一种VPSiamRPN(Video Prediction with Siamese Region Proposal Network)红外行人目标跟踪系统.在SiamRPN(Siamese Region Proposal Network)网络的基础上,针对目标形变、目标遮挡和背景杂波等严重影响红外跟踪效果的因素进行研究,设计将PredNet (Deep Predictive Coding Networks for Video Prediction and Unsupervised )网络的图像预测功能结合应用到SiamRPN网络上,以提高跟踪模板与被检测目标的相似度,增强目标跟踪中的模型匹配能力,从而提高对红外行人目标的跟踪能力.通过改变网络层数、预测所用的目标图像及图像帧数、网络的跟踪策略,对网络进行优化,设计了9组对比试验,在PTB-TIR数据集上,与SiamRPN网络客观定量对比,通过跟踪的成功率和重叠率在10种属性上对网络进行评估.实验结果表明:本文网络对红外目标的识别在热交叉、强度变化、遮挡和尺寸变化等多种属性上的跟踪成功率和重叠率均较SiamRPN网络有较大提高,显示出对红外行人跟踪的良好性能,在这一领域将有广阔的应用前景.

关键词:  目标跟踪  视频预测  孪生网络  红外  PredNet

DOI:10.11918/201910048

分类号:TP391

文献标识码:A

基金项目:



Infrared pedestrian target tracking method based on video prediction

LIU Enhan1,ZHANG Rui1,ZHAO Shuo2,WANG Ru1

(1.Collage of Automation, Harbin University of Science and Technology, Harbin 150080, China; 2.Collage of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China)

Abstract:

Compared with the common color video, infrared video is easily affected by the surrounding environment. In infrared pedestrian tracking, the appearance contour and gray distribution of the pedestrian target often have great changes, which lead to the difficulty of tracking. To solve this problem, this paper proposes a VPSiamRPN (Video prediction with Siamese Region Proposal Network) infrared pedestrian target tracking system. Aiming at the factors that seriously affect the performance of infrared pedestrian tracking (such as target deformation, target occlusion, and background clutter), the image prediction function of PredNet (Deep Predictive Coding Networks for Video Prediction and Unsupervised) was designed and applied to SiamRPN (Siamese Region Proposal Network) to improve the similarity between the tracking template and the detected target, so as to improve the tracking ability to the infrared pedestrian target. Nine comparative experiments were carried out by changing the number of layers of the network, the number of target images and frames used for prediction, and the tracking strategy of the network. On PTB-TIR dataset, experimental results show that the success plots and precision of theinfrared target recognition in thermal crossover, intensity change, occlusion, scale variation, and other attributes were much higher than those of SiamRPN, indicating good performance of infrared pedestrian tracking, which will have broad application prospects in this field.

Key words:  target tracking  video prediction  Siamese network  IR image  PredNet


柳恩涵, 张锐, 赵硕, 王茹. 一种基于视频预测的红外行人目标跟踪方法[J]. 哈尔滨工业大学学报, 2020, 52(10): 192-200. DOI: 10.11918/201910048.
LIU Enhan, ZHANG Rui, ZHAO Shuo, WANG Ru. Infrared pedestrian target tracking method based on video prediction[J]. Journal of Harbin Institute of Technology, 2020, 52(10): 192-200. DOI: 10.11918/201910048.
作者简介 柳恩涵(1994—),男,硕士研究生 通信作者 张锐,zr_gh@sina.com 文章历史 收稿日期: 2019-10-10



Abstract            Full text            Figures/Tables            PDF


一种基于视频预测的红外行人目标跟踪方法
柳恩涵1, 张锐1, 赵硕2, 王茹1    
1. 哈尔滨理工大学 自动化学院,哈尔滨 150080;
2. 哈尔滨工程大学 计算机科学与技术学院,哈尔滨 150001

收稿日期: 2019-10-10
作者简介: 柳恩涵(1994—),男,硕士研究生
通信作者: 张锐,zr_gh@sina.com


摘要: 红外视频与普通彩色视频相比易受周围环境的影响,在红外行人跟踪中行人目标外观轮廓和灰度分布常有较大幅度变化,导致跟踪困难.为解决此问题,本文提出了一种VPSiamRPN(Video Prediction with Siamese Region Proposal Network)红外行人目标跟踪系统.在SiamRPN(Siamese Region Proposal Network)网络的基础上,针对目标形变、目标遮挡和背景杂波等严重影响红外跟踪效果的因素进行研究,设计将PredNet (Deep Predictive Coding Networks for Video Prediction and Unsupervised)网络的图像预测功能结合应用到SiamRPN网络上,以提高跟踪模板与被检测目标的相似度,增强目标跟踪中的模型匹配能力,从而提高对红外行人目标的跟踪能力.通过改变网络层数、预测所用的目标图像及图像帧数、网络的跟踪策略,对网络进行优化,设计了9组对比试验,在PTB-TIR数据集上,与SiamRPN网络客观定量对比,通过跟踪的成功率和重叠率在10种属性上对网络进行评估.实验结果表明:本文网络对红外目标的识别在热交叉、强度变化、遮挡和尺寸变化等多种属性上的跟踪成功率和重叠率均较SiamRPN网络有较大提高,显示出对红外行人跟踪的良好性能,在这一领域将有广阔的应用前景.
关键词: 目标跟踪    视频预测    孪生网络    红外    PredNet    
Infrared pedestrian target tracking method based on video prediction
LIU Enhan1, ZHANG Rui1, ZHAO Shuo2, WANG Ru1    
1. Collage of Automation, Harbin University of Science and Technology, Harbin 150080, China;
2. Collage of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China



Abstract: Compared with the common color video, infrared video is easily affected by the surrounding environment. In infrared pedestrian tracking, the appearance contour and gray distribution of the pedestrian target often have great changes, which lead to the difficulty of tracking. To solve this problem, this paper proposes a VPSiamRPN (Video prediction with Siamese Region Proposal Network) infrared pedestrian target tracking system. Aiming at the factors that seriously affect the performance of infrared pedestrian tracking (such as target deformation, target occlusion, and background clutter), the image prediction function of PredNet (Deep Predictive Coding Networks for Video Prediction and Unsupervised) was designed and applied to SiamRPN (Siamese Region Proposal Network) to improve the similarity between the tracking template and the detected target, so as to improve the tracking ability to the infrared pedestrian target. Nine comparative experiments were carried out by changing the number of layers of the network, the number of target images and frames used for prediction, and the tracking strategy of the network. On PTB-TIR dataset, experimental results show that the success plots and precision of theinfrared target recognition in thermal crossover, intensity change, occlusion, scale variation, and other attributes were much higher than those of SiamRPN, indicating good performance of infrared pedestrian tracking, which will have broad application prospects in this field.
Keywords: target tracking    video prediction    Siamese network    IR image    PredNet    
红外视频与普通彩色视频相比易受周围环境的影响,目标的外观常有较大的变化幅度,主要表现为轮廓变化和灰度分布变化,导致跟踪困难[1-3].目前,红外行人跟踪广泛应用的是三维中值滤波、图像差分法、卡尔曼滤波、粒子滤波和mean-shift等方法[4].这些方法往往只能针对图像的某些特征对目标进行识别,由于特征种类的限制,跟踪的效果往往仅在几种属性上有较强效果但不够全面.

深度学习方法具有强大的特征建模能力,近年它在完成目标跟踪任务的准确度上表现出了突出优势.目前主要有两类方法.第一类是将卷积特征与相关滤波器结合.例如,Danelljan等提出了C-COT[5]算法,通过在连续的分辨率序列中学习, 创建时域连续的的相关滤波器, 可以将不同分辨率的特征图作为滤波器的输入, 使得传统特征和深度特征能够深度结合.在下一年Danelljan等又提出了C-COT的改进算法ECO[6],通过构造一组更小的滤波器, 有效地利用矩阵分解操作, 降低了模型的大小,防止过高的维度导致的效率低下和过拟合问题.这一类方法的缺点是跟踪速度较慢,在跟踪数据集上训练易造成过拟合.第二类是使用孪生网络的方法.例如,文献[7]提出了SINT算法,SINT可以说是第一个将孪生网络应用到跟踪领域的通过相似学习解决跟踪问题.Bertinetto等又通过改进SINT算法提出了一种新的、经过端到端训练的、全卷积的孪生网络的跟踪算法SiamFC[8],它也是通过使用相似度学习的方法来解决追踪任意目标的问题.SiamRPN[9]是由Li等提出的基于SiamFC改进来的算法,引入了Faster RCNN[10]中的RPN模块,让网络可以回归位置、形状,省掉多尺度测试,提高算法性能.第二类方法极大地增强了跟踪速度,使待搜索图像大小不受限制,并且避免了在跟踪数据集上训练造成的过拟合.但此类方法的跟踪模版始终为上一帧的被跟踪目标,对被跟踪帧的目标特征没有预判,在处理目标形状快速变化的跟踪任务时仍有欠缺.

本文设计了VPSiamRPN目标跟踪网络.将SiamRPN网络应用到红外目标跟踪任务中,根据红外成像的特点,将视频预测加入到网络中,增强网络对目标快速形变的适应能力,采用Pred Net[11]网络对当前帧目标外观进行预测,用预测出的目标作为模版在被检测帧中进行搜索,完成目标跟踪任务.

1 相关原理介绍 1.1 SiamRPN[8]目标跟踪原理SiamRPN将跟踪问题抽象成单样本检测问题.SiamRPN结合了跟踪中的孪生网络和检测中的区域推荐网络:孪生网络实现对跟踪目标的适应,让算法可以利用被跟踪目标的信息,完成检测器的初始化;区域推荐网络让算法可以对目标位置进行更精准地预测.经过两者的结合,SiamRPN可以进行端到端的训练.SiamRPN结构如图 1所示.

Fig. 1
图 1 SiamRPN网络结构[9] Fig. 1 Diagram of SiamRPN network structure


孪生神经网络可计算两个输入的相似度,同时将跟踪模版图像和被检测帧图像由上下两个支路输入,两个支路由一个卷积网络实现,它们共享权值,此网络必须为全卷积网络,以满足平移不变性,该网络的作用是分别提取模板帧和检测帧的图像特征.RPN网络由两部分组成,一是分类分支,用于区分目标和背景,另一个是回归分支,它将候选区域进行微调.网络的卷积基部分本文采用resnet50[12]结构.

网络训练采用COCO、YOUTUBEBB、DET、VID数据集进行训练.

1) 损失函数:cross-entropy loss用于分类,smooth L1用于回归;

2) 训练方法:随机梯度下降;

3) 数据增强:包括affine transformation(仿射变换)在内的数据增强;

4) 正负样本选择策略:设置高低两个阈值,大于0.6的为正样本,小于0.3的为负样本,一个pair中有64个样本,其中正样本最多16个.

1.2 PredNet[11]视频帧预测原理该网络采用CNN+LSTM[13]思路做视频预测,通过提取前n帧图像特征,预测目标图像.网络包含一系列重复堆叠的模块,每个模块作为一个概念层,每层包含4个基本部分:输入卷积层Al,递归表示层Rl,预测层${\hat A_1}$,误差表示El.

1) El:误差表示层,f(Al-${\hat A_1}$).

2) Al:输入卷积层,对于第一层,为目标图像;对于更高层,为前一层预测误差E的卷积+Relu.

3) Rl:卷积LSTM层.

4) ${\hat A_1}$:预测层,对R单元卷积+Relu得到.

图 2为PredNet网络结构,激活函数采用Relu,Al${\hat A_l}$之差小于零的部分置零,通过Al与相互作差,拼接,再输入Relu层.El传给Al+1,作为下一层的输入.Rlt单元接受的输入是前一刻本层误差Elt,本层状态Rlt-1,本时刻高层预测特征Rl+1t,根据这三者进行特征级的预测.预测的特征在${\hat A_l}$单元卷积,得到特征图像,与Al相比较.总体loss是各层、各时刻预测误差的加权和.各层误差权重λl,各时刻误差权重λt由实验确定.网络状态更新存在水平(时间)方向和竖直(各层)方向两方向的更新.竖直方向先更新,先自下而上前向传播计算得各层误差El,再自上而下计算RNN单元的状态Rl.t时刻网络更新好后,进行t+1时刻的更新.因此对于各t的网络,输入是前一刻RNN状态Rt-1和本时刻目标输出图像A0.

Fig. 2
图 2 PredNet网络结构[10] Fig. 2 Diagram of PredNet network structure[10]


2 本文提出的基于视频预测的红外行人跟踪网络VPSiamRPN本文设计了一种基于视频预测的红外行人跟踪网络(Video Prediction with Siamese Region Proposal Network,VPSiamRPN),将用于视频预测的PredNet网络添加到SiamRPN网络的模版和与模版图像所对应的卷积网络之间.PredNet采用四层网络,通过5帧目标图像预测下一帧目标外观,为使被预测包含部分视频之初的目标特征,设计一个可以存储5帧图像的序列X,前3帧固定为被跟踪视频的第1~3帧图像中的目标,后两帧将跟踪得到的目标图像做为模版依次存入序列中,序列始终按照时间顺序存储最新的两帧目标图像.跟踪过程最初的前5帧应用SiamRPN网络进行跟踪,从第6帧开始预测,将X中的数据输入PredNet网络,预测和生成下一帧的目标,将生成的目标图像作为SiamRPN网络的模板,在被检测帧中,根据模版搜索目标并输出.由于SiamRPN网络在跟踪时将上一帧目标图像做为模版,这就造成一旦某一帧的跟踪发生偏差,下一帧的模版就会随之出现偏差.如果偏差过大,下一帧目标就会丢失,并再也无法找回目标.为防止由预测误差造成的目标丢失,10帧中的后两帧将第1帧的目标做为模版通过SiamRPN网络进行跟踪,不经过预测网络.

由于孪生网络计算相似度要求两支路所表达的特征必须源自一种网络结构,所以PredNet网络依据前几帧的目标信息预测出待测目标信息,并以输出的目标图像为媒介,将网络所预测的特征信息转换为resnet50网络所表达的特征信息,将得到的特征输入RPN网络进行跟踪.图 3为本文描述的网络和SiamRPN网络的跟踪效果截图,其中绿色框为被跟踪目标的ground truth,红色框为SiamRPN网络的跟踪效果,蓝色框为本文设计网络的跟踪效果.图 4为VPSiamRPN网络的结构.

Fig. 3
图 3 本文描述的网络和SiamRPN网络的跟踪效果 Fig. 3 Screenshots of tracking effects of the proposed network and SiamRPN network


Fig. 4
图 4 VPSiamRPN网络结构 Fig. 4 Diagram of VPSiamRPN network structure


非预测的网络跟踪过程为:将被检测帧重塑为255×255×3并输入卷积网络作为被检测帧.由于Prednet网络只能输出长宽为偶数的图像,所以首先将第1帧目标图像重塑为128×128×3,将重塑后的图像存放在序列X中,再将图像重塑为127×127×3作为模版帧输入卷积网络,将得到的两组特征输入RPN网络完成跟踪.根据目标位置信息对被检测帧进行裁剪,将裁剪后得到的目标图像重塑为128×128×3存入序列X中替换掉第1帧并将序列X按图像存入的顺序重新排序.

预测的网络跟踪过程为:PredNet网络通过存储在序列X中的8帧图像预测出当前帧的目标图像,输出的图像经重塑后大小为127×127×3作为模版帧.模板帧和被检测帧经过相同的卷积结构分别得到6×6×256,22×22×256的特征,模版帧所产生的特征通过3×3的卷积核分别产生了4×4×(2k×256)和4×4×(4k×256)的特征,k值为RPN网络所需的矩形框数.通过得到的两组特征输入RPN网络得到目标位置信息.根据目标位置信息对被检测帧进行裁剪,将裁剪后得到的目标图像重塑为128×128×3存入序列X中替换掉第1帧并将序列X按图像存入的顺序重新排序.

3 结果分析本实验软件运行环境为Ubuntu18.04,平台为Python3.7+PyTorch0.4.1开源机器学习框架,硬件配置为:Intel i7-8700k 3.7 GHz CPU, 64 GB RAM, single GPU NVIDIA GTX 2 080 Ti.

本研究设计的网络采用非端到端的训练方法,将PredNet网络和SiamRPN网络分开训练,PredNet网络:从OBT50、OBT100、VOT2013、VOT2014、VOT2015、VOT2016和VOT2018数据集中选取129个红外行人视频,将每个被标注的视频序列中的每帧图像依据标注进行裁剪得到一个只有目标没有背景的图像序列做为预测网络的训练集.SiamRPN网络:采用经商汤开源的SiamRPN网络卷积基采用resnet50版本的权重文件.

通过改变预测网络层数、预测过程所需的被选目标图像及图像帧数、预测网络参与跟踪的频率,设计了九组对比试验,以找出性能最佳的网络结构,具体设置如表 1所示.

表 1
表 1 9种网络具体结构 Tab. 1 Nine network structures 实验编号 预测网络层数 预测序列所需帧数/f 预测序列更新情况 预测网络不参与跟踪的频率

45fb 4 5 更新后两帧 前5帧不预测每10帧中后两帧不预测

45fq 4 5 全部更新 前5帧不预测每10帧中后两帧不预测

45gb 4 5 更新后两帧 前5帧不预测

48fq 4 8 全部更新 前8帧不预测每10帧中后两帧不预测

48fb 4 8 更新后两帧 前8帧不预测每10帧中后两帧不预测

35fb 3 5 更新后两帧 前5帧不预测每10帧中后两帧不预测

35fq 3 5 全部更新 前5帧不预测每10帧中后两帧不预测

38fb 3 8 更新后两帧 前8帧不预测每10帧中后两帧不预测

38fq 3 8 全部更新 前8帧不预测每10帧中后两帧不预测



表 1 9种网络具体结构 Tab. 1 Nine network structures


采用PTB-TIR数据集[14] 对本研究的9种网络与SiamRPN网络进行对比评估,测试网络性能.该数据集包含60组红外行人视频序列,根据每个序列所包含的特性组合出了9种属性(热交叉、强度变化、遮挡、尺寸变化、背景杂波、低分辨率、快速运动、运动模糊和脱离视野)的数据集,评估通过OTB数据集[15]的评价标准计算本研究设计的网络和SiamRPN网络的跟踪成功率和跟踪精度,对网络性能进行评价.

1) 整体数据集.在整体数据集上,45fb网络(PredNet中采用4层网络,通过5帧目标图像预测当前帧目标,其中前3帧固定为视频的第1~3帧中的目标,每8帧的下2帧不预测)在跟踪成功率和跟踪精度上都表现出了较大优势,得分为0.426和0.571,SiamRPN网络的得分为0.419和0.557.

2) 热交叉.热交叉属性指视频中具有相似强度的两个目标相互交叉.在此属性中45fb网络的跟踪成功率的得分为0.407,跟踪精度的得分为0.610;SiamRPN网络跟踪成功率的得分为0.398,跟踪精度的得分为0.581.在这种属性上相对于SiamRPN网络表现出了较明显的优势.48fb网络在此属性跟踪成功率略高于SiamRPN网络,得分为0.403.此项结果表明本文网络对具有热交叉属性的红外视频在跟踪性能上有提高.

3) 强度变化.强度变化属性指由于目标的温度变化,目标区域的强度发生了变化.在此属性中45fb网络的成功率的得分为0.374,SiamRPN网络的得分为0.350;45fb网络跟踪精度的得分为0.328,SiamRPN网络的得分为0.334.网络在此属性中跟踪成功率略高于SiamRPN网络.在此属性中38fq网络在成功率和跟踪精度上都表现出了较大优势,得分为0.551和0.509.此项结果表明本文网络对具有强度变化属性的红外视频在跟踪成功率上有所提高.

4) 遮挡.遮挡属性指目标被部分或完全遮挡.在此属性中45fb网络在跟踪成功率和跟踪精度上都表现出了较大优势,得分为0.380和0.496,SiamRPN网络的得分为0.370和0.486.此项结果表明本文网络对具有遮挡属性的红外视频在跟踪成功率上有所提高.

5) 尺寸变化.尺寸变化属性指第1帧和当前帧中,目标大小的比率超出范围[1/2,2].在此属性中45fb网络在跟踪成功率上高于SiamRPN网络,45fb网络得分为0.408,SiamRPN网络的得分为0.404;在跟踪精度上略低,45fb网络得分为0.508,SiamRPN网络的得分为0.516.此项结果表明本文网络对具有尺寸变化属性的红外视频在跟踪成功率上有所提高.

6) 背景杂波.背景杂波属性指目标附近的背景具有相似的纹理或强度.在此属性中45fb网络的成功率得分为0.411,48fb网络的成功率得分为0.409;45fb网络的跟踪精度得分为0.548,48fb网络的跟踪精度得分为0.551;SiamRPN网络的得分分别为0.398和0.534,本文网络在成功率和跟踪精度上对SiamRPN网络都表现出了较大优势.结果表明本文网络对具有热交叉属性的红外视频在跟踪性能上有提高.

7) 低分辨率.低分辨率属性指目标小于600像素.在此属性中45fb网络在跟踪成功率上的得分比SiamRPN网络低0.016,但在跟踪精度上高0.033.

8) 快速运动.快速运动属性指目标在相邻帧中的移动距离大于20像素.在此属性中45fb网络在跟踪成功率上的得分比SiamRPN网络低了0.014,跟踪精度上高0.049.

9) 运动模糊.运动模糊属性指目标区域由于目标或摄像机运动而变得模糊.在此属性中45fb网络在跟踪成功率上和SiamRPN网络取得了相同的得分0.456,跟踪精度上低了0.001;48fb网络在跟踪精度上的得分比SiamRPN网络高了0.008.

10) 脱离视野.脱离视野属性指目标部分不在图像区域内.在此属性中45fb网络在跟踪成功率和跟踪精度上都强于SiamRPN网络.在此属性中45fb网络的跟踪成功率的得分为0.456,SiamRPN网络的得分为0.453;跟踪精度的得分为0.497,SiamRPN网络的得分为0.466.在两种属性上相对于其他网络(包括SiamRPN网络)都表现出了较明显的优势.此项结果表明本文网络对具有脱离视野属性的红外视频在跟踪性能上有提高.

表 2和表 3分别列出了10种网络在各个属性上的成功率和精度.

表 2
表 2 10种网络在各个属性上的跟踪成功率 Tab. 2 Success plots of 10 networks in each attribute 实验编号 总体 热交叉 强度变化 遮挡 尺寸变化 背景杂波 低分辨率 快速运动 运动模糊 脱离视野

45fb 0.426 0.407 0.374 0.380 0.408 0.411 0.493 0.393 0.456 0.456

45fq 0.402 0.419 0.539 0.352 0.384 0.396 0.467 0.303 0.413 0.368

45gb 0.400 0.394 0.526 0.343 0.367 0.392 0.444 0.297 0.413 0.379

48fq 0.406 0.417 0.542 0.349 0.389 0.398 0.470 0.300 0.422 0.366

48fb 0.419 0.403 0.374 0.369 0.405 0.409 0.491 0.295 0.456 0.415

35fb 0.414 0.402 0.375 0.364 0.400 0.400 0.496 0.372 0.451 0.422

35fq 0.401 0.415 0.544 0.347 0.388 0.395 0.460 0.305 0.411 0.365

38fb 0.414 0.404 0.371 0.363 0.405 0.404 0.493 0.323 0.456 0.411

38fq 0.399 0.400 0.551 0.341 0.383 0.393 0.442 0.303 0.406 0.362

SiamRPN 0.419 0.398 0.350 0.370 0.404 0.398 0.509 0.407 0.456 0.453



表 2 10种网络在各个属性上的跟踪成功率 Tab. 2 Success plots of 10 networks in each attribute


表 3
表 3 10种网络在各个属性上的跟踪精度 Tab. 3 Precision plots of 10 networks in each attribute 实验编号 总体 热交叉 强度变化 遮挡 尺寸变化 背景杂波 低分辨率 快速运动 运动模糊 脱离视野

45fb 0.571 0.610 0.328 0.496 0.508 0.548 0.811 0.466 0.652 0.497

45fq 0.548 0.618 0.483 0.480 0.499 0.544 0.748 0.356 0.603 0.424

45gb 0.548 0.585 0.478 0.462 0.473 0.536 0.745 0.350 0.621 0.435

48fq 0.559 0.616 0.481 0.473 0.508 0.547 0.772 0.355 0.623 0.424

48fb 0.569 0.607 0.325 0.494 0.515 0.551 0.805 0.406 0.661 0.468

35fb 0.553 0.607 0.325 0.471 0.504 0.531 0.805 0.434 0.639 0.436

35fq 0.551 0.621 0.489 0.474 0.507 0.545 0.741 0.358 0.605 0.420

38fb 0.553 0.612 0.317 0.471 0.510 0.534 0.809 0.405 0.645 0.425

38fq 0.544 0.592 0.509 0.465 0.497 0.539 0.698 0.357 0.597 0.420

SiamRPN 0.557 0.581 0.334 0.486 0.516 0.534 0.778 0.417 0.623 0.466



表 3 10种网络在各个属性上的跟踪精度 Tab. 3 Precision plots of 10 networks in each attribute


根据跟踪结果可以看出45fb网络在热交叉、强度变化、遮挡、尺寸变化、背景杂波、脱离视野和总体数据集上相对于SiamRPN网络在跟踪成功率上有很大提高; 在热交叉、遮挡、背景杂波、低分辨率、脱离视野和总体数据集上相对于SiamRPN网络在重叠率上表现出了明显提升,综合性能具有突出优势,表明该方法有效、可行,图 5为45fb网络和SiamRPN在PTB-TIR数据集上的跟踪成功率和跟踪精度的对比.此外,38fb网络在热交叉属性上的成功率和重叠率都表现出了极大优势,表明此网络非常适合跟踪带有热交叉属性的视频.

Fig. 5
图 5 45fb网络和SiamRPN在PTB-TIR数据集上的跟踪成功率和跟踪精度 Fig. 5 Success plots and precision tracking of 45fb network and SiamRPN on PTB-TIR dataset


4 总结1) 针对红外行人目标的跟踪问题,提出了使用视频预测网络对跟踪模板进行更新,该方法能够提高跟踪模板与被跟踪目标的相似度,增强网络对红外行人目标外观轮廓和灰度分布变化所导致跟踪困难的问题的处理能力,有利于目标跟踪中的模型匹配.

2) 通过改变预测网络层数、预测过程所需的被选目标图像及图像帧数、预测网络参与跟踪的频率,设计了9组对比试验.在PTB-TIR数据集上,与SiamRPN网络客观定量对比和评估,实验结果表明,45fb网络对红外目标的识别在热交叉、强度变化、遮挡和尺寸变化等多种属性上的跟踪成功率和重叠率均较SiamRPN网络有较大提高,显示出对红外行人跟踪的良好性能,在这一领域将有广阔的应用前景.


参考文献
[1] RAJKUMAR S, CHANDRA M. Pedestrian detection in Infrared Images using local thresholding[C]//2015 2nd International Conference on Electronics and Communication Systems (ICECS). Cairo: IEEE, 2015: 259.DOI: 10.1109/ECS.2015.7124904


[2] 高小明. 影响红外热像仪测量精度的因素分析[J]. 华电技术, 2008, 30(11): 4.
GAO Xiaoming. Analysis of factors affecting the measurement accuracy of infrared thermal imager[J]. Huadian Technology, 2008, 30(11): 4. DOI:10.3969/j.issn.1674-1951.2008.11.002


[3] 郭永彩, 胡瑞光, 高潮. 红外图像中的行人检测[J]. 重庆大学学报, 2009, 32(9): 1070.
GUO Yongcai, HU Ruiguang, GAO Chao. Pedestrian detection in infrared image[J]. Journal of Chongqing University, 2009, 32(9): 1070. DOI:10.11835/j.issn.1000-582x.2009.09.017


[4] 孟琭, 杨旭. 目标跟踪算法综述[J]. 自动化学报, 2019, 45(7): 1244.
MENG Lu, YANG Xu. A survey of target tracking algorithms[J]. Acta Automatica Sinica, 2019, 45(7): 1244. DOI:10.16383/j.aas.c180277


[5] DANELLJAN M, ROBINSON A, FELSBERG M, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking[C]//ECCV 2016: Computer Vision-ECCV 2016 Workshops. Amsterdam: IEEE, 2016: 472. DOI: 10.10072978-3-319-46454-1_29


[6] DANELLJAN M, BHAT G, FELSBERG M, et al. ECO: efficient convolution operators for tracking[C]//The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 6638. DOI: 10.1109/CVPR.2017.733


[7] TAO R, GAVVES E. Siamese instance search for tracking[C]//The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 1420. DOI: 10.1109/CVPR.2016.158


[8] BERTINETTO L, VALMADRE J. Fully-convolutional Siamese networks for object tracking[C]//ECCV 2016: Computer Vision-ECCV 2016 Workshops. Amsterdam: IEEE, 2016: 850


[9] LI Bo, YAN Jiejun, WU Wei, et al. High performance visual tracking with Siamese region proposal network[C]//The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 8971. DOI: 10.1109/CVPR.2018.00935


[10] REN Qingshao, HE Mingkai, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 2805.


[11] LOTTERW, KREIMAN G, COX D. Deep predictive coding networks for video prediction and unsupervised learning[Z]. arXiv: 1605.08104, 2016


[12] HE Mingkai, ZHANG Yuxiang, REN Qingshao, et al. Deep residual learning for image recognition[C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 770. DOI: 10.1109/CVPR.2016.90


[13] SHI Jianxing, CHEN Rongzhou, WANG Hao, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]// NIPS'15 Proceedings of the 28th International Conference on Neural Information Processing Systems-Volume 1. Montreal: MIT Press, 2015: 802. DOI: 10.1007/9783-319-21233-3_6


[14] LIU Qiao, HE Yuzhen, LI Xin, et al. PTB-TIR: A thermal infrared pedestrian tracking benchmark[Z]. arXiv: 1801.05944, 2018


[15] WU Y, LIM J, YANG M. Online object tracking: a benchmark[C]// Proceedings of CVPR. Portland: IEEE, 2013: 2411. DOI: 10.1109/CVPR.2013.312



相关话题/网络 图像

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于BP神经网络遗传算法的高强钢成形研究
    基于BP神经网络遗传算法的高强钢成形研究郭强1,郑燕萍1,朱伟庆1,晋保荣2(1.南京林业大学汽车与交通工程学院,南京,210037;2.南京南汽冲压件有限公司,南京,211100)摘要:对新材料DP-780高强钢依据国家标准GB/T228.1-2010进行室温拉伸试验,获得材料的力学性能参数;依据 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 深度学习在材料显微图像分析中的应用与挑战
    深度学习在材料显微图像分析中的应用与挑战班晓娟1,2,3,宿彦京1,4,谢建新1,4(1.北京科技大学北京材料基因工程高精尖创新中心,北京100083;2.材料领域知识工程北京市重点实验室(北京科技大学),北京100083;3.北京科技大学计算机与通信工程学院,北京100083;4.北京科技大学新材 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 通过miRNA基因表达谱的基因共表达网络构建对星形细胞瘤的基因靶标进行预测
    通过miRNA基因表达谱的基因共表达网络构建对星形细胞瘤的基因靶标进行预测邵嘉敏(石门县人民医院神经外科,湖南,常德415000)摘要:星形细胞瘤为浸润性生长肿瘤,生长缓慢,多为隐形症状,难以早期发现。多数肿瘤切除后有复发可能,且复发后肿瘤可演变成间变性星形细胞瘤或多形性胶质母细胞瘤。因此寻找其生物 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 车辆运行风险贝叶斯网络量化分级方法
    车辆运行风险贝叶斯网络量化分级方法马艳丽1,范璐洋1,2,吕天玲3,郭琳3(1.哈尔滨工业大学交通科学与工程学院,哈尔滨150090;2.中国电建集团成都勘测设计研究院有限公司,成都610072;3.黑龙江省劳动安全科学技术研究中心,哈尔滨150040)摘要:为评估自然驾驶过程中车辆运行存在的交通风 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 一种高度并行的卷积神经网络加速器设计方法
    一种高度并行的卷积神经网络加速器设计方法徐欣1,刘强1,王少军2(1.天津市成像与感知微电子技术重点实验室(天津大学),天津300072;2.哈尔滨工业大学电子与信息工程学院,哈尔滨150001)摘要:为实现卷积神经网络数据的高度并行传输与计算,生成高效的硬件加速器设计方案,提出了一种基于数据对齐并 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 变分模态分解与稀疏SURE的电子图像噪声抑制
    变分模态分解与稀疏SURE的电子图像噪声抑制李庆1,StevenY.Liang1,2(1.东华大学机械工程学院,上海201620;2.佐治亚理工学院乔治-伍德拉夫机械工程学院,佐治亚州亚特兰大30332-0405)摘要:为解决电子微结构图像在摄取、传输或存储的过程中易被外界噪声干扰、图像保真度差的问 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 超密集网络中非合作博弈的功率分配算法
    超密集网络中非合作博弈的功率分配算法赵东来,王钢,郑黎明,周若飞(哈尔滨工业大学通信技术研究所,哈尔滨150001)摘要:为了抑制超密集网络中小小区基站的密集化部署带来的干扰,并提高系统的吞吐量,本文研究了频谱共享超密集网络中的功率分配策略.首先,针对非凸的系统和速率最大化问题,采用非合作博弈模型将 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • D-BitBot:比特币网络双向通信的P2P僵尸网络模型
    D-BitBot:比特币网络双向通信的P2P僵尸网络模型周安民1,钟毅1,左政2,张磊1(1.四川大学网络空间安全学院,成都610065;2.四川大学电子信息学院,成都610065)摘要:公有区块链网络(如比特币、以太坊等)具有匿名、难以被关闭的特点,被用于僵尸网络的通信模型研究中,但现有研究中的方 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 利用拉普拉斯能量和CNN的多聚焦图像融合方法
    利用拉普拉斯能量和CNN的多聚焦图像融合方法翟浩,庄毅(南京航空航天大学计算机科学与技术学院,南京211106)摘要:多聚焦图像融合技术的目的是生成一幅全聚焦图像.所谓全聚焦图像,就是将不同源图像的清晰区域集成到一幅单一的图像中.传统的图像融合方法通常存在块伪影、人造边、晕轮效果、振铃效果以及对比度 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 卷积神经网络多变量过程特征学习与故障诊断
    卷积神经网络多变量过程特征学习与故障诊断陈淑梅,余建波(同济大学机械与能源工程学院,上海201804)摘要:为提取复杂多变量过程的有效特征,提高故障诊断性能,提出一种基于卷积神经网络(convolutionalneuralnetwork,CNN)特征学习的多变量过程故障诊断模型.将高维过程信号归一化 ...
    本站小编 哈尔滨工业大学 2020-12-05