基于深度多模态特征融合的短视频分类*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

伴随着智能手机和移动互联网的迅速普及，短视频作为一种新型的用户生成内容，已经广泛出现在各个社交平台上，如抖音、Instagrm和Vine。据抖音官方数据显示，截至2020年1月5日，其日活跃用户数已经突破4亿。与传统意义上的长视频相比较，短视频的时间长度通常被限制在2 min以内，这使得人们更容易获取和分享这些视频。除此之外，短视频丰富的内容和多样的表现形式为受众提供了更优质的用户体验，是短视频受欢迎的另一个原因。
已有的短视频内容分析相关研究主要包括场景估计^[1-3]、短视频的流行度预测^[4]及短视频的推荐^[5-6]等。例如，Zhang等^[1]利用短视频的文本、音频和视觉模态特征解决多媒体场景分类的问题。Wei等^[2]采用多模态特征融合的神经网络(Neural Multimodal Cooperative Learning，NMCL)解决短视频场景分类的问题。Nie等^[3]致力于分析声音模态对于短视频场景类别预测的影响。Jing等^[4]通过提出一种新颖的低秩多视角学习框架解决短视频的流行度预测问题。Liu等^[5]基于多模态特征融合的角度提出用户-视频联合注意力网络(User-Video Co-attention Network，UVCA)解决短视频的推荐任务。Shang等^[6]提出了面向短视频大数据的推荐系统实现短视频的推荐。本文致力于解决短视频标签分类问题。
近年来，随着计算机视觉领域理论的飞速发展和图像相关任务的理论日益成熟，人们越来越多地去解决视频相关的问题而不是图像。从传统的人工处理获取视频特征到现在依赖于神经网络提取视频的特征，从原来小范围的数据集到现在大范围的数据集，视频分类领域的研究已经取得了巨大的进步。现有多模态特征融合的视频分类算法主要通过提取不同模态的特征并进行直接融合以解决分类问题，然而，该视频分类算法普遍针对的是传统长视频，不能直接应用于短视频的分类，主要原因有：①与传统意义上的长视频相比，短视频的时间长度通常只有1~2 min，所以需要在有限时间长度、有限内容的视频中提取出对分类重要的特征。②短视频的来源广泛，表现形式多样，所以短视频相比较长视频，具有更高的信息复杂度和冗余度。③现有的特征融合方法多利用多模态特征之间的公共部分，而忽略了不同模态特征之间的私有部分。综上所述，现在的视频分类算法并不适合解决具有“时短”特性的短视频分类任务。
针对上述问题，本文提出了一种端到端的基于深度多模态特征融合的短视频分类算法, 搭建基于音频模态的私有域、视觉模态的私有域及音视觉模态的公有域组合而成的域分离网络，使用相似性损失函数探寻不同模态由公有域网络提取到的特征相似性，使用差异性损失函数探寻同一模态私有域网络和公有域网络提取到的特征差异性，并使用分类损失指导视频全局特征的分类。大量实验结果表明，本文算法可以很好地解决短视频的分类问题。
1 相关工作本文主要从以下2个角度进行阐述：①深度特征学习，主要介绍利用深度卷积网络实现对短视频模态特征提取的相关工作；②多模态特征融合，简单介绍传统特征融合方式和现在普遍的特征融合方式。
1.1 深度特征学习早期的视频特征提取方法采用2D卷积网络学习视频的每一帧特征，该方法的灵感来源于图像处理，然而其忽略了连续视频帧之间的时间关联性。为了保留时间相关性，现有很多方法通过聚合视频的帧特征作为一个整体的视频特征表示。Long等^[7]提出注意力簇网络(Attention Cluster Network，ACN)，通过采用注意力单元将视频的局部特征聚合成视频的全局特征。Ma等^[8]通过设置每一时刻的特征和前一个时刻特征按权重进行加权实现特征融合，从而实现视频分类。近年来，为了充分利用视频的时空特征，3D卷积网络被提出用于学习视频的连续帧特征而非单一的视频帧特征，3D卷积网络的输入参数在保留了视频批量大小、视频通道、视频帧宽度和视频帧高度4个参数的基础上，增添了视频深度这一参数，用于记录每一个视频帧序列内的视频帧数量。Tran等^[9]提出C3D网络，利用3D卷积提取连续帧序列的时空域特征，并在视频分类准确率上取得了巨大的突破。近年来，以3D卷积为基础推出的一系列视频特征提取方法被广泛地应用在视频分类、跟踪、分割等领域。例如，Carreira等^[10]提出I3D网络，通过在3D卷积网络基础上增加网络宽度的方式提高网络分类性能。Hara等^[11]则将原本应用在2D卷积网络的ResNet延伸扩展到3D卷积网络，通过提出ResNet3D以解决视频分类的相关问题。Feichtenhofer等^[12]提出了SlowFast Network，整个网络通过构建快慢2个3D卷积网络去获取视频的全局特征。
然而，相比较传统的2D卷积网络，3D卷积网络需要更大的参数量及存储空间。为了解决该问题，Qiu等^[13]通过构建P3D网络，将3D卷积核用空间域的2D卷积及时间域1D卷积进行联合表示。Tran等^[14]运用R2+1D网络将3D卷积网络分解为独立的空间和时间模块。Xie等^[15]在S3D-G网络中采用(2D+1D)的卷积核代替I3D中的卷积核。
为了提高短视频分类的性能，本文采用3D卷积网络作为特征提取网络，同时还分别应用到公有域网络和私有域网络中，实验结果证明了该网络架构的普适性和有效性。
1.2 多模态特征融合区别于传统的图像分类等任务，视频分类问题可利用的信息除了视觉信息外，还包括音频信息、光流信息及轨迹信息等多种模态信息。
传统的多模态特征融合策略大致分为前期融合和后期融合2种方式。前期融合通常将每个独立的模态特征拼接成一个全局特征，并且将这个全局特征放入分类器中进行分类^[16]。例如，D’Mello和Kory^[16]通过直接拼接音频模态特征和视觉模态特征获得视频的全局特征实现情感检测。后期融合则采用一些特定的数学方法去融合来自不同模态特征的判断得分，如平均、加权等操作。然而这些方法都忽视了不同模态特征在特征空间的关联性，而且在融合方式上也缺乏更有效的指导。
为了克服传统特征融合方法的缺陷，越来越多的人致力于寻找新的解决方案以提高分类的性能，代表性的方法包括联合学习、子空间学习、深度多模态特征学习等。联合学习是一种经典的用于多模态特征融合的半监督学习方法，该学习方法会对有标签的样本独立地训练每个模态的特征。针对于无标签的数据，整个学习过程会从每个独立的模态网络挑选标签置信度最高的无标签数据加入到训练网络。联合学习的优点在于：每次对于单一模态网络中数据的更新会参考其他模态的置信度。然而这种方法的实现依赖于训练集中每个短视频不同的模态信息针对每一个类别的预测具有很高的置信度，这种要求对于短视频是很难实现的。
子空间学习是另一类用于多模态特征融合的常见学习方法^[17-19]。子空间学习的假设在于不同模态的特征会享有一个公共的子空间。例如，典型相关分析方法(Canonical Correlation Analysis，CCA)^{[17, 19]}通过最大化不同模态的特征向量在潜在子空间上的关联性实现特征的融合及降维。Zhai等^[17]在共享子空间中从多视角角度进行多视角度量学习。Franklin^[19]将典型相关分析方法应用在数据挖掘和预测等领域。除了典型相关分析方法，采用深度网络进行特征提取和融合也成为了子空间学习常用的方法之一。Feichtenhofer等^[18]借助双流卷积网络(Convolutional Two-Stream Network, CTSN)探寻不同模态信息在特征空间的向量表示并进行特征融合。Wang等^[20]则在此基础上使用时域分割网络(Temporal Segment Network，TSN)提取不同视频片段的特征，并根据不同片段在不同模态特征空间的分类得分，采用分段函数叠加分类得分且融合不同模态的分类得分，最终实现对视频的分类。
受到子空间学习的启发，本文从特征表示空间的角度解决短视频分类问题，重点在于将特征空间划分为不同模态的私有域和所有模态的公有域，整个特征空间的数目取决于模态的数量。
2 深度多模态特征融合分类算法本文算法框架如图 1所示。图中：H_a^p表示音频模态的私有域特征，H_v^p表示视觉模态的私有域特征，H_a^s表示音频模态的公有域特征，H_v^s表示视觉模态的公有域特征。本节将对设计的短视频分类算法进行详细介绍，具体从特征提取网络、相似性损失函数、差异性损失函数及分类损失函数4个方面进行描述。

图 1 基于深度多模态特征融合的短视频分类网络 Fig. 1 Micro-video classification network based on deep multimodal feature fusion

图选项

2.1 特征提取网络为了挖掘短视频视觉及音频模态的时域信息，本文利用3D卷积网络分别获取视频的视觉模态和音频模态各自的私有域特征及视觉模态和音频模态的公有域特征。针对视觉模态，按照224×224的尺寸从短视频中提取连续的32帧视频帧序列；针对音频模态，先通过从整个短视频中按照等间隔将短视频分为32个视频片段，再提取这32个视频片段的音频片段并将其转换成为频谱图表示这段音频的变化规律。需要注意的是，频谱图相比较视频帧而言只具有单通道。通过对比不同3D卷积网络的准确性和训练的复杂度，决定采用I3D网络作为特征提取网络，在该网络的基础上微调了网络的输出通道，增加了平均池化层，删除了最后用于分类的全连接层，最终输出的特征向量维度为512维。
在网络整体结构设计上，本文将整个网络按照特征提取的角度划分为视觉模态信息的私有域网络、音视觉模态信息的公有域网络及音频模态信息的私有域网络3个模块。通过降低整体损失函数的数值来优化网络模型的参数，实现短视频的特征提取和分类。整个损失函数的实现包含3部分：①相似性损失L_S，用于探寻不同模态间(即视觉模态信息公有域特征和音频模态信息公有域特征)的相似性；②差异性损失L_D，用于衡量同一模态内的差异性，即视觉模态信息的私有域特征和公有域特征之间及音频模态信息的私有域特征和公有域特征之间；③分类损失L_C，用于将最后获得的融合后的全局特征进行分类。整个损失函数表示为

(1)

式中：α用于平衡相似性损失在整个损失中的权重；β用于平衡差异性损失在整个损失中的权重；γ用于平衡分类损失在整个损失中的权重。
2.2 相似性损失通过构建相似性损失，可以获得视觉模态信息和音频模态信息公有域特征。本文借鉴了被广泛应用在人脸识别的孪生相似性损失去探寻不同模态公有域特征之间的相似性。
孪生相似性损失由Chopra等^[21]提出，主要应用于人脸识别领域并取得了良好的效果，在此基础上，越来越多的人致力于孪生网络结构的优化和使用，Zagoruyko和Komodakis^[22]优化了孪生网络并且将其应用在图像修复中。Bertinetto^[23]、Valmadre^[24]等将其使用延展到了目标跟踪，并且获得了理想的效果。受到孪生网络的启发，本文同样提出了基于孪生相似性损失的相似性损失，通过降低相似性损失L_{S_Siamese}的值，实现对模态公有域网络的优化，具体公式为

(2)

式中：n为第n个短视频；N为训练一次的样本数；H_a^s和H_v^s分别为提取到的音频模态的公有域特征和视觉模态的公有域特征。通过减少每一层全连接层输出的视觉模态和音频模态在公有域特征的差异来探寻视觉模态公有域特征和音频模态公有域特征的相似性表示。实验证明，L_{S_Siamese}是有效的。
2.3 差异性损失本文中，差异性损失被用于探寻单一模态下公有域特征和私有域特征的差异性关系，具体将探讨视觉模态公有域特征和视觉模态私有域特征、音频模态公有域特征和音频模态私有域特征这两部分差异性的关系。
本文认为同一模态内私有域特征和公有域特征差异性主要集中在分布差异性和数值差异性两方面，接下来将以音频模态的私有域特征和音频模态的公有域特征为例，从分布差异性和数值差异性2个角度说明整个差异性损失。
针对分布上的差异，由于KL(Kullback-Leibler)散度被广泛地应用于评估模型输出的预测值分布和真值分布之间的差异，因此，在实验中将采用KL散度算法计算同一模态分布的差异性。在降低差异性损失L_{D_KL}的过程中，从分布差异的角度实现对模态私有域网络参数的优化，具体公式为

(3)

式中：P(H_a^p)为音频模态私有域特征的概率分布；Q(H_a^s)为音频模态公有域特征的概率分布；P(H_v^p)为视觉模态私有域特征的概率分布；Q(H_v^s)为视觉模态公有域特征的概率分布。当P(H_a^p)和Q(H_a^s)(或者P(H_v^p)和Q(H_v^s))的差异性越大时，损失函数的数值就越大，相同时损失函数的数值为0。然而，整个网络的目标是通过降低损失函数的数值去增大分布的差异性，因此对函数取负号作为实际使用的损失函数。
针对在数值上的差异，采用孪生网络差异性损失的方法去探寻差异性是一种可行的方式，在降低差异性损失L_{D_Siamese}的过程中，从数值差异的角度实现对模态私有域网络参数的优化，具体公式为

(4)

式中：d为可调节的常数，通过设置常数的数值，调整音频模态私有域特征和音频模态公有域特征在数值上的差异性。实验结果表明，当d数值为3时，学习到的私有域特征更有利于提高短视频分类的准确性。
整个差异性损失的公式为

(5)

2.4 分类损失在相似性损失和差异性损失的约束下，域分离网络已经将提取到的特征划分为音频模态的私有域特征子空间、音频模态和视觉模态的公有域特征子空间、视觉模态的私有域特征子空间。整个特征空间由4部分特征组成，即音频模态的公有域特征H_a^s、音频模态的私有域特征H_a^p、视觉模态的公有域特征H_v^s和视觉模态的私有域特征H_v^p。而后采用拼接的方法获取全局特征H。
通过设置分类损失指导整个模型实现分类，本文选择交叉熵损失作为分类损失函数，在降低分类损失L_C的过程中，实现对模态私有域网络参数的优化，具体公式为

(6)

式中：y_n为第n个视频的类别；

为对应的预测标签。
3 数据准备及实验分析 3.1 数据准备实验数据集选择AI-challenger-mlsv-2018数据集，整个数据集包含大约200 000个短视频，涉及类别有63类。由于研究目标针对的是短视频单标签的分类，此次实验对存在多标签的短视频数据约11 323个进行了排除工作，将处理后的短视频数据按照10∶3的比例划分为训练集和测试集，每个短视频的视频长度不超过12 s。
3.2 实验分析本节将从实验结果的角度对提出的网络进行系统全面的分析，在整个实验分析中包含以下4种指标：AR(Average Recall)、AP(Average Precision)、Micro-F1、Macro-F1。

3.2.1 网络复杂度整个网络的实现由于采用的是3个结构相同的3D卷积神经网络分别探寻音频模态的私有域特征、视觉模态的私有域特征、音视觉模态的公有域特征3部分，而不是采用普遍的音频模态特征提取网络和视觉模态特征提取网络2部分，网络模型的参数量和输出的特征总数要高于现在普遍使用的特征融合网络。在时间复杂度上，因为同时要优化3个网络模型的参数及引入相似性损失、差异性损失计算损失，整个网络模型的时间复杂度要高于现阶段的视频分类网络。
对比表 1中5种多模态特征融合分类算法(SlowFast Network^[12]、C3D(multimodal)、I3D(multimodal)、TSN^[20]、CTSN^[18])与本文算法在达到网络效果最好时所需要的迭代次数，发现本文算法需要的迭代次数最少，为52次，较为明显地减少了训练次数的时间成本。分析整个优化过程，由于多模态算法通过计算差异性损失和相似性损失，加速了对网络私有域特征和公有域特征的分离，同时也加速了整个网络的收敛和参数的优化。
表 1 不同网络短视频分类性能对比 Table 1 Performance comparison of micro-video classification in different networks

	分类算法	AR	AP	Micro-F1	Macro-F1
单模态	C3D	0.555	0.568	0.569	0.560
	R2+1D	0.622	0.643	0.651	0.631
	ResNet3D	0.669	0.692	0.695	0.678
	GoogleNet	0.679	0.709	0.719	0.691
	I3D	0.706	0.727	0.733	0.715
	S3D-G	0.741	0.750	0.755	0.744
多模态	C3D(multimodal)	0.612	0.623	0.632	0.617
	I3D(multimodal)	0.751	0.763	0.772	0.755
	TSN	0.763	0.772	0.781	0.770
	CTSN	0.771	0.780	0.785	0.773
	SlowFast Network	0.780	0.782	0.794	0.781
	本文算法	0.782	0.795	0.813	0.789

表选项

3.2.2 参数对比实验为了使整个网络的实验性能取得最好，探寻了相似性损失权重α、差异性损失权重β及分类损失权重γ对整个实验的影响。为了简化参数的学习过程，首先在固定分类损失权重γ的前提下，探寻相似性损失权重α和差异性损失权重β对整个实验结果的影响。参数α、β和γ的不同取值对网络性能的影响如图 2所示。表明，当固定γ的值时，在调节参数α和参数β的过程中发现，当参数α的值为0.4，参数β的值为0.6时，效果最好。然后固定参数α和参数β的数值，在调节参数γ的数值过程中，发现当参数γ的值为1.2时，提出的网络性能达到最好。

图 2 参数α、β、γ不同取值对短视频分类任务的影响 Fig. 2 Influence of different values of parameters α, β, γ on micro-video classification task

图选项

3.2.3 实验性能对比为了证明本文所提模型的有效性，先后对比本文模型与C3D^[9]、I3D^[10]、R2+1D^[14]、ResNet3D^[11]、GoogleNet^[25]、S3D-G^[15]、SlowFast Network^[12]、C3D(multimodal)、I3D(multimodal)、TSN^[20]、CTSN^[18]共11种视频分类算法在AR、AP、Micro-F1、Macro-F1这4项指标下的性能。其中，C3D^[9]、R2+1D^[14]、ResNet3D^[11]、S3D-G^[15]、GoogleNet^[25]和I3D^[10]是常用的单模态特征视频分类网络，SlowFast Network^[12]、C3D(multimodal)、I3D(multimodal)、TSN^[20]和CTSN^[18]是常用的多模态特征视频分类网络。通过观察表 1的数据可以发现，本文算法在AI-challenger-mlsv-2018数据集中AR、AP、Micro-F1、Macro-F1取值分别为0.782、0.795、0.813、0.789，这些数据反映了网络在短视频分类任务中的有效性。

3.2.4 消融对比实验为了验证实验的有效性，表 2分别比较了视觉模态特征、音频模态特征、前期融合特征、公有域特征、私有域特征及本文算法所提取的特征共6种特征。
表 2 不同网络短视频特征分类性能对比 Table 2 Performance comparison of micro-video feature classification in different networks

方法	AR	AP	Micro-F1	Macro-F1
I3D(视觉模态)	0.720	0.718	0.733	0.720
I3D(音频模态)	0.328	0.319	0.341	0.328
前期融合	0.751	0.763	0.772	0.755
公有域网络	0.771	0.777	0.781	0.774
私有域网络	0.751	0.744	0.763	0.748
本文算法	0.782	0.795	0.813	0.789

表选项

表 2中，视觉模态特征、音频模态特征是单独直接将对应的视觉模态信息、音频模态信息输入到I3D网络后得到的分类结果；前期融合是直接将得到的视觉模态特征和音频模态特征融合后得到的全局特征；而公有域特征则是通过公有域网络，经过相似性损失约束得到的视觉模态和音频模态的公有域特征；私有域特征是将视觉模态信息和音频模态信息分别通过各自私有域网络，经过差异性损失约束得到的私有域特征。本文算法则是在得到的私有域特征和公有域特征上，对得到的私有域特征和公有域特征融合得到的全局特征，取得了更好的分类效果。
4 结论 1) 针对目前短视频分类任务中遇到的主要问题，本文提出了一种基于深度多模态特征融合的短视频分类算法，通过建立相似性损失和差异性损失，探寻短视频中不同模态之间的相似性和同一模态的差异性，将视频的特征空间划分为视觉模态和音频模态的公有域，视觉模态的私有域和音频模态的私有域，获取到视频的不同模态的私有域特征和公有域特征，将其融合作为短视频的全局特征，用分类损失指导短视频的分类。
2) 在公开数据集上的大量实验表明，本文提出的算法成功地获取到了视频的不同模态信息在特征空间内的相似性表示和差异性表示，有效地降低了短视频多模态特征融合时的冗余性，提高了短视频分类的准确性，较好地解决了短视频的分类问题。

参考文献

[1]	ZHANG J, NIE L, WANG X, et al. Shorter-is-better: Venue category estimation from micro-video[C]//Proceedings of ACM International Conference on Multimedia. New Nork: ACM Press, 2016: 1415-1424.

[2]	WEI Y, WANG X, GUAN W, et al. Neural multimodal cooperative learning toward micro-video understanding[J]. IEEE Transactions on Image Processing, 2019, 29: 1-14.

[3]	NIE L, WANG X, ZHANG J, et al. Enhancing micro-video understanding by harnessing external sounds[C]//Proceedings of ACM International Conference on Multimedia. New Nork: ACM Press, 2017: 1192-1200.

[4]	JING P, SU Y, NIE L, et al. Low-rank multi-view embedding learning for micro-video popularity prediction[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 30(8): 1519-1532.

[5]	LIU S, CHEN Z, LIU H, et al. User-video co-attention network for personalized micro-video recommendation[C]//Proceedings of World Wide Web Conference, 2019: 3020-3026.

[6]	SHANG S, SHI M, SHANG W, et al. A micro-video recommendation system based on big data[C]//Proceedings of International Conference on Computer and Information Science. Piscataway: IEEE Press, 2016: 1-5.

[7]	LONG X, GAN C, MELO G D, et al. Attention clusters: Purely attention based local feature integration for video classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 7834-7843.

[8]	MA C Y, CHEN M H, KIRA Z, et al. TS-LSTM and temporal-inception: Exploiting spatiotemporal dynamics for activity recognition[J]. Signal Processing: Image Communication, 2019, 71: 76-87. DOI:10.1016/j.image.2018.09.003

[9]	TRAN D, BOURDEY L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//Proceedings of IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2015: 4489-4497.

[10]	CARREIRA J, ZISSERMAN A, QUO V. Action recognition? A new model and the kinetics dataset[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 6299-6308.

[11]	HARA K, KATAOKA H, SATOH Y. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and imagenet?[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 6546-6555.

[12]	FEICHTENHOFER C, FAN H, MALIK J, et al. SlowFast networks for video recognition[C]//Proceedings of IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 6202-6211.

[13]	QIU Z, YAO T, MEI T. Learning spatio-temporal representation with pseudo-3D residual networks[C]//Proceedings of IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 5533-5541.

[14]	TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 6450-6459.

[15]	XIE S, SUN C, HUANG J, et al. Rethinking spatiotemporal feature learning for video understanding[EB/OL]. (2017-12-13)[2020-08-01]. https://arxiv.org/abs/1712.04851.

[16]	D'MELLO S K, KORY J. A review and meta-analysis of multimodal affect detection systems[J]. ACM Computing Surveys, 2015, 47(3): 193-228.

[17]	ZHAI D, CHANG H, SHAN S, et al. Multiview metric learning with global consistency and local smoothness[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3(3): 1-22.

[18]	FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 1933-1941.

[19]	FRANKLIN J. The elements of statistical learning: Data mining, inference and prediction[J]. The Mathematical Intelligencer, 2005, 27(2): 83-85.

[20]	WANG L, XIONG Y, WANG Z, et al. Temporal segment networks: Towards good practices for deep action recognition[C]//Proceedings of European Conference on Computer Vision. Berlin: Springer, 2016: 20-36.

[21]	CHOPRA S, HASSELL R, LECUN Y. Learning a similarity metric discriminatively, with application to face verification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2005: 539-546.

[22]	ZAGORUYKO S, KOMODAKIS N. Learning to compare image patches via convolutional neural networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 4353-4361.

[23]	BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object tracking[C]//Proceedings of European Conference on Computer Vision. Berlin: Springer, 2016: 850-865.

[24]	VALMADRE J, BERTINETTO L, HENRIQUES J, et al. End-to-end representation learning for correlation filter based tracking[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 2805-2813.

[25]	SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 1-9.