基于多尺度联合学习的行人重识别*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

近年来中国安防形势日趋严峻，各类大案需要对嫌疑目标进行跨摄像机的检索、分析、比对。行人重识别作为视频侦查的关键技术以处理跨摄像机的行人外观差异为基础，旨在从多摄像机条件下检索特定身份的行人。因此，探索具备跨摄像机行人检索能力的行人重识别方法具有重要意义。
随着深度学习^[1]的迅速发展，行人重识别方法对行人的表征能力得到了极大提升。然而实际监控场景中的行人姿态、遮挡、背景等方面存在着极大差异，给现有行人重识别方法带来了极大挑战。因此，现有行人重识别方法主要关注于提取行人的局部部件特征，进而对行人进行精细化表示。这些方法主要分为两类：第一类方法利用人体姿态估计模型，分别对各个行人部件进行精细化表达。基于此，Zhao等^[2]设计了一个树形融合网络，通过选取各个部件最显著的特征进行融合，以增强部件级特征的鉴别性。然而这类方法首先需要对图像进行预处理，增加了方法的复杂性。并且这类方法高度依耐于姿态估计模型的鲁棒性，错误的估计会大大影响识别的结果。第二类方法则假定行人图像已对齐，进而将特征图裁剪为条状或者分块。Sun等^[3]通过把网络输出的特征图进行水平划分，从而学习不同条状区域的局部特征。此类方法通过提取行人的局部部件特征实现了精细化的行人特征表示。以上方法忽略了部件之间的联系，缺乏行人结构性信息。在摄像机拍摄角度受限、人体部件存在运动或遮挡等行人数据非完备条件下，会导致行人局部辨识特征信息丢失概率的增加。
针对这个问题，近年来研究者开始尝试结合行人的局部和全局特征。例如，Zheng等^[4]和Wei等^[5]在使用姿态估计模型提取局部特征的基础上，结合全局特征来避免模型误检对识别精度的影响。Zheng等^[6]和Fu等^[7]通过金字塔模型对特征图进行不同尺度的划分，从而获得多尺度的部件信息。Wang等^[8]则通过一个全局分支和2个局部分支，对行人进行多粒度描述。这些方法通过结合离散的局部特征与全局特征，能提高行人辨识的性能。然而，实际监控场景中的遮挡、背景等因素会对行人信息带来干扰，进而降低行人的全局特征和局部部件特征的辨识性能。
本文的贡献主要包括3个方面：
1) 提出了一种多尺度联合学习方法，该方法结合了行人的粗粒度全局特征、细粒度全局特征和细粒度局部特征。
2) 结合细粒度全局特征和细粒度局部特征能够有效学习行人局部部件间的相关性并挖掘非显著信息，从而提高遮挡、背景差异等条件下的行人辨识性能。
3) 通过在3个行人重识别数据集上的实验测试, 综合比较了本文方法与12种目前的主流模型的性能。
1 相关工作由于在真实场景下背景^[9]、姿态、照明^[10]、视角、相机^[11]等条件变化很大，行人重识别在计算机视觉中是一项十分具有挑战性的任务。图 1展示了在真实场景下受遮挡的相似行人图像。以前，人们通过手工特征，如颜色、HOG^[12]等，通过XQDA^[13]或KISSME^[14]来学习最佳的相似度量。然而，传统的手工特征描述能力有限。近年来随着深度学习的兴起，深度网络的特征学习已成为行人重识别的常见做法。Zheng等^[15]提出的IDE (ID-discriminative Embedding)把ResNet-50^[16]做为骨干网络，将行人重识别视为分类问题，通过ID-Loss训练。在此之后，一系列基于深度学习的行人重识别方法被提出。最近一些研究工作意识到行人局部特征有助于行人精细化表示。

图 1 真实场景下受遮挡的相似行人图像 Fig. 1 Obscured images of similar pedestrians in real scenes

图选项

1.1 局部特征通过总结，基于局部特征主要分为以下2种方式：①通过预定义区域对行人进行划分，基于人体姿态估计的方法获得身体部件。Zhao等^[2]根据姿态估计模型定位的部件区域，对图像进行部件分割，以提取部件级特征。Su等^[17]通过学习各个部件级特征的权重，以增强局部特征的鲁棒性。不同于上述方法直接对行人图像进行分割。Suh等^[18]和Xu等^[19]利用双流网络实现行人部件匹配，其中上流网络用来获取不同行人部件的特征区域，并引导下流网络来增强指定区域的关注度。Sarfraz等^[20]引入了行人的姿态信息进行训练，以获得有鉴别性的特征。然而这种方法由于姿态估计和行人重识别数据集之间的间隙，其精度很大程度上依赖估计器的性能。②假设行人已经对齐, 根据人体结构信息进行划分。一些方法^[21]通过把网络输出的特征图进行水平划分获得局部特征，Sun等^[3]提出了PCB(Part-based Convolutional Baseline)以获得精细化描述。为了避免行人不对齐，导致各个部件之间产生误匹配。Luo等^[22]基于动态规划的思想，通过计算各局部特征之间的最短路径，对行人部件进行对齐。Sun等^[23]提出了部件感知模型，避免由于部件被遮挡产生的噪声。本文方法属于此类，与其他方法不同，考虑了身体部位之间的相关性，而不是直接的使用局部特征。
1.2 联合特征虽然局部特征能对行人进行精细化表示，但无法对行人显著性特征进行描述。还有一些方法^[24-25]联合行人的局部和全局特征，增强行人特征的完整性。Zheng等^[4]和Wei等^[5]通过提取行人较粗部件特征并联合全局特征提高模型的鲁棒性。Li等^[24]设计了一个注意力模块以增强联合特征的鉴别性。基于PCB，Wang等^[8]提出了MGN(Multiple Granularity Network)通过多分支网络，将全局特征和局部特征相结合，对行人进行多粒度描述。Zheng等^[6]和Fu等^[7]则基于金字塔模型，通过不同尺度的水平划分来学习多尺度的局部和全局特征。
2 多尺度联合学习方法多尺度联合学习网络由粗粒度全局分支、细粒度全局分支和细粒度局部分支构成。粗粒度全局分支用于增强全局特征的丰富性。而细粒度全局分支在对全局特征精细化描述的同时又学习了相邻部件之间的相关性。细粒度局部分支则通过遍历组合局部特征，加强学习局部特征之间的非显著性信息。图 2展示了多尺度联合学习网络的框架结构，对其框架和各个模块的详细说明如下。

图 2 多尺度联合学习网络框架 Fig. 2 Multi-scale joint learning network framework

图选项

2.1 粗粒度全局分支给定一组图像X={a₁, a₂, …, a_k}为监控系统中摄像头所捕获的人，k为图像的数量。使用ResNet-50^[16]作为多尺度联合学习的骨干网络，不同于其他方法只提取网络的高级特征对行人进行描述。考虑到网络不同阶段的输出所带来的语义差异，通过融合不同层次的语义，增强行人全局特征的丰富性。笔者做法如下：对于粗粒度全局分支，分别将res_conv4x和res_conv5x层的特征图进行全局平均池化(GAP)和全局最大池化(GMP)操作，分别得到全局特征d_{max, avg}和f_{max, avg}，之后将其数值相加得到特征向量D和F：

(1)

(2)

对于d_{max, avg}和f_{max, avg}，将这4个特征向量分别通过三元组损失进行训练。特征向量D和F分别通过1×1的卷积减少至512维，并通过softmax函数进行训练。
2.2 细粒度全局分支通过对特征图进行水平划分，以获得行人的精细化描述是一种常见的方式。在现有的做法中，只对每个局部特征单独的进行学习，并将其连接起来，以产生行人的描述。虽然这种方式可以使行人获得更精细化的表示，但由于行人图像中存在不对齐的现象，容易使各个部件之间产生误匹配。更重要的是，由于各个局部特征是独立存在的，虽然获得了精细化的行人描述，但是缺少了行人特征的完整性。这会导致在相同部件具有相似属性的不同行人难以进行区分，造成误判。为此，考虑各个部件之间的相关性，通过对全局特征进行细粒度描述来解决此问题。
具体的，行人图像通过骨干网络可以得到一个大小为C×H×W的三维特征张量，C为特征通道数，H和W分别为特征空间的高度和宽度。根据特征图的H轴将特征图划分为n个部分，每个部分的大小为C×(H/n)×W，分别对每部分进行平均和最大池化操作，可以得到长度为C的特征向量g_maxi(i=1, 2, …, n)和g_avgi(i=1, 2, …, n)。将g_maxi和g_avgi分别连接起来，得到了长度为n×C的向量G_max和G_avg。通过将局部特征互相关联，使其在既保证全局特征完整性的同时，又对行人特征进行细粒度描述，对于G_max和G_avg使用三元组损失^[26]进行训练。通过考虑各部件之间的相关性，以缓解部件之间的误匹配，并增强相似部件之间的判别。
2.3 细粒度局部分支经过划分的局部特征，通过身体各个部件之间相互联系，可以增强局部特征的鉴别力。虽然细粒度全局分支将2个相邻部件之间相互关联，以学习到相邻部件之间的相关性。但是，对于不相邻的2个部件，是否也存在着潜在的相关性。此外，由于部件相互之间间隔的尺度不同，就会形成不同尺度的局部特征。那么对于局部特征在什么尺度下，能够和全局特征进行有效联合，仍需要进一步研究。
笔者的做法如下：对于长度为C的特征向量g_maxi(i=1, 2, …, n)和g_avgi(i=1, 2, …, n)，将n设置为4，并分别将每个g_maxi和g_avgi数值相加得到局部特征向量g_i(i=1, 2, …, n)。

(3)

为了挖掘不相邻的局部特征之间相关性，分别对g_i进行丢弃，根据丢弃的g_i的不同，可以得到多组包含不同g_i的局部特征。假设每次丢弃1个g_i，并对g_i进行遍历的丢弃，那么就会获得4组由不同的g_i组成的局部特征向量P_n(n=1, 2, 3, 4)。

(4)

对于每组P_n将其分别通过多部件相关性进行训练。图 3为细粒度局部分支丢弃1个g_i时的示意图。

图 3 细粒度局部分支 Fig. 3 Fine-grained local branch

图选项

对于每组P_n，由于都缺少了行人的某个关键部件，当对P_n挖掘相关性时，就会使原本不相邻的2个局部特征之间相互连接。通过利用不相邻部件之间的相关性，从而可以挖掘更多关键但非显著的潜在信息。基于此，进一步探索了局部尺度特征和全局尺度特征联合判别的有效性。具体的，对于每组P_n分别通过改变丢弃的尺度进行训练。通过实验可以发现，不论丢弃尺度为多少细粒度局部特征都有助于提高精确度。但由于不同数据集行人图像的边界框(Bounding Box)质量不同，不同尺度的特征嵌入的有效性也不相同，具体实验将在3.4节进行详细阐述。
2.4 损失函数为了提高该网络学习行人特征表示的辨别能力，采用了基于softmax的ID-Loss和最大三元组损失作为训练阶段的损失函数，这2种函数被广泛的应用于各种行人重识别的方法。
首先将行人重识别当作一个分类任务。因此，笔者的目标是预测每个人的标签，通过优化分类模型学习行人的具体特征表示。对于第β个学习到的特征f_β，softmax loss阐述如下：

(5)

式中：W_k表示对应于第k类的权重；在训练中一个训练批次数量为N；W_y^T表示对应于第y(ground truth)类的权重；训练数据集的分类数为L。不同于传统的softmax，抛弃了线性多分类中的bias^[27]，这有助于获得更好的分类性能。在训练的过程中将该损失用于全局特征D、F，以及局部特征P_n(n=1, 2, 3, 4)。
对于所有的全局特征以及不进行丢弃的局部相关性特征{d_max, d_avg, f_max, f_avg, G_max, G_avg}通过三元组损失训练来提高性能。使用hard triplet-loss^[28]阐述如下：

(6)

f_a^b、f_p^b和f_n^c分别为通过锚(Anchor)、积极(Positive)和消极(Negative)进行采样得到的特征，积极和消极是代表和锚有相同标签和不同标签的行人；α为控制类之间的距离。候选的三元组由距离最远的有相同标签的对和最近的有不同标签的对构成。最难的相同标签样本和不同标签样本分别在一个批次中，这个批次有P个标签的行人，每个标签有K张图片。损失函数鼓励最远的相同标签样本的距离小于最近的不同标签样本的距离。
3 实验 3.1 数据集 Market1501^[29]是在清华大学校园中采集的数据集，图像来自于6个不同的摄像头，其中有一个摄像头为低分辨率。同时该数据集提供训练集和测试集。训练集包含12 936张行人图像，测试集包含19 732张行人图像。图像由检测器自动检测并切割，所以存在一些检测误差。训练数据中一共有751人，测试集中有750人。所以在训练集中，平均每类(每个人)有17.2张训练数据。
CUHK03^[30]是在香港中文大学采集，行人图像来自2个不同的摄像头。该数据集提供机器自动检测和手动检测2个数据集。其中检测数据集包含一些检测误差，更接近实际情况。数据集总共包括1 467个行人的14 097张图片，平均每个人有9.6张训练数据。最初整个数据集被划分为20个随机分组用于交叉验证，但这是针对手工制作的方法而设计的。因此，笔者采用提出的新培训/测试协议^[31]。
DukeMTMC-ReID^[32]是在杜克大学内采集，图像来自8个不同摄像头，行人图像的边框由人工标注完成。训练集包含16 522张图像，测试集包含17 661张图像。训练数据中一共有702人，平均每个人有23.5张训练数据。
以上3个数据集，采用目前行人重识别方法普遍使用的首中准确率(Rank-1)和平均匹配度(mAP)2种评价指标评估方法的性能。所有实验都会使用单一查询方式。此外，为简单起见不使用显著改善mAP的重新排序算法。
3.2 实验设置为了从行人图像中获得全局和局部足够的信息，将所有图像的大小调整为288×144，并使用通过ImageNet^[33]分类的ResNet-50作为骨干网络。与原始版本不同将res_conv4_1块之后的后续部分化为2个独立的分支，并与原始的ResNet-50共享相似的体系结构。将最后一个卷积层的stride从2设置为1，并通过水平移动，标准化和随机擦除来增强训练图像。批量大小设置为32，P=8，K=4，α=0.3，n=4。笔者的模型训练220个epoch。基础学习率设定为0.03，并在60个时期后衰减至0.003，130个时期后衰减至0.000 3直至训练结束。在每个批量中使用具有0.9动量的随机梯度下降(SGD)方法以更新参数。本文方法在pytorch框架上实现，并使用单个GTX1060 GPU进行训练，所有数据集共享与上述相同的实验设置。
3.3 现有方法的对比实验本节中将所提方法与现有的先进的方法进行比较，以表示对于其他方法的优势，这些方法大多都是最近发布的方法，具体情况如表 1所示，针对每个数据集详细说明如下。
表 1 多尺度联合学习方法和其他方法性能对比 Table 1 Performance comparison of multi-scale joint learning method and other methods ?%

方法		CUHK03				Market1501		DukeMTMC-ReID
		Labeled		Detected		Market1501		DukeMTMC-ReID
		Rank-1	mAP	Rank-1	mAP	Rank-1	mAP	Rank-1	mAP
基于部件	IDE^[15]	22.0	21.0	21.3	19.7	72.5	46.0	67.7	47.1
	MGN^[8]	68.0	67.4	66.8	66.0	95.7	86.9	88.7	78.4
	PCB^[3]	61.9	56.8	60.6	54.4	92.3	77.4	81.7	66.1
	Pyramid^[6]	78.9	76.9	78.9	74.8	95.7	88.2	89.0	79.0
	GFLF-S^[34]	76.6	73.5	74.4	69.6	94.8	88.0	89.3	77.1
基于注意力机制	CASN^[35]	73.7	68.0	71.5	64.4	94.4	82.8	87.7	73.7
	M1tB^[36]	70.1	66.5	66.6	64.2	94.7	84.5	85.8	72.9
	Mancs^[37]	69.0	63.9	65.5	60.5	93.1	82.3	84.9	71.8
	HACNN^[24]	44.4	41.0	41.7	38.6	91.2	75.7	80.5	63.9
其他	DPFL^[38]	43.0	40.5	40.7	37.0	88.9	73.1	79.2	60.0
	BDB^[39]	73.6	71.7	72.8	69.3	94.2	84.3	86.8	72.1
	SVDNet^[40]	40.9	37.8	41.5	37.3	82.3	62.1	76.7	56.8
本文	多尺度联合	80.7	77.0	78.0	73.4	95.9	89.1	90.0	80.4

表选项

3.3.1 Market1501数据集本文方法在该数据集上实现了95.9%Rank-1和89.1%mAP。对比仅仅使用了单一局部特征的PCB^[3]，本文方法分别在Rank-1和mAP提高了3.6%和11.7%。MGN虽然考虑了多个分支结构，但是却忽略了局部信息之间的联系，作为该数据集上最好的方法分别提高了0.2%Rank-1，2.2%mAP。
图 4展示了查询前10名的结果。分别选择了行人被遮挡、背景复杂、图片模糊等复杂条件下情况。第1、2排行人的查询图像在被小包遮挡和背景杂乱的情况下，网络仍然可以健壮的表示其判别信息。第3行查询图像是在低分辨率下进行捕获的，丢失了大量精细的信息，但本文网络却可以通过挖掘局部特征之间的潜在联系，找出正确的行人图像。最后一位行人，背景十分杂乱，身体大部分被自行车遮挡且照片也十分的模糊。但本文方法仍然有较好的效果。可以看到，在Rank-9中即使行人出现了较大的不对齐现象，仍然可以将其正确的找出，这得益于细粒度局部分支对网络的影响。

图 4 Market1501数据集部分图像查询结果 Fig. 4 Partial image query results on Market1501 dataset

图选项

3.3.2 DukeMTMC-ReID数据集可以看到本文方法仍然在Rank-1和mAP达到了最好的效果分别为：90.0%和80.4%。采用金字塔模型的Pyramid最接近本文方法，但仍然低于1.0%Rank-1和1.4%mAP。和只考虑局部特征的PCB相比，本文方法分别超过PCB的8.3% Rank-1和14.3%mAP。

3.3.3 CUHK03数据集在新协议下的该数据集是现在最具有挑战的数据集之一，该数据集的边界框用2种不同的方法进行标注分别为CUHK03 Labeled和CUHK03 Detected。该方法在Labeled上达到了80.7%Rank-1和77.0%mAP，在Detected上达到了78.0%Rank-1和73.4%mAP。本文方法在Labeled上相比于其他方法，提高了1.8%的Rank-1。对比同样采用多分支结构MGN将其原有性能提高了大约20%，这得益于本文多尺度联合学习方法，增强了不同粒度联合判别的有效性。
3.4 消融实验为了验证本文方法每个组件的有效性以及探索细粒度局部分支丢弃尺度问题。使用单一查询模式在Market1501、DukeMTMC-ReID和CUHK03这3个数据集上设计了几个不同设置的消融实验。各个指标的结果Rank-1、mAP显示在表 2中。CG表示粗粒度全局分支，FG表示细粒度全局分支，FP表示细粒度局部分支，1、2分别表示丢弃尺度为1、2。所有结果只更改一个设置，其余设置均与默认设置相同。
表 2 多尺度联合学习方法消融实验 Table 2 Ablation experiment of multi-scale joint learning method ?%

方法	CUHK03				Market1501		DukeMTMC-ReID
	Labeled		Detected		Market1501		DukeMTMC-ReID
	Rank-1	mAP	Rank-1	mAP	Rank-1	mAP	Rank-1	mAP
基线	59.1	54.2	55.1	50.2	93.5	82.4	85.3	72.0
基线+CG	69.8	66.1	66.9	62.6	94.8	86.9	87.9	76.7
基线+FG	70.9	67.1	68.2	63.3	95.1	87.3	88.2	77.9
基线+CG+FG	76.4	72.1	73.0	68.4	95.3	88.7	88.7	79.1
基线+CG+ FP1	78.4	75.1	76.0	72.2	95.6	88.7	89.1	78.5
基线+CG+ FP2	78.7	75.2	75.5	71.5	95.6	89.0	89.2	79.6
基线+ FG + FP1	77.3	73.1	76.4	71.8	95.6	88.5	89.5	78.9
基线+ FG + FP2	77.6	74.2	75.0	71.4	95.7	88.8	89.5	79.8
基线+CG+FG+FP1	80.7	77.0	78.0	73.4	95.9	88.8	89.6	79.2
基线+CG+FG+FP2	80.8	76.7	76.0	71.8	95.9	89.1	90.0	80.4

表选项

首先，在表 2中显示了不同组件对本文模型的消融实验。在表格的前三行可以看到，为了验证单个分支的有效性，单独使用粗粒度全局分支或细粒度全局分支，都显著提高了行人重识别的性能。特别的在CUHK03数据集上，使用细粒度全局分支分别使mAP和Rank-1的精确度提高了12.9%和11.8%。第四行将它们联合使用，进一步提高了精确度。为了验证不同粗细粒度分支的组合对模型性能的影响，从第五行开始增加了细粒度局部分支，分别对不同分支相互组合进行实验。可以看出不论以哪一种方式组合相比于不使用该分支，都有助于模型性能的提升。由于细粒度局部分支利用了不相邻部件间的相关性，进一步挖掘了各局部关键但不显著的信息。相比于不同粒度的全局分支，细粒度局部分支更有助于模型鲁棒性的提高，对模型的性能有更加显著的提升。
其次，分析了细粒度局部分支丢弃不同尺度的部件情况。可以发现，不论以何种尺度丢弃部件来挖掘更多关键但非显著的潜在信息。相比于只使用细粒度全局分支，都有助于增强和全局尺度特征联合判别的有效性。特别的，相比于不使用细粒度局部特征，在DukeMTMC-ReID数据集上进一步提高了1.3% Rank-1和1.3% mAP。根据实验可以发现当丢弃尺度为2时，在Market1501、DukeMTMC-ReID和CUHK03 Labeled数据集上更有助于增强局部尺度特征和全局尺度特征联合判别的有效性。对于CUHK03 Detected数据集，丢弃尺度为1更有效。在行人图像对齐较好的Market1501、DukeMTMC-ReID和CUHK03 Labeled数据集，相比于丢弃尺度为1，丢弃尺度为2时由于相关联的行人部件更少，更有助于模型挖掘更多关键但非显著的信息，使得行人特征更有鲁棒性。而CUHK03 Detected数据集由于行人图像存在大量不对齐的现象，减小丢弃尺度有助于避免具有相似部件的不同行人容易混淆的问题。
接着，笔者基于热力图可视化了一些图像在不同分支下模型关注的区域情况。如图 5所示，第1列为输入到模型的原始图像，第2至5列以基线为标准并依次递增不同的分支，展示了不同情况下的热力图。可知，当添加了粗粒度全局分支后，由于融合了不同层次的语义信息，增强了模型关注区域的丰富性。当进一步增加了细粒度全局分支后，模型将相邻部件之间相互关联，在保证区域丰富性的同时增强了相邻部件之间的关注度以增强相似部件间的辨别。最后当同时利用3个分支时，通过利用不相邻部件之间的相关性，挖掘了更多关键但非显著的信息，增强了关注区域的鲁棒性。

图 5 Market1501数据集部分图像热力图 Fig. 5 Partial image heatmap on Market1501 dataset

图选项

4 结束语本文提出了多尺度联合学习方法，通过3个分支网络，分别提取行人的粗粒度全局特征、细粒度全局特征和细粒度局部特征，对行人不同粒度下的信息联合学习，使其特征更具有区分性。此外通过挖掘各个部件之间不同尺度下的潜在关系，联合全局特征形成了更有鉴别性的行人特征。大量实验证明，本文方法不仅可以在3个主流的行人重识别数据集上实现最好的结果，而且和现有方法相比可以将性能大幅度提高。

参考文献

[1]	LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. DOI:10.1038/nature14539

[2]	ZHAO H, TIAN M, SUN S, et al. Spindle Net: Person re-identification with human body region guided feature decomposition and fusion[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 907-915.

[3]	SUN Y, ZHENG L, YANG Y, et al. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 480-496.

[4]	ZHENG L, HUANG Y, LU H, et al. Pose-invariant embedding for deep person re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(9): 4500-4509. DOI:10.1109/TIP.2019.2910414

[5]	WEI L, ZHANG S, YAO H, et al. GLAD: Global-local-alignment descriptor for pedestrian retrieval[C]//Proceedings of the 25th ACM International Conference on Multimedia. New York: ACM Press, 2017: 420-428.

[6]	ZHENG F, DENG C, SUN X, et al. Pyramidal person re-identification via multi-loss dynamic training[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 8514-8522.

[7]	FU Y, WEI Y, ZHOU Y, et al. Horizontal pyramid matching for person re-identification[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2019: 8295-8302.

[8]	WANG G, YUAN Y, CHEN X, et al. Learning discriminative features with multiple granularities for person re-identification[C]//Proceedings of the 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 274-282.

[9]	WANG Z, JIANG J, WU Y, et al. Learning sparse and identity-preserved hidden attributes for person re-identification[J]. IEEE Transactions on Image Processing, 2019, 29(1): 2013-2025.

[10]	ZENG Z, WANG Z, WANG Z, et al. Illumination-adaptive person re-identification[J]. IEEE Transactions on Multimedia, 2020, 22(12): 3064-3074. DOI:10.1109/TMM.2020.2969782

[11]	WANG Z, WANG Z, ZHENG Y, et al. Beyond intra-modality: A survey of heterogeneous person re-identification[EB/OL]. (2020-04-27)[2020-07-23]. https://arxiv.org/abs/1905.10048v4.

[12]	DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2005: 886-893.

[13]	LIAO S, HU Y, ZHU X, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 2197-2206.

[14]	KOESTINGER M, HIRZER M, WOHLHART P, et al. Large scale metric learning from equivalence constraints[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2012: 2288-2295.

[15]	ZHENG L, YANG Y, HAUPTMANN A G. Person re-identification: Past, present and future[EB/OL]. [2020-07-23]. https://arxiv.org/abs/1610.02984.

[16]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778.

[17]	SU C, LI J, ZHANG S, et al. Pose-driven deep convolutional model for person re-identification[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 3980-3989.

[18]	SUH Y, WANG J, TANG S, et al. Part-aligned bilinear representations for person re-identification[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 418-437.

[19]	XU J, ZHAO R, ZHU F, et al. Attention-aware compositional network for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 2119-2128.

[20]	SARFRAZ M S, SCHUMANN A, EBERLE A, et al. A pose-sensitive embedding for person re-identification with expanded cross neighborhood re-ranking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 420-429.

[21]	ZHENG W S, LI X, XIANG T, et al. Partial person re-identification[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2015: 4678-4686.

[22]	LUO H, JIANG W, ZHANG X, et al. AlignedReID++: Dynamically matching local information for person re-identification[J]. Pattern Recognition, 2019, 94: 53-61. DOI:10.1016/j.patcog.2019.05.028

[23]	SUN Y, XU Q, LI Y, et al. Perceive where to focus: Learning visibility-aware part-level features for partial person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 393-402.

[24]	LI W, ZHU X, GONG S. Harmonious attention network for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 2285-2294.

[25]	LIU X, ZHAO H, TIAN M, et al. HydraPlus-Net: Attentive deep features for pedestrian analysis[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 350-359.

[26]	SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 815-823.

[27]	WANG F, XIANG X, CHENG J, et al. Normface: L2 hypersphere embedding for face verification[C]//Proceedings of the 25th ACM International Conference on Multimedia. New York: ACM Press, 2017: 1041-1049.

[28]	HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification[EB/OL]. (2017-11-17)[2020-07-23]. https://arxiv.org/abs/1703.07737.

[29]	ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: A benchmark[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2015: 1116-1124.

[30]	LI W, ZHAO R, XIAO T, et al. DeepReID: Deep filter pairing neural network for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2014: 152-159.

[31]	ZHONG Z, ZHENG L, CAO D, et al. Re-ranking person re-identification with k-reciprocal encoding[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 1318-1327.

[32]	ZHENG Z, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 3754-3762.

[33]	DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2009: 248-255.

[34]	PARK H, HAM B. Relation network for person re-identification[EB/OL]. (2017-08-22)[2020-07-23]. https://arxiv.org/abs/1701.07717.

[35]	ZHENG M, KARANAM S, WU Z, et al. Re-identification with consistent attentive siamese networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 5735-5744.

[36]	YANG W, HUANG H, ZHANG Z, et al. Towards rich feature discovery with class activation maps augmentation for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 1389-1398.

[37]	WANG C, ZHANG Q, HUANG C, et al. Mancs: A multi-task attentional network with curriculum sampling for person re-identification[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 365-381.

[38]	CHEN Y, ZHU X, GONG S. Person re-identification by deep learning multi-scale representations[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 2590-2600.

[39]	DAI Z, CHEN M, GU X, et al. Batch DropBlock network for person re-identification and beyond[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 3690-3700.

[40]	SUN Y, ZHENG L, DENG W, et al. SVDNet for pedestrian retrieval[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 3820-3828.