删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于多尺度联合学习的行人重识别*

本站小编 Free考研考试/2021-12-25

近年来中国安防形势日趋严峻,各类大案需要对嫌疑目标进行跨摄像机的检索、分析、比对。行人重识别作为视频侦查的关键技术以处理跨摄像机的行人外观差异为基础,旨在从多摄像机条件下检索特定身份的行人。因此,探索具备跨摄像机行人检索能力的行人重识别方法具有重要意义。
随着深度学习[1]的迅速发展,行人重识别方法对行人的表征能力得到了极大提升。然而实际监控场景中的行人姿态、遮挡、背景等方面存在着极大差异,给现有行人重识别方法带来了极大挑战。因此,现有行人重识别方法主要关注于提取行人的局部部件特征,进而对行人进行精细化表示。这些方法主要分为两类:第一类方法利用人体姿态估计模型,分别对各个行人部件进行精细化表达。基于此,Zhao等[2]设计了一个树形融合网络,通过选取各个部件最显著的特征进行融合,以增强部件级特征的鉴别性。然而这类方法首先需要对图像进行预处理,增加了方法的复杂性。并且这类方法高度依耐于姿态估计模型的鲁棒性,错误的估计会大大影响识别的结果。第二类方法则假定行人图像已对齐,进而将特征图裁剪为条状或者分块。Sun等[3]通过把网络输出的特征图进行水平划分,从而学习不同条状区域的局部特征。此类方法通过提取行人的局部部件特征实现了精细化的行人特征表示。以上方法忽略了部件之间的联系,缺乏行人结构性信息。在摄像机拍摄角度受限、人体部件存在运动或遮挡等行人数据非完备条件下,会导致行人局部辨识特征信息丢失概率的增加。
针对这个问题,近年来研究者开始尝试结合行人的局部和全局特征。例如,Zheng等[4]和Wei等[5]在使用姿态估计模型提取局部特征的基础上,结合全局特征来避免模型误检对识别精度的影响。Zheng等[6]和Fu等[7]通过金字塔模型对特征图进行不同尺度的划分,从而获得多尺度的部件信息。Wang等[8]则通过一个全局分支和2个局部分支,对行人进行多粒度描述。这些方法通过结合离散的局部特征与全局特征,能提高行人辨识的性能。然而,实际监控场景中的遮挡、背景等因素会对行人信息带来干扰,进而降低行人的全局特征和局部部件特征的辨识性能。
本文的贡献主要包括3个方面:
1) 提出了一种多尺度联合学习方法,该方法结合了行人的粗粒度全局特征、细粒度全局特征和细粒度局部特征。
2) 结合细粒度全局特征和细粒度局部特征能够有效学习行人局部部件间的相关性并挖掘非显著信息,从而提高遮挡、背景差异等条件下的行人辨识性能。
3) 通过在3个行人重识别数据集上的实验测试, 综合比较了本文方法与12种目前的主流模型的性能。
1 相关工作 由于在真实场景下背景[9]、姿态、照明[10]、视角、相机[11]等条件变化很大,行人重识别在计算机视觉中是一项十分具有挑战性的任务。图 1展示了在真实场景下受遮挡的相似行人图像。以前,人们通过手工特征,如颜色、HOG[12]等,通过XQDA[13]或KISSME[14]来学习最佳的相似度量。然而,传统的手工特征描述能力有限。近年来随着深度学习的兴起,深度网络的特征学习已成为行人重识别的常见做法。Zheng等[15]提出的IDE (ID-discriminative Embedding)把ResNet-50[16]做为骨干网络,将行人重识别视为分类问题,通过ID-Loss训练。在此之后,一系列基于深度学习的行人重识别方法被提出。最近一些研究工作意识到行人局部特征有助于行人精细化表示。
图 1 真实场景下受遮挡的相似行人图像 Fig. 1 Obscured images of similar pedestrians in real scenes
图选项




1.1 局部特征 通过总结,基于局部特征主要分为以下2种方式:①通过预定义区域对行人进行划分,基于人体姿态估计的方法获得身体部件。Zhao等[2]根据姿态估计模型定位的部件区域,对图像进行部件分割,以提取部件级特征。Su等[17]通过学习各个部件级特征的权重,以增强局部特征的鲁棒性。不同于上述方法直接对行人图像进行分割。Suh等[18]和Xu等[19]利用双流网络实现行人部件匹配,其中上流网络用来获取不同行人部件的特征区域,并引导下流网络来增强指定区域的关注度。Sarfraz等[20]引入了行人的姿态信息进行训练,以获得有鉴别性的特征。然而这种方法由于姿态估计和行人重识别数据集之间的间隙,其精度很大程度上依赖估计器的性能。②假设行人已经对齐, 根据人体结构信息进行划分。一些方法[21]通过把网络输出的特征图进行水平划分获得局部特征,Sun等[3]提出了PCB(Part-based Convolutional Baseline)以获得精细化描述。为了避免行人不对齐,导致各个部件之间产生误匹配。Luo等[22]基于动态规划的思想,通过计算各局部特征之间的最短路径,对行人部件进行对齐。Sun等[23]提出了部件感知模型,避免由于部件被遮挡产生的噪声。本文方法属于此类,与其他方法不同,考虑了身体部位之间的相关性,而不是直接的使用局部特征。
1.2 联合特征 虽然局部特征能对行人进行精细化表示,但无法对行人显著性特征进行描述。还有一些方法[24-25]联合行人的局部和全局特征,增强行人特征的完整性。Zheng等[4]和Wei等[5]通过提取行人较粗部件特征并联合全局特征提高模型的鲁棒性。Li等[24]设计了一个注意力模块以增强联合特征的鉴别性。基于PCB,Wang等[8]提出了MGN(Multiple Granularity Network)通过多分支网络,将全局特征和局部特征相结合,对行人进行多粒度描述。Zheng等[6]和Fu等[7]则基于金字塔模型,通过不同尺度的水平划分来学习多尺度的局部和全局特征。
2 多尺度联合学习方法 多尺度联合学习网络由粗粒度全局分支、细粒度全局分支和细粒度局部分支构成。粗粒度全局分支用于增强全局特征的丰富性。而细粒度全局分支在对全局特征精细化描述的同时又学习了相邻部件之间的相关性。细粒度局部分支则通过遍历组合局部特征,加强学习局部特征之间的非显著性信息。图 2展示了多尺度联合学习网络的框架结构,对其框架和各个模块的详细说明如下。
图 2 多尺度联合学习网络框架 Fig. 2 Multi-scale joint learning network framework
图选项




2.1 粗粒度全局分支 给定一组图像X={a1, a2, …, ak}为监控系统中摄像头所捕获的人,k为图像的数量。使用ResNet-50[16]作为多尺度联合学习的骨干网络,不同于其他方法只提取网络的高级特征对行人进行描述。考虑到网络不同阶段的输出所带来的语义差异,通过融合不同层次的语义,增强行人全局特征的丰富性。笔者做法如下:对于粗粒度全局分支,分别将res_conv4x和res_conv5x层的特征图进行全局平均池化(GAP)和全局最大池化(GMP)操作,分别得到全局特征dmax, avgfmax, avg,之后将其数值相加得到特征向量DF
(1)

(2)

对于dmax, avgfmax, avg,将这4个特征向量分别通过三元组损失进行训练。特征向量DF分别通过1×1的卷积减少至512维,并通过softmax函数进行训练。
2.2 细粒度全局分支 通过对特征图进行水平划分,以获得行人的精细化描述是一种常见的方式。在现有的做法中,只对每个局部特征单独的进行学习,并将其连接起来,以产生行人的描述。虽然这种方式可以使行人获得更精细化的表示,但由于行人图像中存在不对齐的现象,容易使各个部件之间产生误匹配。更重要的是,由于各个局部特征是独立存在的,虽然获得了精细化的行人描述,但是缺少了行人特征的完整性。这会导致在相同部件具有相似属性的不同行人难以进行区分,造成误判。为此,考虑各个部件之间的相关性,通过对全局特征进行细粒度描述来解决此问题。
具体的,行人图像通过骨干网络可以得到一个大小为C×H×W的三维特征张量,C为特征通道数,HW分别为特征空间的高度和宽度。根据特征图的H轴将特征图划分为n个部分,每个部分的大小为C×(H/nW,分别对每部分进行平均和最大池化操作,可以得到长度为C的特征向量gmaxi(i=1, 2, …, n)和gavgi(i=1, 2, …, n)。将gmaxigavgi分别连接起来,得到了长度为n×C的向量GmaxGavg。通过将局部特征互相关联,使其在既保证全局特征完整性的同时,又对行人特征进行细粒度描述,对于GmaxGavg使用三元组损失[26]进行训练。通过考虑各部件之间的相关性,以缓解部件之间的误匹配,并增强相似部件之间的判别。
2.3 细粒度局部分支 经过划分的局部特征,通过身体各个部件之间相互联系,可以增强局部特征的鉴别力。虽然细粒度全局分支将2个相邻部件之间相互关联,以学习到相邻部件之间的相关性。但是,对于不相邻的2个部件,是否也存在着潜在的相关性。此外,由于部件相互之间间隔的尺度不同,就会形成不同尺度的局部特征。那么对于局部特征在什么尺度下,能够和全局特征进行有效联合,仍需要进一步研究。
笔者的做法如下:对于长度为C的特征向量gmaxi(i=1, 2, …, n)和gavgi(i=1, 2, …, n),将n设置为4,并分别将每个gmaxigavgi数值相加得到局部特征向量gi(i=1, 2, …, n)。
(3)

为了挖掘不相邻的局部特征之间相关性,分别对gi进行丢弃,根据丢弃的gi的不同,可以得到多组包含不同gi的局部特征。假设每次丢弃1个gi,并对gi进行遍历的丢弃,那么就会获得4组由不同的gi组成的局部特征向量Pn(n=1, 2, 3, 4)。
(4)

对于每组Pn将其分别通过多部件相关性进行训练。图 3为细粒度局部分支丢弃1个gi时的示意图。
图 3 细粒度局部分支 Fig. 3 Fine-grained local branch
图选项




对于每组Pn,由于都缺少了行人的某个关键部件,当对Pn挖掘相关性时,就会使原本不相邻的2个局部特征之间相互连接。通过利用不相邻部件之间的相关性,从而可以挖掘更多关键但非显著的潜在信息。基于此,进一步探索了局部尺度特征和全局尺度特征联合判别的有效性。具体的,对于每组Pn分别通过改变丢弃的尺度进行训练。通过实验可以发现,不论丢弃尺度为多少细粒度局部特征都有助于提高精确度。但由于不同数据集行人图像的边界框(Bounding Box)质量不同,不同尺度的特征嵌入的有效性也不相同,具体实验将在3.4节进行详细阐述。
2.4 损失函数 为了提高该网络学习行人特征表示的辨别能力,采用了基于softmax的ID-Loss和最大三元组损失作为训练阶段的损失函数,这2种函数被广泛的应用于各种行人重识别的方法。
首先将行人重识别当作一个分类任务。因此,笔者的目标是预测每个人的标签,通过优化分类模型学习行人的具体特征表示。对于第β个学习到的特征fβ,softmax loss阐述如下:
(5)

式中:Wk表示对应于第k类的权重;在训练中一个训练批次数量为NWyT表示对应于第y(ground truth)类的权重;训练数据集的分类数为L。不同于传统的softmax,抛弃了线性多分类中的bias[27],这有助于获得更好的分类性能。在训练的过程中将该损失用于全局特征DF,以及局部特征Pn(n=1, 2, 3, 4)。
对于所有的全局特征以及不进行丢弃的局部相关性特征{dmax, davg, fmax, favg, Gmax, Gavg}通过三元组损失训练来提高性能。使用hard triplet-loss[28]阐述如下:
(6)

fabfpbfnc分别为通过锚(Anchor)、积极(Positive)和消极(Negative)进行采样得到的特征,积极和消极是代表和锚有相同标签和不同标签的行人;α为控制类之间的距离。候选的三元组由距离最远的有相同标签的对和最近的有不同标签的对构成。最难的相同标签样本和不同标签样本分别在一个批次中,这个批次有P个标签的行人,每个标签有K张图片。损失函数鼓励最远的相同标签样本的距离小于最近的不同标签样本的距离。
3 实验 3.1 数据集 Market1501[29]是在清华大学校园中采集的数据集,图像来自于6个不同的摄像头,其中有一个摄像头为低分辨率。同时该数据集提供训练集和测试集。训练集包含12 936张行人图像,测试集包含19 732张行人图像。图像由检测器自动检测并切割,所以存在一些检测误差。训练数据中一共有751人,测试集中有750人。所以在训练集中,平均每类(每个人)有17.2张训练数据。
CUHK03[30]是在香港中文大学采集,行人图像来自2个不同的摄像头。该数据集提供机器自动检测和手动检测2个数据集。其中检测数据集包含一些检测误差,更接近实际情况。数据集总共包括1 467个行人的14 097张图片,平均每个人有9.6张训练数据。最初整个数据集被划分为20个随机分组用于交叉验证,但这是针对手工制作的方法而设计的。因此,笔者采用提出的新培训/测试协议[31]
DukeMTMC-ReID[32]是在杜克大学内采集,图像来自8个不同摄像头,行人图像的边框由人工标注完成。训练集包含16 522张图像,测试集包含17 661张图像。训练数据中一共有702人,平均每个人有23.5张训练数据。
以上3个数据集,采用目前行人重识别方法普遍使用的首中准确率(Rank-1)和平均匹配度(mAP)2种评价指标评估方法的性能。所有实验都会使用单一查询方式。此外,为简单起见不使用显著改善mAP的重新排序算法。
3.2 实验设置 为了从行人图像中获得全局和局部足够的信息,将所有图像的大小调整为288×144,并使用通过ImageNet[33]分类的ResNet-50作为骨干网络。与原始版本不同将res_conv4_1块之后的后续部分化为2个独立的分支,并与原始的ResNet-50共享相似的体系结构。将最后一个卷积层的stride从2设置为1,并通过水平移动,标准化和随机擦除来增强训练图像。批量大小设置为32,P=8,K=4,α=0.3,n=4。笔者的模型训练220个epoch。基础学习率设定为0.03,并在60个时期后衰减至0.003,130个时期后衰减至0.000 3直至训练结束。在每个批量中使用具有0.9动量的随机梯度下降(SGD)方法以更新参数。本文方法在pytorch框架上实现,并使用单个GTX1060 GPU进行训练,所有数据集共享与上述相同的实验设置。
3.3 现有方法的对比实验 本节中将所提方法与现有的先进的方法进行比较,以表示对于其他方法的优势,这些方法大多都是最近发布的方法,具体情况如表 1所示,针对每个数据集详细说明如下。
表 1 多尺度联合学习方法和其他方法性能对比 Table 1 Performance comparison of multi-scale joint learning method and other methods ?%
方法CUHK03Market1501 DukeMTMC-ReID
Labeled Detected
Rank-1 mAP Rank-1 mAP Rank-1 mAP Rank-1 mAP
基于部件IDE[15] 22.0 21.0 21.3 19.7 72.5 46.0 67.7 47.1
MGN[8] 68.0 67.4 66.8 66.0 95.7 86.9 88.7 78.4
PCB[3] 61.9 56.8 60.6 54.4 92.3 77.4 81.7 66.1
Pyramid[6] 78.9 76.9 78.9 74.8 95.7 88.2 89.0 79.0
GFLF-S[34] 76.6 73.5 74.4 69.6 94.8 88.0 89.3 77.1
基于注意力机制CASN[35] 73.7 68.0 71.5 64.4 94.4 82.8 87.7 73.7
M1tB[36] 70.1 66.5 66.6 64.2 94.7 84.5 85.8 72.9
Mancs[37] 69.0 63.9 65.5 60.5 93.1 82.3 84.9 71.8
HACNN[24] 44.4 41.0 41.7 38.6 91.2 75.7 80.5 63.9
其他DPFL[38] 43.0 40.5 40.7 37.0 88.9 73.1 79.2 60.0
BDB[39] 73.6 71.7 72.8 69.3 94.2 84.3 86.8 72.1
SVDNet[40] 40.9 37.8 41.5 37.3 82.3 62.1 76.7 56.8
本文 多尺度联合 80.7 77.0 78.0 73.4 95.9 89.1 90.0 80.4


表选项







3.3.1 Market1501数据集 本文方法在该数据集上实现了95.9%Rank-1和89.1%mAP。对比仅仅使用了单一局部特征的PCB[3],本文方法分别在Rank-1和mAP提高了3.6%和11.7%。MGN虽然考虑了多个分支结构,但是却忽略了局部信息之间的联系,作为该数据集上最好的方法分别提高了0.2%Rank-1,2.2%mAP。
图 4展示了查询前10名的结果。分别选择了行人被遮挡、背景复杂、图片模糊等复杂条件下情况。第1、2排行人的查询图像在被小包遮挡和背景杂乱的情况下,网络仍然可以健壮的表示其判别信息。第3行查询图像是在低分辨率下进行捕获的,丢失了大量精细的信息,但本文网络却可以通过挖掘局部特征之间的潜在联系,找出正确的行人图像。最后一位行人,背景十分杂乱,身体大部分被自行车遮挡且照片也十分的模糊。但本文方法仍然有较好的效果。可以看到,在Rank-9中即使行人出现了较大的不对齐现象,仍然可以将其正确的找出,这得益于细粒度局部分支对网络的影响。
图 4 Market1501数据集部分图像查询结果 Fig. 4 Partial image query results on Market1501 dataset
图选项





3.3.2 DukeMTMC-ReID数据集 可以看到本文方法仍然在Rank-1和mAP达到了最好的效果分别为:90.0%和80.4%。采用金字塔模型的Pyramid最接近本文方法,但仍然低于1.0%Rank-1和1.4%mAP。和只考虑局部特征的PCB相比,本文方法分别超过PCB的8.3% Rank-1和14.3%mAP。

3.3.3 CUHK03数据集 在新协议下的该数据集是现在最具有挑战的数据集之一,该数据集的边界框用2种不同的方法进行标注分别为CUHK03 Labeled和CUHK03 Detected。该方法在Labeled上达到了80.7%Rank-1和77.0%mAP,在Detected上达到了78.0%Rank-1和73.4%mAP。本文方法在Labeled上相比于其他方法,提高了1.8%的Rank-1。对比同样采用多分支结构MGN将其原有性能提高了大约20%,这得益于本文多尺度联合学习方法,增强了不同粒度联合判别的有效性。
3.4 消融实验 为了验证本文方法每个组件的有效性以及探索细粒度局部分支丢弃尺度问题。使用单一查询模式在Market1501、DukeMTMC-ReID和CUHK03这3个数据集上设计了几个不同设置的消融实验。各个指标的结果Rank-1、mAP显示在表 2中。CG表示粗粒度全局分支,FG表示细粒度全局分支,FP表示细粒度局部分支,1、2分别表示丢弃尺度为1、2。所有结果只更改一个设置,其余设置均与默认设置相同。
表 2 多尺度联合学习方法消融实验 Table 2 Ablation experiment of multi-scale joint learning method ?%
方法CUHK03 Market1501 DukeMTMC-ReID
Labeled Detected
Rank-1 mAP Rank-1 mAP Rank-1 mAP Rank-1 mAP
基线 59.1 54.2 55.1 50.2 93.5 82.4 85.3 72.0
基线+CG 69.8 66.1 66.9 62.6 94.8 86.9 87.9 76.7
基线+FG 70.9 67.1 68.2 63.3 95.1 87.3 88.2 77.9
基线+CG+FG 76.4 72.1 73.0 68.4 95.3 88.7 88.7 79.1
基线+CG+ FP1 78.4 75.1 76.0 72.2 95.6 88.7 89.1 78.5
基线+CG+ FP2 78.7 75.2 75.5 71.5 95.6 89.0 89.2 79.6
基线+ FG + FP1 77.3 73.1 76.4 71.8 95.6 88.5 89.5 78.9
基线+ FG + FP2 77.6 74.2 75.0 71.4 95.7 88.8 89.5 79.8
基线+CG+FG+FP1 80.7 77.0 78.0 73.4 95.9 88.8 89.6 79.2
基线+CG+FG+FP2 80.8 76.7 76.0 71.8 95.9 89.1 90.0 80.4


表选项






首先,在表 2中显示了不同组件对本文模型的消融实验。在表格的前三行可以看到,为了验证单个分支的有效性,单独使用粗粒度全局分支或细粒度全局分支,都显著提高了行人重识别的性能。特别的在CUHK03数据集上,使用细粒度全局分支分别使mAP和Rank-1的精确度提高了12.9%和11.8%。第四行将它们联合使用,进一步提高了精确度。为了验证不同粗细粒度分支的组合对模型性能的影响,从第五行开始增加了细粒度局部分支,分别对不同分支相互组合进行实验。可以看出不论以哪一种方式组合相比于不使用该分支,都有助于模型性能的提升。由于细粒度局部分支利用了不相邻部件间的相关性,进一步挖掘了各局部关键但不显著的信息。相比于不同粒度的全局分支,细粒度局部分支更有助于模型鲁棒性的提高,对模型的性能有更加显著的提升。
其次,分析了细粒度局部分支丢弃不同尺度的部件情况。可以发现,不论以何种尺度丢弃部件来挖掘更多关键但非显著的潜在信息。相比于只使用细粒度全局分支,都有助于增强和全局尺度特征联合判别的有效性。特别的,相比于不使用细粒度局部特征,在DukeMTMC-ReID数据集上进一步提高了1.3% Rank-1和1.3% mAP。根据实验可以发现当丢弃尺度为2时,在Market1501、DukeMTMC-ReID和CUHK03 Labeled数据集上更有助于增强局部尺度特征和全局尺度特征联合判别的有效性。对于CUHK03 Detected数据集,丢弃尺度为1更有效。在行人图像对齐较好的Market1501、DukeMTMC-ReID和CUHK03 Labeled数据集,相比于丢弃尺度为1,丢弃尺度为2时由于相关联的行人部件更少,更有助于模型挖掘更多关键但非显著的信息,使得行人特征更有鲁棒性。而CUHK03 Detected数据集由于行人图像存在大量不对齐的现象,减小丢弃尺度有助于避免具有相似部件的不同行人容易混淆的问题。
接着,笔者基于热力图可视化了一些图像在不同分支下模型关注的区域情况。如图 5所示,第1列为输入到模型的原始图像,第2至5列以基线为标准并依次递增不同的分支,展示了不同情况下的热力图。可知,当添加了粗粒度全局分支后,由于融合了不同层次的语义信息,增强了模型关注区域的丰富性。当进一步增加了细粒度全局分支后,模型将相邻部件之间相互关联,在保证区域丰富性的同时增强了相邻部件之间的关注度以增强相似部件间的辨别。最后当同时利用3个分支时,通过利用不相邻部件之间的相关性,挖掘了更多关键但非显著的信息,增强了关注区域的鲁棒性。
图 5 Market1501数据集部分图像热力图 Fig. 5 Partial image heatmap on Market1501 dataset
图选项




4 结束语 本文提出了多尺度联合学习方法,通过3个分支网络,分别提取行人的粗粒度全局特征、细粒度全局特征和细粒度局部特征,对行人不同粒度下的信息联合学习,使其特征更具有区分性。此外通过挖掘各个部件之间不同尺度下的潜在关系,联合全局特征形成了更有鉴别性的行人特征。大量实验证明,本文方法不仅可以在3个主流的行人重识别数据集上实现最好的结果,而且和现有方法相比可以将性能大幅度提高。

参考文献
[1] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. DOI:10.1038/nature14539
[2] ZHAO H, TIAN M, SUN S, et al. Spindle Net: Person re-identification with human body region guided feature decomposition and fusion[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 907-915.
[3] SUN Y, ZHENG L, YANG Y, et al. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 480-496.
[4] ZHENG L, HUANG Y, LU H, et al. Pose-invariant embedding for deep person re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(9): 4500-4509. DOI:10.1109/TIP.2019.2910414
[5] WEI L, ZHANG S, YAO H, et al. GLAD: Global-local-alignment descriptor for pedestrian retrieval[C]//Proceedings of the 25th ACM International Conference on Multimedia. New York: ACM Press, 2017: 420-428.
[6] ZHENG F, DENG C, SUN X, et al. Pyramidal person re-identification via multi-loss dynamic training[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 8514-8522.
[7] FU Y, WEI Y, ZHOU Y, et al. Horizontal pyramid matching for person re-identification[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2019: 8295-8302.
[8] WANG G, YUAN Y, CHEN X, et al. Learning discriminative features with multiple granularities for person re-identification[C]//Proceedings of the 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 274-282.
[9] WANG Z, JIANG J, WU Y, et al. Learning sparse and identity-preserved hidden attributes for person re-identification[J]. IEEE Transactions on Image Processing, 2019, 29(1): 2013-2025.
[10] ZENG Z, WANG Z, WANG Z, et al. Illumination-adaptive person re-identification[J]. IEEE Transactions on Multimedia, 2020, 22(12): 3064-3074. DOI:10.1109/TMM.2020.2969782
[11] WANG Z, WANG Z, ZHENG Y, et al. Beyond intra-modality: A survey of heterogeneous person re-identification[EB/OL]. (2020-04-27)[2020-07-23]. https://arxiv.org/abs/1905.10048v4.
[12] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2005: 886-893.
[13] LIAO S, HU Y, ZHU X, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 2197-2206.
[14] KOESTINGER M, HIRZER M, WOHLHART P, et al. Large scale metric learning from equivalence constraints[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2012: 2288-2295.
[15] ZHENG L, YANG Y, HAUPTMANN A G. Person re-identification: Past, present and future[EB/OL]. [2020-07-23]. https://arxiv.org/abs/1610.02984.
[16] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778.
[17] SU C, LI J, ZHANG S, et al. Pose-driven deep convolutional model for person re-identification[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 3980-3989.
[18] SUH Y, WANG J, TANG S, et al. Part-aligned bilinear representations for person re-identification[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 418-437.
[19] XU J, ZHAO R, ZHU F, et al. Attention-aware compositional network for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 2119-2128.
[20] SARFRAZ M S, SCHUMANN A, EBERLE A, et al. A pose-sensitive embedding for person re-identification with expanded cross neighborhood re-ranking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 420-429.
[21] ZHENG W S, LI X, XIANG T, et al. Partial person re-identification[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2015: 4678-4686.
[22] LUO H, JIANG W, ZHANG X, et al. AlignedReID++: Dynamically matching local information for person re-identification[J]. Pattern Recognition, 2019, 94: 53-61. DOI:10.1016/j.patcog.2019.05.028
[23] SUN Y, XU Q, LI Y, et al. Perceive where to focus: Learning visibility-aware part-level features for partial person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 393-402.
[24] LI W, ZHU X, GONG S. Harmonious attention network for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 2285-2294.
[25] LIU X, ZHAO H, TIAN M, et al. HydraPlus-Net: Attentive deep features for pedestrian analysis[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 350-359.
[26] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 815-823.
[27] WANG F, XIANG X, CHENG J, et al. Normface: L2 hypersphere embedding for face verification[C]//Proceedings of the 25th ACM International Conference on Multimedia. New York: ACM Press, 2017: 1041-1049.
[28] HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification[EB/OL]. (2017-11-17)[2020-07-23]. https://arxiv.org/abs/1703.07737.
[29] ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: A benchmark[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2015: 1116-1124.
[30] LI W, ZHAO R, XIAO T, et al. DeepReID: Deep filter pairing neural network for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2014: 152-159.
[31] ZHONG Z, ZHENG L, CAO D, et al. Re-ranking person re-identification with k-reciprocal encoding[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 1318-1327.
[32] ZHENG Z, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 3754-3762.
[33] DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2009: 248-255.
[34] PARK H, HAM B. Relation network for person re-identification[EB/OL]. (2017-08-22)[2020-07-23]. https://arxiv.org/abs/1701.07717.
[35] ZHENG M, KARANAM S, WU Z, et al. Re-identification with consistent attentive siamese networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 5735-5744.
[36] YANG W, HUANG H, ZHANG Z, et al. Towards rich feature discovery with class activation maps augmentation for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 1389-1398.
[37] WANG C, ZHANG Q, HUANG C, et al. Mancs: A multi-task attentional network with curriculum sampling for person re-identification[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 365-381.
[38] CHEN Y, ZHU X, GONG S. Person re-identification by deep learning multi-scale representations[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 2590-2600.
[39] DAI Z, CHEN M, GU X, et al. Batch DropBlock network for person re-identification and beyond[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 3690-3700.
[40] SUN Y, ZHENG L, DENG W, et al. SVDNet for pedestrian retrieval[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 3820-3828.


相关话题/数据 图像 网络 信息 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 结合颅骨形态特征与神经网络的民族判别*
    中国是一个多民族国家,不同的民族具有独特民族文化和风俗,由于生存环境、遗传等因素使得各民族相貌特征也存在一定的差异。颅骨是法医人类学、考古学、面貌复原等领域的重要研究对象,由于颅骨本身骨质坚硬、不易受损的特性,可以更好地保存特征,从而通过颅骨识别性别、种族或者民族逐渐成为当前研究热点。在法医人类学领 ...
    本站小编 Free考研考试 2021-12-25
  • 基于噪声柯西分布的社交图像标签优化与标注*
    近年来随着社交网络的蓬勃发展,海量的社交网络图像在被网络用户共享和浏览。海量的图像数据使得精确检索变得困难,故现在迫切需要有效的图像检索技术。基于标签的图像检索是通过建立图像和标签之间的语义关系来进行的。图像标注对图像检索十分重要。目前,用户提供的标签虽然可以在一定程度上描述视觉内容信息,但是这些标 ...
    本站小编 Free考研考试 2021-12-25
  • 融合语义信息的视频摘要生成*
    随着视频拍摄、存储技术和网络传输的飞速发展,互联网上的视频数据呈爆炸性增长[1]。但由于生活节奏越来越快,观众在没有确定视频是否符合他们的期望前,不会轻易花太多时间观看完整视频,观众更期望可以通过视频预告等形式对视频内容产生大致的了解。视频摘要任务从原始视频中提取具有代表性和多样性的简短摘要,使观看 ...
    本站小编 Free考研考试 2021-12-25
  • 基于信息素启发狼群算法的UAV集群火力分配*
    随着无人机(UnmannedAerialVehicle,UAV)技术和人工智能的快速发展,利用大量具有自主作战能力且成本低廉的UAV组成UAV集群突破对手防御体系,对目标实施饱和打击以及对入侵机群进行空中拦截是UAV集群作战的重要手段[1-2]。美军已经开展了多项关于UAV集群研究及试验验证,并将U ...
    本站小编 Free考研考试 2021-12-25
  • 基于趋势符号聚合近似的卫星时序数据分类方法*
    时间序列是按照时间排序的一组随机变量,其通常是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果[1]。在卫星的测控管理过程中,会产生大量的遥测数据,它们以时间序列的形式存储在数据库中。而运行状态监测系统传感器产生的监测数据通过遥测系统传输至地面控制中心,此类数据是地面判断在轨卫星运行 ...
    本站小编 Free考研考试 2021-12-25
  • 带空间结构的人工神经网络建模方法*
    空间自回归模型自20世纪70年代由Anselin和Cliff等提出并推广以来[1-2],日益受到重视。通过引入空间权重矩阵将空间效应引入传统回归模型,空间自回归模型能够更加全面地分析各种变量之间的变化规律,增强模型的解释能力[3]。目前,空间自回归模型已广泛应用于环境问题[4]、区域经济增长[5]等 ...
    本站小编 Free考研考试 2021-12-25
  • 高强度弹性合金的微孔铣削实验研究*
    近年来,微细切削技术愈加受到重视,成为新兴的先进制造技术,在加工领域获得广泛应用[1]。微细切削加工是指利用微型切削刀具(直径1mm以下的铣刀或钻头、微型车刀等)对微小尺寸(几微米到几毫米)的工件进行材料切削去除,并且其切削深度为微米级的切削加工方法[2-4]。一般,微细切削加工可获得较高的加工精度 ...
    本站小编 Free考研考试 2021-12-25
  • 基于改进Faster R-CNN的SAR图像飞机检测算法*
    合成孔径雷达(SyntheticApertureRadar,SAR)与光学和红外等被动式传感器相比,具有全天时、全天候、高分辨率的独特优势,在战场态势感知、典型目标识别和精确制导等军事领域具有突出的战略意义。飞机作为一种典型的人造目标,军事价值极其重要,高效、准确获取机场、空域等位置的飞机目标信息, ...
    本站小编 Free考研考试 2021-12-25
  • 多表冗余惯导数据融合算法及在自对准中的应用*
    激光陀螺捷联惯导系统(LaserStrapdownInertialNavigationSystem,LSINS)具有动态范围广、耐冲击振动、可靠性高等优点,远征一号、嫦娥探测器等空间飞行器及多数现役火箭均采用LSINS提供姿态、位置等导航信息。多表冗余惯导系统通过仪表冗余设计,显著提高系统的可靠性, ...
    本站小编 Free考研考试 2021-12-25
  • 基于级联注意力机制的孪生网络视觉跟踪算法*
    视觉跟踪是计算机视觉领域的难点问题之一,是实现更高级视觉理解与场景分析的基础[1]。视觉跟踪技术广泛应用在视频监控、人机交互、机器人、视频编辑和无人驾驶等领域。在仅给定初始帧目标位置和大小信息的条件下,视觉跟踪任务需要实现对后续帧中运动目标持续且稳定的跟踪。由于目标在运动过程中存在着尺度变化、旋转、 ...
    本站小编 Free考研考试 2021-12-25