基于跨尺度特征聚合网络的多尺度行人检测*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

随着人工智能与计算机视觉技术的发展以及人们对公共安全领域的日益重视，智能视频监控技术已经发展为当前的研究热点。行人检测是智能化视频监控系统中的核心关键技术之一，并为后续的更高层次的视频分析与理解提供可靠的数据支持。因此，行人检测技术直接影响着智能视频监控的智能化水平，具有重要的研究意义和应用价值。
近年来，基于深度卷积神经网络的通用目标检测^[1-3]取得了巨大的成功，尤其是Girshick等提出的基于R-CNN^[4]目标检测模型，代替了手工设计特征^[5-6]极大地提高了行人检测的性能。然而，在视频监控系统中行人存在不同空间尺度的差异，尤其是大尺度、低分辨率的行人目标对行人检测技术带来了极大的挑战。为解决行人在空间尺度变化下的检测问题，目前主要分为2种策略：图像金字塔^[7-8]和特征金字塔^{[2, 9-10]}。基于图像金字塔的多尺度行人检测方法通过采样输入图像得到不同尺度的图像金字塔集合，以预测最终的检测结果。其中，具有代表性的图像金字塔的尺度归一化网络(SNIP)^[7]及其加强版具有高效重采样的图像金字塔的尺度归一化网络(SNIPER)^[8]，其选取若干个正样本区域和负样本区域作为图像金字塔。然而，这种基于图像金字塔的行人检测方法在时间和内存方面的消耗是巨大的，限制了在实时智能监控视频任务中的应用。
为兼顾精度与速度，基于特征金字塔的多尺度方法被广泛应用到目标检测。与图像金字塔相比，特征金字塔需要的内存空间和计算量要少的多，并且结构简单，能够有效地嵌入到各类目标检测器中。其中，单镜头多盒检测器(SSD)^[2]就是基于视觉几何组网络(VGG-16)提取不同分辨率的多层特征图集合用于多尺度目标检测。感受野块网络(RFB-Net)^[9]在SSD网络的基础上采用2个模拟人类视觉感受野的特征提取模块替换原有卷积层，并使用6个不同层级的特征图用于检测。类似的，渐进定位网络(ALFNet)^[10]在ResNet-50^[11]后3个阶段的最后一个卷积层以及新添加卷积层上堆叠多个目标分类和空间位置坐标回归模块，形成渐进定位网络，从而实现对多尺度目标精确定位。
大量研究表明^[12-13]，通过添加横向连接和自上而下信息传播路径进行特征融合，生成的特征表达能力更强。特征金字塔网络(FPN)^[14]通过自上而下的跨层路径有效地融合了高层特征所具有的鲁棒语义信息生成特征金字塔网络。路径聚合网络(PANet)^[15]基于FPN网络结构添加自底向上的扩展路径，以精确的定位信息增强整个特征金字塔表达能力，有效提高了目标分割的准确度。多级特征金字塔目标检测器(M2Det)^[16]提出了多层次的特征金字塔网络，使用多层次重复的网络结构生成具有更强表达能力的特征金字塔。受上述研究工作的启发，为充分利用不同尺度特征层在视觉语义信息上的互补性，本文提出了跨尺度特征聚合网络(TS-FAN)模块, 在几乎没有增加任何时间耗费的前提下实现了不同层次特征信息的聚合，以增强特征金字塔的语义鲁棒性和定位精确性。
另一方面，为检测视频图像中的不同尺度目标，Faster R-CNN^[1]基于多尺度区域建议网络(RPN)生成多尺度初始候选目标区域检测多尺度目标。进而FPN利用多个RPN子网络来尽可能的覆盖图像中目标的所有尺度，但这种方式忽略了不同路径RPN网络生成的候选目标集存在行人分类与定位回归之间的不一致性，从而影响多尺度行人的检测性能。为解决这一问题，本文引入一种基于多路径RPN的尺度补偿策略来有效处理多尺度目标，以提高不同尺度行人的召回率。受尺度自适应的三叉戟网络(TridentNet)^[17]多分支检测的启发，为避免极端尺度行人对不同路径模型训练影响，本文利用尺度感知的策略使不同路径RPN检测与特征层感受野相匹配的多尺度行人候选框，并将不同路径RPN生成的候选目标区域单独处理，避免了不同路径下不同候选目标相互之间产生的影响。同时，根据Li等^[18]的研究，不同尺度行人实例在不同特征层上具有不同的特征表达，因此本文对不同尺度行人使用不同的特征映射函数，为多路径RPN生成的不同尺度候选目标区域集匹配相适应的聚合特征层，形成多尺度行人检测网络。
综上所述，本文主要贡献如下：
1) 引入一种基于多路径RPN的尺度补偿策略，依据不同分辨率行人实例构建多路径RPN网络，使各路径RPN网络分支基于有效感受野大小自适应地生成候选目标尺度集，以提高多尺度目标的召回率，并通过非极大值抑制的方法得到多尺度的目标候选区域集合。
2) 根据不同分辨率特征层在视觉语义信息和精确定位信息上的差异性，本文提出了TS-FAN模块，通过跨层连接聚合多尺度特征信息，极大地缩短了底层特征信息传播到顶层特征层的路径，增强了特征金字塔的语义鲁棒性和定位精确性。
3) 基于尺度感知的端到端训练方案，将多路径RPN中得到的不同尺度候选目标集映射到与之匹配的聚合特征层中进行特征提取，形成多尺度行人检测网络。实验结果表明，在Caltech^[19]和ETH^[20]数据集上明显优于目前一流行人检测方法TLL-TFA^[21]，尤其对大尺寸、低分辨率行人的检测性能提升较为显著。
1 TS-FAN网络结构 TS-FAN总体结构如图 1所示，主要包含3个部分：基于尺度补偿策略的多路径RPN、TS-FAN模块和多尺度行人检测网络。TS-FAN网络模型基于端到端的训练方式联合不同路径RPN子网络和TS-FAN模块，通过多路径RPN产生得到的行人候选区域自适应感知其在相应特征聚合网络模块上的有效特征，并采用尺度感知的策略形成多尺度行人检测网络。图中：C₁~C₅分别为ResNet-50的5个不同阶段；H₃~H₅分别为不同分辨率的聚合特征。

图 1 TS-FAN总体网络架构 Fig. 1 TS-FAN overall network architecture

图选项

1.1 基于尺度补偿策略的多路径RPN RPN在Faster R-CNN^[1]中被提出，因其引入了多尺度滑动窗口遍历特征图的每个空间位置，极大地提高了目标检测的召回率。然而，RPN只在某一深度卷积特征层上提取候选目标，其固定尺寸的卷积核限制了单一特征层的视觉感受野大小。对此，FPN^[14]在多个特征层上生成多尺度候选目标，进一步提升了目标检测的召回率。在此基础上，本文开展了对多路径RPN行人召回率的实验分析，发现不同深度卷积特征层对不同尺度行人候选目标召回率具有较大的性能差异。大尺寸行人在高层特征图具有较高的召回率，而小尺寸行人在分辨率高的低层特征具有较高的召回率。为此，根据各深度卷积特征层的有效感受野大小^[22]，本文采用尺度补偿策略，将行人候选目标划分为3个路径的RPN来适应行人的多尺度变化，如图 2所示。其中左、右分支作为辅助检测网络，中间分支则为主检测网络。

图 2 多路径RPN Fig. 2 Multipath region proposal network

图选项

本文使用ResNet-50作为特征提取基础网络，定义C₃、C₄、C₅代表基础网络结构中每个阶段的最后一个残差块res3d、res4f、res5c。不同分支RPN中设置有效真实标注框的高度(行人实例高度像素值)分别在小于50像素、所有像素、大于100像素范围内，跨越该范围的真实标注视为无效标注，不参与该RPN分支训练。由于每个RPN路径针对不同尺度的行人目标进行训练，所以不同RPN路径使用独立损失函数，其中RPN多任务损失函数定义为

(1)

式中：l_cls为分类损失采用交叉熵损失函数^[1]；l_loc为位置回归损失采用Smooth-L1损失函数^[1]；ф为一个超参数；y=1表示只有正样本进行位置回归。基于单个RPN损失函数，给出总体损失函数，其定义为

(2)

式中：L₁、L₂、L₃分别为左、中、右分支的多任务损失函数。
基于上述多路径RPN得到具有不同尺度范围的候选区域集P={P_s, P_a, P_l}，其中P_s和P_l分别为小尺度集和大尺度集，它们是对所有尺度集P_a的尺度补偿。对于上述候选区域集使用阈值为0.7的非极大值抑制减少重叠候选目标框，为目标识别阶段提供高质量的候选区域。
1.2 跨尺度特征聚合网络特征金字塔被广泛应用到多尺度检测的模型中，如图 3所示，SSD^[2]和STDN^[23]网络都是基于自底向上的信息传播方式生成不同空间分辨的特征金字塔。然而这种方法没有考虑到不同层次信息的互补性^[24-26]，TLL-TFA^[21]、CSP^[27]等利用反卷积等上采样操作将不同层次的特征层归一化到同一分辨率，并通过特征通道叠加的方式进行特征融合。FPN^[14]和PANet^[15]模型构建了自上而下和自底向上的信息传播路径，融合不同层次特征层作为目标检测特征层。而M2Det^[16]提出了多层次的FPN，使用更加复杂的网络结构生成具有更强表达能力的特征金字塔。然而这些方法都是通过复杂的网络构建更多的特征金字塔，从而得到更加鲁棒的特征表示，其忽略了低层次特征的重要性，丢失大量的细节特征信息。

图 3 多种特征金字塔模型示意图 Fig. 3 Schematic diagram of multiple feature pyramid models

图选项

本文提出的TS-FAN模块是在FPN网络模型的基础上通过添加自底向上快速路径，缩短低层次高分辨率特征图到高层次特征图的传播路径，以有效聚合低层特征图中的局部细节特征信息。本文在自底向上的特征编码路径引入平均池化层，来丰富用于检测特征层的特征信息，实现不同尺度卷积特征的增强表示。
本文提出的TS-FAN模块有效地融合了自顶向下、由底向上和同层映射三种路径特征，如图 4所示。在特征融合之前，首先使用1×1卷积核对当前特征层C_i和上、下相邻特征层C_i+1、C_i-1(i?{3, 4, 5})实现特征维度的统一，得到空间分辨率不同但是特征通道数相同的特征层C′ _i+1、C′ _i、C′ _i－1。在自上而下的特征传播路径中，使用双线性插值的上采样方法将C′ _i+1特征层的空间分辨率扩大到原来的2倍，并且保持特征维度不变，保留其高层特征图中较为鲁棒的语义特征信息。另一方面，为保留低层有利于目标定位较为敏感的局部位置信息，在自底向上的特征增强路径中，采用平均池化方法对C′ _i－1层特征层下采样缩放至原来一半的空间分辨率大小，并且不改变其特征维度，保留其低层特征图中较为精确的定位信息。特征聚合通过对特征图逐像素相加的方式实现，其能够增加特征的信息量，但特征维度本身没有增加，这对于最终的图像分类是有益的。最后为减少上采样过程中的混叠效应，添加了一个3×3卷积处理融合后的特征图生成最终的具有强表达能力的特征图。TS-FAN模块的计算公式为

图 4 特征聚合模块 Fig. 4 Feature aggregation module

图选项

(3)

式中：c为特征通道维度；K_i为3×3卷积核；“*”为卷积操作；Avgpooling为平均池化操作；Upsampling为上采样操作；H_i为TS-FAN模块得到的增强特征表示。
1.3 多尺度行人检测网络本文根据不同分辨率的特征层对于不同尺度行人的有效性，通过多尺度检测方法联合多路径RPN生成的多尺度行人候选集P_i={P_s, P_a, P_l}和TS-FAN模块得到的聚合特征H_i={H₃, H₄, H₅}提取候选区域特征编码。如多路径RPN中的主检测分支生成P_a集合中的行人候选区域匹配到相应的TS-FAN生成的聚合特征H₄，从而得到该特征层的感兴趣区域，利用RoI-pooling归一化提取的特征编码得到7×7×512特征，将提取的特征编码由全连接层变换到1 024维高维特征向量，精确计算候选区域的置信度分数和4个坐标偏移量，得到最终的检测结果，其他2个辅助检测分支类似。对于不同尺度集的候选区域使用对应的检测分支，每个检测分支训练都有真实类别标注p^*和真实标注框b^*=(b_x^*, b_y^*, b_w^*, b_h^*)，b_x^*、b_y^*、b_w^*和b_h^*分别为真实标注框的左下角坐标和宽、高。本文单分支行人检测训练的损失函数定义如下：

(4)

式中：L_cls为分类交叉损失函数；L_reg为候选目标的回归损失函数，L_reg(b, b^*)=R(b－b^*)，R为Smooth-L1损失函数；p和b=(b_x, b_y, b_w, b_h)为网络候选目标框置信度分数和空间位置；λ为平衡分类与回归任务的损失函数，本文中λ=10。预测得到的候选目标框与任何一个真实标注框的重叠度大于0.5时p^*=1，否则p^*=0。多尺度行人检测的具体实现过程如算法1所示。
算法1 ??基于TS-FAN的多尺度行人检测。
输入：训练样本U={(p_i^*, b_i^*)}_i=1^N, 迭代次数K。
输出：网络模型权重ω和ω_b。
初始化:加载ImageNet数据集上的预训练权重，为新添加的卷积层使用高斯函数初始化权重。设定学习率ζ_ω和ζ_ωb。
迭代循环：
for t=1 to T do
????随机样本mini-batches: B
????for mini-batch do
????????基于尺度补偿的多路径RPN：

????????多路径RPN输出结果：P_i={P_s, P_a, P_l}
????????TS-FAN模块：

????????TS-FAN模块输出：

????????多尺度行人检测网络：

????????使用随机梯度下降(SGD)优化方法更新ω和ω_b:

end for
????end for
????输出：ω和ω_b。
其中：t和T分别为当前迭代次数和总迭代次数；L_far、L_medium、L_near分别为大尺寸、中尺寸、小尺寸分支路径的损失函数；ζ_ω和ζ_ωb分别为权重的学习率和偏置项的学习率。
2 实验与分析 2.1 数据集与实验设置本节在2个公开基准数据集Caltech和ETH上测试本文的TS-FAN方法对多尺度行人检测的有效性。本文基于Caltech评估标准^[19]：平均每幅图像假阳性(FPPI)在[10^-2, 10⁰]之间的行人漏检率，用MR^-2表示。依据Caltech测试集数据划分标准^[19]，划分为：Reasonable子集(行人高度大于50像素和可见度在65%以上)；All子集(高度最小为20像素和可见度在20%以上)；Large、Near、Medium和Far子集分别表示行人高度范围为大于100像素、大于80像素、30~80像素之间和20~30像素之间的测试子集。设置学习率为0.001、权重衰减为0.000 5、梯度更新权重为0.9，在单GPU上每个mini-batch使用2张图片，选择使用SGD优化器。实验所使用环境为Ubuntu14.0、caffe2、CUDA8.0.61、python2.7.12，硬件配置为NVIDIA GeForce GTX 1080Ti(一块)、Intel(R)Xeon(R) CPU E5-2609v4@1.70 GHz×16。
2.2 消融实验
2.2.1 RPN尺度补偿策略的重要性为验证基于尺度补偿策略的多路径RPN对多尺度行人候选目标生成的有效性，本文在Caltech数据集上通过RPN获取300个目标候选框，以评估行人检测的召回率(表示为R³⁰⁰)。本实验设置预测目标框与真实标注框重叠度阈值大于0.5即为判断为正样本，否则为负样本。
首先，在ResNet-50的不同层次特征层(C₃、C₄、C₅)中引入RPN，P₃₄表示为FPN网络中联合使用P₃、P₄特征层，C₃₄表示为联合使用C₃、C₄特征层，其他依次类推。从表 1数据可以看出，小尺寸的行人在高分辨率的特征层上具有较高的召回率，如C₃要比C₅表现得更好。而在C₄层，该层能够更好地兼顾不同尺度行人实例，对于多尺度检测表现出良好的效果，但对于小尺寸行人实例召回率仅为75.2%，这意味着单卷积层的RPN并不能有效覆盖图像中行人实例的所有尺度。本文引入多路径RPN尺度补偿策略提取多尺度目标候选框，在整个Caltech多尺度行人集合上取得了97.2%的行人召回率。而且从表 1中还可以看到，在卷积特征层上联合多路径RPN生成行人候选目标比在FPN中更为有效，其原因可归结为经过卷积后的特征层比融合后的FPN特征含有更多的局部细节信息。
表 1 在Caltech数据集上对于RPN的消融实验 Table 1 Ablation experiment of RPN on Caltech dataset

特征层	R³⁰⁰/%
特征层	All子集	Far子集	Medium子集	Near子集
C₃	87.7	71.5	90.6	91.9
C₄	92.8	75.2	95.9	97.7
C₅	82.4	59.7	85.4	95.2
P₃₄	95.5	89.1	96.8	97.3
C₃₄	95.3	93.7	95.7	97.9
P₄₅	92.9	76.2	96.3	97.3
C₄₅	93.3	77.3	97.7	97.9
P₃₄₅	93.7	91.1	94.5	93.4
C₃₄₅	97.2	93.7	97.7	97.9

表选项

2.2.2 跨尺度聚合特征对于行人检测的有效性为验证本文TS-FAN模块对行人检测的有效性，本节将其与FPN的行人检测结果进行了实验对比。表 2中的Proposal为单路径RPN的输入，如FPN-P3和TS-FAN-H3分别表示FPN网络和TS-FAN网络在ResNet-50第3阶段检测，其余类似，TS-FAN-H3H4H5表示多分支检测。从表 2中可以观察到，TS-FAN模块TS-FAN-H3和TS-FAN-H4相较于FPN的FPN-P3和FPN-P4在Caltech数据集上均有明显的检测性能提升。尤其是TS-FAN-H3比FPN-P3在Caltech的Reasonable、Near、Medium子集上的行人漏检率MR^-2降低了17.45%、28%、11.25%，TS-FAN-H4相对于FPN-P4在Far子集上的行人漏检率MR^-2提升了9.91%。这可归因于聚合低层次特征的细节信息有利于提升行人的检测效果。
表 2 Caltech数据集上验证跨尺度聚合特征的有效性 Table 2 Verification of validity of trans-scale aggregation features on Caltech dataset

方法	Proposal	MR^-2/%
方法	Proposal	Reasonable子集	Near子集	Medium子集	Far子集
FPN-P3	C₃	31.29	43.31	31.75	54.06
TS-FAN-H3	C₃	13.84	15.31	20.50	52.80
FPN-P4	C₄	5.33	0.72	24.65	75.41
TS-FAN-H4	C₄	5.12	0.47	20.08	65.50
FPN-P5	C₅	28.45	2.05	75.82	100.00
TS-FAN-H5	C₅	37.96	1.97	82.73	100.00
TS-FAN-H3H4H5	C₄	6.16	1.57	17.24	50.38
TS-FAN-H3H4H5	C₃₄₅	5.53	0.47	13.76	47.30

表选项

值得关注的是在FPN-P5加入低层次特征后，TS-FAN-H5只在Caltech的Near测试子集上表现出性能提升，其原因可归结为该特征层分辨率较低，更加倾向于大尺寸行人实例的检测。而且表 2中联合各跨尺度聚合特征在Caltech的Reasonable和Near测试子集上表现效果略低于单跨尺度聚合特征，而在Medium和Far测试子集上行人漏检率MR^-2为17.24%和50.38%，明显优于单跨尺度聚合特征。这是由于低层次特征的加入，使得网络更加关注中、小尺度行人。最后，本文相对于单路径RPN，在多路径RPN下联合各跨尺度聚合特征TS-FAN-H3H4H5，能够更有效地检测多尺度行人实例，在Reasonable、Near、Medium、Far测试子集上行人漏检率MR^-2分别达到5.53%、0.47%、13.76%、47.30%。其在不同尺度行人的检测性能上均有明显的提升，其原因可归结为多路径RPN为第二阶段行人识别和预测行人目标包围框提供了高召回率、高质量行人候选区域集。
2.3 与目前一流行人检测方法的比较本节为横向对比本文方法对多尺度行人检测的有效性，首先在Caltech测试数据集上与目前表现较好的行人检测方法FasterRCNN+ATT^[28]、RPN+BF^[29]、AdaptFasterRCNN^[30]、F-DNN+SS^[31]、PCN^[32]、GDFL^[33]、F-DNN2+SS^[34]、TLL-TFA和AR-Ped^[35]进行了实验对比。从表 3中可以看出，本文TS-FAN方法在Caltech数据集上取得了最好的检测性能，其在Reasonable、All、Near、Medium和Far的子集上，行人漏检率MR^-2分别为5.53%、26.21%、0.47%、13.76%和47.30%。在Caltech测试数据集Reasonable子集上，本文方法相较于当前一流的AR-Ped方法，行人漏检率MR^-2降低了0.92%。与当前领先的TLL-TFA方法相比，在All、Near、Medium和Far的子集上行人漏检率MR^-2分别降低了11.94%、0.25%、9.16%和12.79%。量化的实验对比结果如图 5中所示，可以明显地观察到本文提出的TS-FAN网络对于不同尺度的行人实例均表现出较好的行人检测效果。
表 3 在Caltech数据集不同重叠评估设置上，本文方法与目前一流方法的比较 Table 3 Comparison of proposed method with some state-of-the-art methods on the Caltech dataset under different overlapping evaluation protocols

方法	MR^-2/%
方法	Reasonable子集	All子集	Near子集	Medium子集	Far子集	Partial子集	Heavy子集
FasterRCNN+ATT^[28]	10.33	54.51	1.43	40.75	90.94	22.29	45.18
RPN+BF^[29]	9.58	64.66	2.26	53.93	100	24.23	74.36
AR-Ped^[35]	6.45	58.83	1.37	49.31	100	11.93	48.80
TLL-TFA^[21]	7.40	38.15	0.72	22.92	60.09	18.49	28.66
TS-FAN(本文)	5.53	26.21	0.47	13.76	47.30	10.68	17.82

表选项

图 5 在Caltech数据集上，本文方法与目前一流方法的对比 Fig. 5 Comparison of proposed method with some state-of-the-art methods on Caltech dataset

图选项

低层次特征带来局部细节特征信息和较为精确的定位信息，使得网络对于位置感知能力更强，从而在行人间的遮挡问题上同样表现出具有竞争力的行人检测效果。TS-FAN方法在Caltech数据集的Partial和Heavy子集上与当前领先的TLL-TFA方法相比，在Partial和Heavy子集上行人漏检率MR^-2分别降低了7.81%和10.84%。在Partial子集上与AR-Ped方法相比，行人漏检率MR^-2降低了1.25%。
在ETH测试数据集上，TS-FAN方法与目前检测性能较好的行人检测方法ChnFtrs^[36]、JointDeep^[37]、MultiSDP^[38]、DBN-Mut^[39]、TA-CNN^[40]、RPN+BF和F-DNN2+SS进行对比实验，实验结果如图 6所示。见图 6(a)和(b)，TS-FAN方法在All和Reasonable测试子集上比目前检测效果较好的F-DNN2+SS方法行人漏检率MR^-2降低了7.28%和2.73%。尤其在Medium和Far子集上，TS-FAN方法行人漏检率MR^-2提升了19.97%和29.21%，如图 6(e)和(f)所示。而在Near子集上，TS-FAN方法较RPN+BF方法和F-DNN2+SS方法行人漏检率MR^-2分别降低了1.51%和3.19%。其原因可归结为本文TS-FAN方法没有使用更深层次的卷积层(如特征图分辨率较原图下采样64倍)。

图 6 在ETH数据集上，本文方法与目前一流方法的对比 Fig. 6 Comparison of proposed method with some state-of-the-art methods on ETH dataset

图选项

为形象地观测本文TS-FAN模型在Caltech数据集和ETH数据集上的检测效果，图 7和图 8显示了本文方法与当前一流行人检测方法的输出结果。

图 7 在Caltech数据集上，本文方法与目前一流方法可视化效果对比 Fig. 7 Comparison of visualized effects of proposed method with some state-of-the-art methods on Caltech dataset

图选项

图 8 在ETH数据集上，本文方法与目前一流方法可视化效果对比 Fig. 8 Comparison of visualized effects of proposed method with some state-of-the-art methods on ETH dataset

图选项

3 结论 1) 本文针对多尺度行人检测任务，设计了一种跨尺度特征聚合的多尺度行人检测网络，其通过多路径RPN尺度补偿策略为行人识别阶段提供了高质量的目标候选区域。
2) 提出的TS-FAN网络模块为多尺度行人检测网络提供了高鲁棒性的特征层用于特征提取，并通过实验验证TS-FAN网络模块能显著提高行人检测性能。
3) 通过多尺度行人检测网络，联合多路径RPN得到的候选目标区域和跨尺度聚合特征进行行人识别和精细化空间位置。实验结果表明，本文方法TS-FAN在Caltech数据集和ETH数据集上取得了一流的多尺度行人检测性能。

参考文献

[1]	REN S, HE K, GIRSHICK R, et al.Faster R-CNN: Towards real-time object detection with region proposal networks[C]//International Conference on Neural Information Processing Systems.Cambridge: MIT Press, 2015: 91-99.

[2]	LIU W, ANGUELOW D, ERHAN D, et al.SSD: Single shot multibox detector[C]//European Conference on Computer Vision.Berlin: Springer, 2016: 21-37. https://www.researchgate.net/publication/286513835_SSD_Single_Shot_MultiBox_Detector

[3]	ZHANG X W, CHENG L C, LI B, et al. Too far to see? Not really!-Pedestrian detection with scale-aware localization policy[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3703-3715. DOI:10.1109/TIP.2018.2818018

[4]	GIRSHICK R, DONAHUE J, DARRELL T, et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2014: 580-587.

[5]	DALAL N, TRIGGS B.Histograms of oriented gradients for human detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2014: 886-893.

[6]	种衍文, 匡湖林, 李清泉. 一种基于多特征和机器学习的分级行人检测方法[J]. 自动化学报, 2012, 38(3): 375-381. ZHONG Y W, KUANG H L, LING Q Q. Two-stage pedestrain detection based on multiple features and machine learning[J]. Acta Automatica Sinica, 2012, 38(3): 375-381. (in Chinese)

[7]	SINGH B, DAVIS L.An analysis of scale invariance in object detection snip[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 3578-3587

[8]	SINGH B, NAJIBI M, DAVIS L.SNIPER: Efficient multi-scale training[C]//International Conference on Neural Information Processing Systems.Cambridge: MIT Press, 2018: 9310-9320. https://www.researchgate.net/publication/325333259_SNIPER_Efficient_Multi-Scale_Training

[9]	LIU S T, HUANG D, WANG Y H.Receptive field block net for accurate and fast object detection[C]//European Conference on Computer Vision.Berlin: Springer, 2018: 385-400. https://www.researchgate.net/publication/321210791_Receptive_Field_Block_Net_for_Accurate_and_Fast_Object_Detection

[10]	LIU W, LIAO S C, HU W D, et al.Learning efficient single-stage pedestrian detectors by asymptotic localization fitting[C]//European Conference on Computer Vision.Berlin: Springer, 2018: 643-659. http://link.springer.com/chapter/10.1007/978-3-030-01264-9_38

[11]	HE K Y, ZHANG X Y, REN S Q, et al.Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2016: 770-778.

[12]	HONARI S, YOSINSKI J, VINCENT P, et al.Recombinator networks: Learning coarse-to-fine feature aggregation[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2016: 5743-5752. http://www.researchgate.net/publication/311609590_Recombinator_Networks_Learning_Coarse-to-Fine_Feature_Aggregation

[13]	谭红臣, 李淑华, 刘彬, 等. 特征增强的SSD算法及其在目标检测中的应用[J]. 计算机辅助设计与图形学学报, 2019, 31(4): 63-69. TAN H C, LI S H, LIU B, et al. Feature enhancement SSD for object detection[J]. Journal of Computer-Aided Design & Computer Graphics, 2019, 31(4): 63-69. (in Chinese)

[14]	LIN T Y, DOLLAR P, GIRSHICK R, et al.Feature pyramid networks for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2017: 2117-2125. http://www.researchgate.net/publication/311573567_Feature_Pyramid_Networks_for_Object_Detection

[15]	LIU S, QI L, QIN H F, et al.Path aggregation network for instance segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 8759-8768. http://www.researchgate.net/publication/323571076_Path_Aggregation_Network_for_Instance_Segmentation

[16]	ZHAO Q J, SHENG T, WANG Y T, et al.M2Det: A single-shot object detector based on multi-level feature pyramid network[C]//AAAI Conference on Artificial Intelligence.Menlo Park: AAAI Press, 2019, 33: 9259-9266. https://www.researchgate.net/publication/335239949_M2Det_A_Single-Shot_Object_Detector_Based_on_Multi-Level_Feature_Pyramid_Network

[17]	LI Y, CHEN Y, WANG N, et al.Scale-aware trident networks for object detection[C]//IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2019: 6054-6063. http://ieeexplore.ieee.org/document/9010716/

[18]	LI J, LIANG X, SHEN S M, et al. Scale-aware fast R-CNN for pedestrian detection[J]. IEEE Transactions on Multimedia, 2017, 20(4): 985-996.

[19]	DOLLA P, WOJEK C, SCHIELE B, et al. Pedestrian detection:An evaluation of the state of the art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 34(4): 743-761.

[20]	ESS A, LEIBE B, GOOL L V.Depth and appearance for mobile scene analysis[C]//IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2007: 1-8. https://www.researchgate.net/publication/228797908_Depth_and_Appearance_for_Mobile_Scene_Analysis

[21]	SONG T, SUN L Y, XIE D, et al.Small-scale pedestrian detection based on topological line localization and temporal feature aggregation[C]//European Conference on Computer Vision.Berlin: Springer, 2018: 536-551.

[22]	王刚, 陈永光, 杨锁昌, 等. 鲁棒的红外小目标视觉显著性检测方法[J]. 北京航空航天大学学报, 2015, 41(12): 2309-2318. WAGN G, CHEN Y G, YANG S C, et al. Robust visual saliency detection method for infrared small target[J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(12): 2309-2318. (in Chinese)

[23]	ZHOU P, NI B B, GENG C, et al.Scale-transferrable object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 528-537.

[24]	李晓光, 付陈平, 李晓莉, 等. 面向多尺度目标检测的改进Faster R-CNN算法[J]. 计算机辅助设计与图形学学报, 2019, 31(7): 1095-1101. LI X G, FU C P, LI X L, et al. Improved Faster R-CNN for multi-scale object detection[J]. Journal of Computer-Aided Design & Computer Graphics, 2019, 31(7): 1095-1101. (in Chinese)

[25]	裴伟, 许晏铭, 朱永英, 等. 改进的SSD航拍目标检测方法[J]. 软件学报, 2019, 30(3): 248-268. PEI W, XU Y M, ZHU Y Y, et al. The target detection method of aerial photography images with improved SSD[J]. Journal of Software, 2019, 30(3): 248-268. (in Chinese)

[26]	许冰, 牛燕雄, 吕建明. 复杂动态场景下目标检测与分割算法[J]. 北京航空航天大学学报, 2016, 42(2): 310-317. XU B, NIU Y X, LYU J M. Object detection and segmentation algorithm in complex dynamic scene[J]. Journal of Beijing University of Aeronautics and Astronautics, 2016, 42(2): 310-317. (in Chinese)

[27]	LIU W, LIAO S C, REN W Q, et al.High-level semantic feature detection: A new perspective for pedestrian detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2019: 5187-5196. https://www.researchgate.net/publication/332263773_High-level_Semantic_Feature_DetectionA_New_Perspective_for_Pedestrian_Detection

[28]	ZHANG S J, YANG J, SCHIELE B.Occluded pedestrian detection through guided attention in CNNs[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 6995-7003. https://www.researchgate.net/publication/329748825_Occluded_Pedestrian_Detection_Through_Guided_Attention_in_CNNs

[29]	ZHANG L L, LIN L, LIANG X D, et al.Is Faster R-CNN doing well for pedestrian detection?[C]//European Conference on Computer Vision.Berlin: Springer, 2018: 618-634. https://www.researchgate.net/publication/305638304_Is_Faster_R-CNN_Doing_Well_for_Pedestrian_Detection

[30]	ZHANG S S, BENENSON R, SCHIELE B.Citypersons: A diverse dataset for pedestrian detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2017: 3213-3221. https://www.researchgate.net/publication/320971355_CityPersons_A_Diverse_Dataset_for_Pedestrian_Detection

[31]	DU X Z, EL-KHAMY M, LEE J, et al.Fused DNN: A deep neural network fusion approach to fast and robust pedestrian detection[C]//IEEE Winter Conference on Applications of Computer Vision.Piscataway: IEEE Press, 2017: 953-961. https://www.researchgate.net/publication/316948537_Fused_DNN_A_Deep_Neural_Network_Fusion_Approach_to_Fast_and_Robust_Pedestrian_Detection

[32]	WANG S G, CHENG J, LIU H J, et al.PCN: Part and context information for pedestrian detection with CNNs[EB/OL].(2018-04-12)[2020-01-27].https://arxiv.org/abs/1804.04483.

[33]	LIN C Z, LU J W, WANG G, et al.Graininess-aware deep feature learning for pedestrian detection[C]//European Conference on Computer Vision.Berlin: Springer, 2018: 732-747.

[34]	DU X, EL-KHAMY M, MORARIU V I, et al.Fused deep neural networks for efficient pedestrian detection[EB/OL].(2018-05-02)[2020-01-27].https://arxiv.org/abs/1805.08688.

[35]	BRAZIL G, LIU X M.Pedestrian detection with autoregressive network phases[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2019: 7231-7240. https://www.researchgate.net/profile/Xiaoming_Liu8/publication/329387855_Pedestrian_Detection_with_Autoregressive_Network_Phases/links/5c16ef8b299bf139c75e25f7/Pedestrian-Detection-with-Autoregressive-Network-Phases.pdf

[36]	DOLLAR P, TU Z, PERONA P, et al.Integral channel features[C]//British Machine Vision Conference, 2009: 91.1-91.11. https://www.researchgate.net/publication/221259850_Integral_Channel_Features

[37]	OUYANG W L, WANG X G.Joint deep learning for pedestrian detection[C]//IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2013: 2056-2063. https://www.researchgate.net/publication/261857512_Joint_Deep_Learning_for_Pedestrian_Detection

[38]	ZENG X Y, OUYANG W L, WANG X G.Multi-stage contextual deep learning for pedestrian detection[C]//IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2013: 121-128. https://www.researchgate.net/publication/262400254_Multi-stage_Contextual_Deep_Learning_for_Pedestrian_Detection

[39]	OUYANG W L, ZENG X Y, WANG X G.Modeling mutual visibility relationship in pedestrian detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2013: 3222-3229. https://www.researchgate.net/publication/253329150_Modeling_Mutual_Visibility_Relationship_in_Pedestrian_Detection

[40]	TIAN Y L, LUO P, WANG X G, et al.Pedestrian detection aided by deep learning semantic tasks[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2015: 5079-5087. https://www.researchgate.net/publication/308806299_Pedestrian_detection_aided_by_deep_learning_semantic_tasks