天津大学 电气自动化与信息工程学院, 天津 300072
收稿日期:2020-12-31
基金项目:国家自然科学基金资助项目(62071323,61771329,61632018); 天津市科技重大专项研发计划(新一代人工智能科技重大专项)(18ZXZNGX00320)。
作者简介:杨爱萍(1977-), 女,山东聊城人,天津大学副教授。
摘要:在小目标物体检测、多类别物体检测尤其是轻量化检测模型等关键技术研究方面仍面临较大的挑战, 基于此, 本文提出一种轻量化自适应特征选择目标检测网络.该网络以特征金字塔为基础, 提取多尺度图像特征并从空间维度上对特征图进行滤波, 从通道维度上自适应地选择特征图中更重要的通道, 降低多通道下噪声和干扰对目标特征的稀释作用, 减少特征图在传递过程中的信息丢失.除此之外, 构建深度可分离卷积的分类网络, 降低后续处理的计算量, 加快检测速度, 实现网络的轻量化处理.在PASCAL VOC 2007数据集上的检测平均精度为77.7 %, 检测速度为14.3帧/s.在MS COCO数据集上的测试结果表明, 该网络在精度损失小于5 % 的情况下, 检测速度远超FPN, 比Mask R-CNN可以更好地兼顾检测速度和检测精度.
关键词:目标检测特征金字塔自适应特征选择轻量化网络
Lightweight Adaptive Feature Selection Network for Object Detection
YANG Ai-ping, SONG Shang-yang, CHENG Si-meng
School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China
Corresponding author: YANG Ai-ping, E-mail: yangaiping@tju.edu.cn.
Abstract: There are some limitations of key technologies in small object detection, multi-category object detection, and especially lightweight models. To solve these problems, this paper proposes a lightweight adaptive feature selection network for object detection. The network is constructed to extract multi-scale features based on the feature pyramid. To alleviate the noise interference and preserve the detail information, a feature selection module composed of spatial adaptation and channel adaptation is designed. Specifically, the feature maps are filtered from spatial dimension, encoded and decoded in channel dimension for selecting the meaningful features adaptively. Besides, the classification network is constructed through depth-wise separable convolution to reduce the computational cost, improve detection efficiency and realize the lightweight version of the network. The detection accuracy on the PASCAL VOC 2007 dataset is 77.7 % in mean average precision(mAP), and the detection speed is 14.3 in frames per second(FPS). The results on the MS COCO dataset show that the proposed network outperforms FPN and Mask R-CNN at the cost of 5 % accuracy loss and achieves a better balance between accuracy and efficiency.
Key words: object detectionfeature pyramidadaptive feature selectionlightweight network
目标检测是计算机视觉中一项重要且具有挑战性的任务, 它不仅要快速识别出目标的类别, 更需要精准地预测出每个目标的位置.随着目标检测技术的发展, 其将会广泛用于移动端、自动驾驶以及嵌入式等领域.基于深度学习的目标检测方法通常具有模型体积大、运行消耗资源多等问题.因此, 如何设计轻量化的目标检测算法是上述应用的关键.
目标检测方法可分为传统方法和基于深度学习的方法.传统方法将目标检测任务分为区域生成、特征提取和分类回归三个子任务.首先对输入的图像生成不同的候选区域, 再提取每个候选区域的特征, 最后根据候选区域的特征对候选区域进行目标分类.区域生成主要基于候选窗口, 如边缘窗口(edge box)[1]、选择性搜索(selective search)[2]等.特征提取主要采用尺度不变量特征变换(scale-invariant feature transform, SIFT)[3]、特征包(bag of features, BoF)[4]和梯度方向直方图(histogram of oriented gradients, HOG)[5]等.分类回归算法包括AdaBoost[6]、支持向量机(support vector machine, SVM)[7]等.然而, 传统的目标检测方法大多是人工设计滤波器, 特征处理较为单一, 适用性不强且区域生成策略较差, 冗余窗口多, 时间复杂度高, 不适合在移动端和嵌入式设备上使用.
随着深度卷积神经网络的快速发展, 基于深度学习的目标检测方法成为研究的热点.根据有无候选框可将其分为单阶段目标检测方法和双阶段目标检测方法.单阶段目标检测方法对图像中的每个像素点设置固定形状、固定大小的先验框, 使用卷积神经网络计算每个先验框所属类别的概率, 通过非极大值抑制策略选取最优的先验框, 将检测任务转换为先验框的分类回归问题, 使网络检测速度得到提升.代表方法有YOLO[8], SSD[9], RefineDet[10]和FSAF[11]等.但是, 单阶段方法检测精度欠佳.
双阶段目标检测方法通过卷积提取候选区域的特征, 并利用全连接网络进行特征分类以完成目标检测任务.以R-CNN[12]为代表的双阶段目标检测方法具有较高的检测精度, 但其所有的候选框都需要通过CNN运算, 计算开销大且网络结构复杂.Fast R-CNN[13]提出多个候选框共享卷积运算的思想, 其在最后一个卷积层和第一个全连接层之间添加感兴趣区域(region of interest, RoI)池化层, 从不同的候选框中提取固定长度的特征向量, 输入到结构固定的全连接网络中进行分类, 降低分类网络的计算量.但其仍然采用传统的区域生成方法生成候选框, 导致候选框数量庞大且生成速度较慢,目标检测精度和效率较低.
针对上述问题, 文献[14]在Fast R-CNN的基础上构建可学习的区域生成网络生成候选框, 可大大提升候选框生成速度, 但在感兴趣区域池化(RoI pooling)后,该方法对每个候选框分别进行分类和回归,没有共享计算.基于此, R-FCN[15]在特征提取网络后使用卷积层构建一组位置敏感得分图(position sensitive score map)替换原有的全连接层, 在分类之前共享所有的卷积和池化计算.但其在RoI池化过程中对像素取整, 导致深层候选框的像素点存在偏差, 大大降低对小目标物体检测的准确度.因此, Mask R-CNN[16]提出用感兴趣区域对齐层(RoI align)替换感兴趣区域池化(RoI pooling)层, 降低候选框偏移带来的误差.另外, 文献[17]在Faster R-CNN[14]的基础上构建自顶向下的网络结构, 将每层特征图进行逐元素相加(element-wise addition)融合得到多尺度特征图, 可提升小目标物体检测的准确率, 但其在特征图融合前对特征图通道进行压缩, 导致低层细节特征信息丢失.Libra R-CNN[18]在FPN[17]基础上, 将深层特征图和浅层特征图相融合, 以加强原始特征图信息.但其分类回归网络采用全连接方式设计, 所有的候选框都要通过全连接网络进行分类回归, 导致检测速度缓慢.
综上, 如何改进与优化主流的目标检测方法实现精度与效率的最佳平衡, 以及如何将基于深度学习的目标检测方法进行轻量化处理是目标检测方法用于实际的关键.因此, 本文提出轻量化的自适应特征选择网络进行目标检测, 能够在保证高精度的同时, 大大提高检测速度和效率.为了降低特征在传递过程中的信息丢失, 提升小目标物体检测精度, 本文从空间角度对特征图进行滤波, 同时网络自适应地选择特征图中更重要的通道, 降低多通道下噪声和干扰对目标特征的稀释作用.除此之外, 本文构建深度可分离卷积的分类回归网络, 将网络轻量化处理, 进一步提升检测速度.
1 轻量化自适应目标检测网络本文提出轻量化自适应特征选择目标检测网络, 该网络在特征提取阶段根据特征金字塔构建U型结构的编码-解码网络, 实现多尺度特征图的提取与融合; 在候选框生成阶段, 通过自适应特征选择模块降低特征图的噪声, 减少特征图的通道, 提高检测精度和速度.在分类回归阶段, 精简分类回归网络, 提升整体网络的检测速度.提出的网络模型包含三个子网络: 多尺度特征图提取与融合网络、自适应特征选择网络以及轻量化分类网络.网络整体框架如图 1所示.
图 1(Fig. 1)
图 1 网络整体框架Fig.1 Overall architecture of the network (a)—多尺度特征提取和融合网络; (b)—自适应特征选择网络; (c)—轻量化分类回归网络. |
1.1 多尺度特征提取网络为提升对小目标物体的检测精准度, 通常会提取场景的多尺度特征信息, 目前普遍采用基于特征金字塔的融合方法.其中, 最具代表性的有SSD(single shot multibox detector)[9], FPN(feature pyramid networks)[18]等.SSD在提取特征之后构建自下而上的特征金字塔, 但其在检测小目标时, 缺乏高级语义特征指导, 导致小目标物体的检测效果欠佳.FPN通过自顶向下的特征传递方式和侧向连接, 在一定程度上改善了SSD在小目标检测方面性能较低的问题.因此, 本文将FPN[17]作为特征提取网络, 对多尺度特征图进行融合, 减少细节信息丢失, 提升检测精准度.特征提取网络以ResNet-50作为基础网络, 通过侧向连接和自顶向下的方式, 将同级特征图进行逐元素相加融合, 并将深层特征图传递到浅层特征图.
设{C2, C3, C4, C5}为ResNet-50网络中残差块ResBlock2, ResBlock3, ResBlock4和ResBlock5的输出特征, 该过程可以表示为
(1) |
(2) |
(3) |
图 2(Fig. 2)
图 2 自适应特征选择结构Fig.2 Architecture of the feature selection |
首先进行通道加权和空间滤波.通道加权即是对特征图进行全局池化, 得到通道信息z∈ RC×1×1, 其中C为特征图的通道数, 再利用1×1的卷积运算将通道信息编码, 消除干扰通道并减少通道数目, 得到通道特征, 随后对通道特征解码, 使用1×1的卷积运算提升通道特征的维度并根据目标特征和优化任务重建通道信息, 得到新的通道权重uca, 其计算方式如下:
(4) |
(5) |
然后, 将通道信息和空间信息进行堆叠融合, 并用融合结果对特征图进行加权, 该过程可表示为
(6) |
1.3 轻量化分类回归网络现有特征金字塔网络的每级分类回归网络采用全连接层设计, 所有的候选框都需要通过该网络进行分类回归, 导致检测速度缓慢.为了降低分类回归网络的计算量, 本文根据深度可分离卷积构建轻量化分类回归网络, 可大大缩减目标分类回归时间.
深度可分离卷积由深度卷积(depth-wise convolution)和逐点卷积(point-wise convolution)组成.图 3为传统卷积和深度可分离卷积运算过程示意图.
图 3(Fig. 3)
图 3 卷积运算过程Fig.3 Convolution operation process (a)—传统卷积; (b)—深度可分离卷积. |
设输入特征图F的尺寸为DF1×DF2×M, 输出特征图O的尺寸为DO1×DO2×N, 其中DF1,DF2表示输入特征图的宽度和高度, DO1,DO2表示输出特征图的宽度和高度, M表示输入特征图的通道数, N表示输出特征图的通道数.深度卷积过程中, 第m个卷积核作用于输入特征图F的第m个通道, 卷积结果作为新特征图的第m个通道, 其计算方式如下:
(7) |
(8) |
(9) |
(10) |
(11) |
将融合特征{O2, O3, O4, O5}输入到区域生成网络生成尺寸相同的候选框Fr, 并通过轻量化分类回归网络对候选框进行分类和回归.分类回归网络的具体结构如图 4所示.
图 4(Fig. 4)
图 4 轻量化分类回归网络Fig.4 Lightweight classification regression network |
首先将生成的候选框输入到全连接层进行特征提取, 再将提取到的特征输入到深度可分离卷积层进行特征提取.本文选用的全连接层为1 024维, 深度卷积核DK为7, 因此特征提取过程可表示为
(12) |
(13) |
(14) |
1.4 损失函数为了得到分类正确且位置准确的候选框, 本文基于类别损失和位置损失设计损失函数:
(15) |
(16) |
(17) |
(18) |
实验数据集为目前普遍使用的三个公开数据集: PASCAL VOC 2007数据集、PASCAL VOC 2012数据集[22]和MS COCO数据集[23].PASCAL VOC 2007包含了带有标签的trainval(5 011张图片)和test(4 952张图片).PASCAL VOC 2012包含了带有标签的trainval(11 540张图片)和没有标签的test(10 991张图片).PASCAL VOC 2007和PASCAL VOC 2012数据集都包含20个类别的物体.MS COCO数据集中目标检测任务包含80类物体, 与PASCAL VOC相比, MS COCO的最大进步是除了边界框标注外, 每个对象还使用实例分割进行标记, 以帮助精确定位.此外, MS COCO包含更多的小物体(其面积小于图像的1 %)和比PASCAL VOC更密集的物体.本文使用COCO Challenge 2017作为实验数据集, 训练集包含115 000张图片, 测试集包含20 000张图片.
2.2 评价指标常用的目标检测算法性能评估标准有: 检测速度(speed), 精确率(precision, P)和召回率(recall, R).对每张图片, 使用重叠率(intersection over union, IoU)来标记预测框是否正确, 召回率R即为检测出的正例目标占所有正例目标的比例, 精确率P为检测出的目标中正例目标占有的比例.在不同召回率下求准确率的平均值, 记为精度(AP).AP是针对某一类别进行评估, 在实际的目标检测中, 需要评估算法检测多个类别目标的能力, 因此, 采用所有目标类别加权的平均精度(mAP)作为检测性能度量.
2.3 与主流方法对比为了评估本文提出的目标检测算法性能, 在PASCAL VOC 2007, PASCAL VOC 2012和MS COCO三个数据集上与主流的目标检测方法进行对比.主要包括YOLO[8], SSD[9], Faster R-CNN[14], FPN[17]和Mask R-CNN[16]等.表 1为在PASCAL VOC 2007数据集和PASCAL VOC 2012数据集上的检测结果.其中, 在训练阶段, 总迭代次数为75 000, 学习率在开始的43 000次迭代为2.5×10-3, 在剩余的21 000和11 000次迭代中衰减到2.5×10-4和2.5×10-5.由表 1可以看出, 本文方法在检测速度上远高于其他双阶段目标检测方法, 且检测精度优于单阶段目标检测方法.此外, 本文方法与FPN相比, 以微小的精度损失, 带来更大的速度增益.在PASCAL VOC 2007数据集上, 本文方法比FPN的平均精度低0.6 % (< 1 %), 但检测速度快7.3帧/s(>100 %).在PASCAL VOC 2012数据集上, 本文方法比FPN的平均精度低1.6 % (< 2.1 %), 但检测速度快7.3帧/s(>100 %), 这说明轻量化分类回归子网络可显著提升目标检测方法的检测速度.
表 1(Table 1)
表 1 在PASCAL VOC测试集上的检测结果Table 1 Comparison of results tested on PASCAL VOC
| 表 1 在PASCAL VOC测试集上的检测结果 Table 1 Comparison of results tested on PASCAL VOC |
表 2为在MS COCO测试集上的检测结果, 其中, 开始的230 000次迭代的学习率是2.5×10-3, 在剩余的110 000和60 000次迭代中衰减到2.5×10-4和2.5×10-5.由表 2可以看出, 在MS COCO数据集的测试结果中, 本文方法在AP(即APIoU=0.50:0.05:0.95)上的平均精度比FPN低1.8 % (< 5 %), 比Mask R-CNN低1.3 % (< 3.6 %), 但检测速度比FPN快7.3帧/s(>100 %), 比Mask R-CNN快2.8帧/s(>24 %), 说明本文所提出的目标检测网络, 能够以极小的精度损失获得更大的效率增益.对小目标物体检测而言, 本文方法在APsmall上的平均精度为17.4 %, 比SSD高7.2 % (>70 %), 说明多尺度特征图融合可提升小目标物体检测的精准度.
表 2(Table 2)
表 2 在MS COCO测试集上的检测结果Table 2 Comparison of results tested on MS COCO
| 表 2 在MS COCO测试集上的检测结果 Table 2 Comparison of results tested on MS COCO |
2.4 不同参数对实验结果的影响训练参数设置: 训练集包含VOC 2007 trainval和VOC 2012 trainval, 测试集为VOC 2007 test.在训练阶段, 总的迭代次数为60 000, 学习率在开始的30 000次迭代中为2.5×10-3, 在剩余的20 000和10 000次迭代中衰减到2.5×10-4和2.5×10-5.IoU设置为0.5,采用的优化函数是SGD, 动量因子设置为0.9, 使用在ImageNet上预训练的ResNet-50作为初始值.
不同的全连接层数: 表 3给出了全连接层设置不同个数的检测结果.使用深度可分离卷积替换分类回归子网络中的两个全连接层, 平均精度是75.4 %, 检测速度是15帧/s, 模型大小是228.2 MB.保留第二个全连接层, 采用深度可分离卷积层替换第一个全连接层, 平均精度是77.6 %, 提升2.2 %, 检测速度是14.3帧/s, 降低0.7帧/s, 模型大小是232.7 MB, 增大4.5 MB.可以看出, 第二个全连接层对检测精度的影响较大, 而对检测速度和模型大小影响较小, 而第一个全连接层对检测速度和模型大小影响较大, 对检测精度影响较小.
表 3(Table 3)
表 3 不同全连接层个数的检测结果Table 3 Detection results with different fully connected layers
| 表 3 不同全连接层个数的检测结果 Table 3 Detection results with different fully connected layers |
不同的深度可分离卷积输出维度: 表 4给出了深度可分离卷积输出不同维度的检测结果.当全连接层的输出维度为1 024, 深度可分离卷积输出维度为10时, 平均精度是77.6 %, 检测速度是14.3帧/s, 模型大小是232.7 MB.当全连接层的输出维度为1 024, 深度可分离卷积输出维度为256时, 平均精度是80.2 %, 提升2.8 %, 检测速度是7帧/s, 降低7.3帧/s, 模型大小是356.1 MB, 增大123.4 MB.
表 4(Table 4)
表 4 不同深度可分离卷积输出维度的检测结果Table 4 Detection results with different depth-wise separable convolution output dimensions
| 表 4 不同深度可分离卷积输出维度的检测结果 Table 4 Detection results with different depth-wise separable convolution output dimensions |
不同的全连接层输出维度: 表 5给出了全连接层不同输出维度的检测结果.当全连接层的输出维度为2 048, 深度可分离卷积输出维度为100时, 平均精度是79.7 %, 检测速度是8.4帧/s, 模型大小是318.9 MB.当全连接层的输出维度是1 024, 深度可分离卷积输出维度是100时, 网络发生梯度爆炸.
表 5(Table 5)
表 5 不同全连接层输出维度的检测结果Table 5 Detection results with different fully connected layer output dimensions
| 表 5 不同全连接层输出维度的检测结果 Table 5 Detection results with different fully connected layer output dimensions |
综上, 为了实现精度与效率的最佳平衡, 本文最终设置全连接层输出维度为1 024, 深度可分离卷积层输出维度为10.
3 结语针对单阶段目标检测方法检测精度较低而双阶段目标检测方法效率较低问题, 本文提出了一种轻量化的自适应特征选择网络进行目标检测, 可有效实现精度与效率之间的平衡.该网络通过特征空间滤波和通道自适应, 降低特征在传递过程中的信息丢失, 提升小目标物体检测精度.同时, 轻量化的分类回归网络, 使得网络检测速度大大提升.在PASCAL VOC 2007, 2012和MS COCO三个公开数据上的测试结果表明, 本文所提方法在检测精度和检测速度上均可获得较好的检测效果.
参考文献
[1] | Zitnick C L, Dollár P. Edge boxes: locating object proposals from edges[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer-Verlag, 2014: 391-405. |
[2] | Uijlings J R R, Van de Sande K E A, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171. DOI:10.1007/s11263-013-0620-5 |
[3] | Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI:10.1023/B:VISI.0000029664.99615.94 |
[4] | Joachims T. A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization[C]// Proceedings of the International Conference on Machine Learning. San Francisco, 1997: 143-151. |
[5] | Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. San Diego, 2005: 886-893. |
[6] | Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139. DOI:10.1006/jcss.1997.1504 |
[7] | Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297. |
[8] | Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 779-788. |
[9] | Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer-Verlag, 2016: 21-37. |
[10] | Zhang S, Wen L, Bian X, et al. Single-shot refinement neural network for object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 4203-4212. |
[11] | Zhu C, He Y, Savvides M. Feature selective anchor-free module for single-shot object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 840-849. |
[12] | Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, 2014: 580-587. |
[13] | Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, 2015: 1440-1448. |
[14] | Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proceedings of the Neural Information Processing Systems. Montréal, 2015: 91-99. |
[15] | Dai J, Li Y, He K, et al. R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the Neural Information Processing Systems. Barcelona, 2016: 379-387. |
[16] | He K M, Gkioxari G, Dollár P, et al. Mask R-CNN[C]// Proceedings of the IEEE International Conference on Computer Vision. Venice, 2017: 2980-2988. |
[17] | Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 936-944. |
[18] | Pang J, Chen K, Shi J, et al. Libra R-CNN: towards balanced learning for object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 821-830. |
[19] | Sandler M, Howard A, Zhu M, et al. Mobilenetv2: inverted residuals and linear bottlenecks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 4510-4520. |
[20] | Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 7132-7141. |
[21] | Wang X, Cai Z, Gao D, et al. Towards universal object detection by domain attention[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 7281-7290. |
[22] | Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes(VOC)challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338. DOI:10.1007/s11263-009-0275-4 |
[23] | Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer-Verlag, 2014: 740-755. |
[24] | Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 6517-6525. |
[25] | Kong T, Sun F, Yao A, et al. RON: reverse connection with objectness prior networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 5244-5252. |
[26] | Fu C Y, Liu W, Ranga A, et al. Dssd: deconvolutional single shot detector[J]. arXiv Preprint arXiv, 2017, 1701.06659. |
[27] | Redmon J, Farhadi A. Yolov3:an incremental improvement[J]. arXiv Preprint arXiv,, 2018, 1804.02767. |
[28] | Bell S, Lawrence Z C, Bala K, et al. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 2874-2883. |
[29] | Shrivastava A, Gupta A, Girshick R. Training region-based object detectors with online hard example mining[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 761-769. |