删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

轻量化自适应特征选择目标检测网络

本站小编 Free考研考试/2021-12-15

杨爱萍, 宋尚阳, 程思萌
天津大学 电气自动化与信息工程学院, 天津 300072
收稿日期:2020-12-31
基金项目:国家自然科学基金资助项目(62071323,61771329,61632018); 天津市科技重大专项研发计划(新一代人工智能科技重大专项)(18ZXZNGX00320)。
作者简介:杨爱萍(1977-), 女,山东聊城人,天津大学副教授。

摘要:在小目标物体检测、多类别物体检测尤其是轻量化检测模型等关键技术研究方面仍面临较大的挑战, 基于此, 本文提出一种轻量化自适应特征选择目标检测网络.该网络以特征金字塔为基础, 提取多尺度图像特征并从空间维度上对特征图进行滤波, 从通道维度上自适应地选择特征图中更重要的通道, 降低多通道下噪声和干扰对目标特征的稀释作用, 减少特征图在传递过程中的信息丢失.除此之外, 构建深度可分离卷积的分类网络, 降低后续处理的计算量, 加快检测速度, 实现网络的轻量化处理.在PASCAL VOC 2007数据集上的检测平均精度为77.7 %, 检测速度为14.3帧/s.在MS COCO数据集上的测试结果表明, 该网络在精度损失小于5 % 的情况下, 检测速度远超FPN, 比Mask R-CNN可以更好地兼顾检测速度和检测精度.
关键词:目标检测特征金字塔自适应特征选择轻量化网络
Lightweight Adaptive Feature Selection Network for Object Detection
YANG Ai-ping, SONG Shang-yang, CHENG Si-meng
School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China
Corresponding author: YANG Ai-ping, E-mail: yangaiping@tju.edu.cn.

Abstract: There are some limitations of key technologies in small object detection, multi-category object detection, and especially lightweight models. To solve these problems, this paper proposes a lightweight adaptive feature selection network for object detection. The network is constructed to extract multi-scale features based on the feature pyramid. To alleviate the noise interference and preserve the detail information, a feature selection module composed of spatial adaptation and channel adaptation is designed. Specifically, the feature maps are filtered from spatial dimension, encoded and decoded in channel dimension for selecting the meaningful features adaptively. Besides, the classification network is constructed through depth-wise separable convolution to reduce the computational cost, improve detection efficiency and realize the lightweight version of the network. The detection accuracy on the PASCAL VOC 2007 dataset is 77.7 % in mean average precision(mAP), and the detection speed is 14.3 in frames per second(FPS). The results on the MS COCO dataset show that the proposed network outperforms FPN and Mask R-CNN at the cost of 5 % accuracy loss and achieves a better balance between accuracy and efficiency.
Key words: object detectionfeature pyramidadaptive feature selectionlightweight network
目标检测是计算机视觉中一项重要且具有挑战性的任务, 它不仅要快速识别出目标的类别, 更需要精准地预测出每个目标的位置.随着目标检测技术的发展, 其将会广泛用于移动端、自动驾驶以及嵌入式等领域.基于深度学习的目标检测方法通常具有模型体积大、运行消耗资源多等问题.因此, 如何设计轻量化的目标检测算法是上述应用的关键.
目标检测方法可分为传统方法和基于深度学习的方法.传统方法将目标检测任务分为区域生成、特征提取和分类回归三个子任务.首先对输入的图像生成不同的候选区域, 再提取每个候选区域的特征, 最后根据候选区域的特征对候选区域进行目标分类.区域生成主要基于候选窗口, 如边缘窗口(edge box)[1]、选择性搜索(selective search)[2]等.特征提取主要采用尺度不变量特征变换(scale-invariant feature transform, SIFT)[3]、特征包(bag of features, BoF)[4]和梯度方向直方图(histogram of oriented gradients, HOG)[5]等.分类回归算法包括AdaBoost[6]、支持向量机(support vector machine, SVM)[7]等.然而, 传统的目标检测方法大多是人工设计滤波器, 特征处理较为单一, 适用性不强且区域生成策略较差, 冗余窗口多, 时间复杂度高, 不适合在移动端和嵌入式设备上使用.
随着深度卷积神经网络的快速发展, 基于深度学习的目标检测方法成为研究的热点.根据有无候选框可将其分为单阶段目标检测方法和双阶段目标检测方法.单阶段目标检测方法对图像中的每个像素点设置固定形状、固定大小的先验框, 使用卷积神经网络计算每个先验框所属类别的概率, 通过非极大值抑制策略选取最优的先验框, 将检测任务转换为先验框的分类回归问题, 使网络检测速度得到提升.代表方法有YOLO[8], SSD[9], RefineDet[10]和FSAF[11]等.但是, 单阶段方法检测精度欠佳.
双阶段目标检测方法通过卷积提取候选区域的特征, 并利用全连接网络进行特征分类以完成目标检测任务.以R-CNN[12]为代表的双阶段目标检测方法具有较高的检测精度, 但其所有的候选框都需要通过CNN运算, 计算开销大且网络结构复杂.Fast R-CNN[13]提出多个候选框共享卷积运算的思想, 其在最后一个卷积层和第一个全连接层之间添加感兴趣区域(region of interest, RoI)池化层, 从不同的候选框中提取固定长度的特征向量, 输入到结构固定的全连接网络中进行分类, 降低分类网络的计算量.但其仍然采用传统的区域生成方法生成候选框, 导致候选框数量庞大且生成速度较慢,目标检测精度和效率较低.
针对上述问题, 文献[14]在Fast R-CNN的基础上构建可学习的区域生成网络生成候选框, 可大大提升候选框生成速度, 但在感兴趣区域池化(RoI pooling)后,该方法对每个候选框分别进行分类和回归,没有共享计算.基于此, R-FCN[15]在特征提取网络后使用卷积层构建一组位置敏感得分图(position sensitive score map)替换原有的全连接层, 在分类之前共享所有的卷积和池化计算.但其在RoI池化过程中对像素取整, 导致深层候选框的像素点存在偏差, 大大降低对小目标物体检测的准确度.因此, Mask R-CNN[16]提出用感兴趣区域对齐层(RoI align)替换感兴趣区域池化(RoI pooling)层, 降低候选框偏移带来的误差.另外, 文献[17]在Faster R-CNN[14]的基础上构建自顶向下的网络结构, 将每层特征图进行逐元素相加(element-wise addition)融合得到多尺度特征图, 可提升小目标物体检测的准确率, 但其在特征图融合前对特征图通道进行压缩, 导致低层细节特征信息丢失.Libra R-CNN[18]在FPN[17]基础上, 将深层特征图和浅层特征图相融合, 以加强原始特征图信息.但其分类回归网络采用全连接方式设计, 所有的候选框都要通过全连接网络进行分类回归, 导致检测速度缓慢.
综上, 如何改进与优化主流的目标检测方法实现精度与效率的最佳平衡, 以及如何将基于深度学习的目标检测方法进行轻量化处理是目标检测方法用于实际的关键.因此, 本文提出轻量化的自适应特征选择网络进行目标检测, 能够在保证高精度的同时, 大大提高检测速度和效率.为了降低特征在传递过程中的信息丢失, 提升小目标物体检测精度, 本文从空间角度对特征图进行滤波, 同时网络自适应地选择特征图中更重要的通道, 降低多通道下噪声和干扰对目标特征的稀释作用.除此之外, 本文构建深度可分离卷积的分类回归网络, 将网络轻量化处理, 进一步提升检测速度.
1 轻量化自适应目标检测网络本文提出轻量化自适应特征选择目标检测网络, 该网络在特征提取阶段根据特征金字塔构建U型结构的编码-解码网络, 实现多尺度特征图的提取与融合; 在候选框生成阶段, 通过自适应特征选择模块降低特征图的噪声, 减少特征图的通道, 提高检测精度和速度.在分类回归阶段, 精简分类回归网络, 提升整体网络的检测速度.提出的网络模型包含三个子网络: 多尺度特征图提取与融合网络、自适应特征选择网络以及轻量化分类网络.网络整体框架如图 1所示.
图 1(Fig. 1)
图 1 网络整体框架Fig.1 Overall architecture of the network (a)—多尺度特征提取和融合网络; (b)—自适应特征选择网络; (c)—轻量化分类回归网络.

1.1 多尺度特征提取网络为提升对小目标物体的检测精准度, 通常会提取场景的多尺度特征信息, 目前普遍采用基于特征金字塔的融合方法.其中, 最具代表性的有SSD(single shot multibox detector)[9], FPN(feature pyramid networks)[18]等.SSD在提取特征之后构建自下而上的特征金字塔, 但其在检测小目标时, 缺乏高级语义特征指导, 导致小目标物体的检测效果欠佳.FPN通过自顶向下的特征传递方式和侧向连接, 在一定程度上改善了SSD在小目标检测方面性能较低的问题.因此, 本文将FPN[17]作为特征提取网络, 对多尺度特征图进行融合, 减少细节信息丢失, 提升检测精准度.特征提取网络以ResNet-50作为基础网络, 通过侧向连接和自顶向下的方式, 将同级特征图进行逐元素相加融合, 并将深层特征图传递到浅层特征图.
设{C2, C3, C4, C5}为ResNet-50网络中残差块ResBlock2, ResBlock3, ResBlock4和ResBlock5的输出特征, 该过程可以表示为
(1)
其中: I为原始图像; HFE(·)表示特征提取函数.深层网络的特征具有较强的语义信息, 浅层网络的特征具有较强的细节信息, 对不同特征层的特征图进行融合可减少低层细节信息丢失.在融合过程中为了匹配特征图的通道, 先将初始特征图经1×1卷积压缩为256维.然后, 将深层的特征图进行二倍上采样并向浅层传递, 与侧向连接的特征图进行逐像素相加, 得到融合特征图, 记为{C′i, i=2, 3, 4, 5}, 该过程可以表示为
(2)
其中: fup, 2(·)表示二倍上采样操作; ⊕表示逐元素相加操作.最后, 将融合特征图{C′2, C′3, C′4, C′5}进行3×3卷积得到输出特征图{O2, O3, O4, O5}:
(3)
1.2 自适应特征选择网络为了降低特征在传递过程中的信息丢失, 提升小目标物体检测精度, 本文从空间角度对特征图进行滤波, 同时使网络自适应地选择特征图中更重要的通道, 降低多通道下噪声和干扰对目标特征的稀释作用.文献[19]使用卷积核为1×1的卷积层对特征图通道进行滤波、压缩, 但同一特征图的不同通道对物体特征的描述具有差异性, 卷积过程中存在信息丢失.文献[20-21]针对特征图通道间的差异提出压缩、激活模块, 但其只关注通道之间的差异, 而忽略了同通道内部像素间的联系.为了避免特征图在传递过程中丢失信息, 本文设计了自适应特征选择网络, 该网络在空间维度中使用一组核为3×3和1×1的卷积层扩大网络感受视野, 提取特征图的空间特征, 将噪声过滤; 在通道维度中通过全局池化层和两组1×1的卷积层对特征图的通道信息编码、解码, 增强目标信息的通道权重, 降低干扰通道的权重.该网络在损失函数的约束下, 平衡通道间与像素间的像素差异, 降低噪声和干扰对目标特征的稀释作用, 可有效减少特征信息丢失, 其结构如图 2所示.
图 2(Fig. 2)
图 2 自适应特征选择结构Fig.2 Architecture of the feature selection

首先进行通道加权和空间滤波.通道加权即是对特征图进行全局池化, 得到通道信息zRC×1×1, 其中C为特征图的通道数, 再利用1×1的卷积运算将通道信息编码, 消除干扰通道并减少通道数目, 得到通道特征, 随后对通道特征解码, 使用1×1的卷积运算提升通道特征的维度并根据目标特征和优化任务重建通道信息, 得到新的通道权重uca, 其计算方式如下:
(4)
其中: fsigmoid(·)为sigmoid激活函数; f1×1(·)表示卷积核为1×1的卷积.空间滤波可通过卷积核为3×3的卷积层提取特征图中像素的整体信息, 并经1×1卷积对多通道进行映射, 得到特征图的空间信息usa, 该过程可表示为
(5)
其中: fsigmoid(·)为sigmoid激活函数; f3×3(·)表示卷积核为3×3的卷积; f1×1(·)表示卷积核为1×1的卷积; u表示输入特征图.
然后, 将通道信息和空间信息进行堆叠融合, 并用融合结果对特征图进行加权, 该过程可表示为
(6)
其中: 表示通道堆叠操作; 表示逐元素相乘操作.
1.3 轻量化分类回归网络现有特征金字塔网络的每级分类回归网络采用全连接层设计, 所有的候选框都需要通过该网络进行分类回归, 导致检测速度缓慢.为了降低分类回归网络的计算量, 本文根据深度可分离卷积构建轻量化分类回归网络, 可大大缩减目标分类回归时间.
深度可分离卷积由深度卷积(depth-wise convolution)和逐点卷积(point-wise convolution)组成.图 3为传统卷积和深度可分离卷积运算过程示意图.
图 3(Fig. 3)
图 3 卷积运算过程Fig.3 Convolution operation process (a)—传统卷积; (b)—深度可分离卷积.

设输入特征图F的尺寸为DF1×DF2×M, 输出特征图O的尺寸为DO1×DO2×N, 其中DF1DF2表示输入特征图的宽度和高度, DO1DO2表示输出特征图的宽度和高度, M表示输入特征图的通道数, N表示输出特征图的通道数.深度卷积过程中, 第m个卷积核作用于输入特征图F的第m个通道, 卷积结果作为新特征图的第m个通道, 其计算方式如下:
(7)
其中,K表示尺寸为DK×DK×M卷积核,DK表示卷积核的大小.传统卷积和深度卷积的计算开销可分别表示为
(8)
(9)
Corg表示传统卷积的计算量; Cd表示深度卷积的计算开销.逐点卷积使用N个1×1的卷积核进行传统卷积, 因此深度可分离卷积的计算量Cs可表示为
(10)
所以深度可分离卷积和传统卷积的计算量比值可以表示为
(11)
本文选DK为7, 因此, 网络计算量为使用传统卷积方式的1/N+1/49, 与采用全连接方式的分类回归网络相比, 所设计的网络计算量大大降低, 大幅缩减目标分类回归时间.
将融合特征{O2, O3, O4, O5}输入到区域生成网络生成尺寸相同的候选框Fr, 并通过轻量化分类回归网络对候选框进行分类和回归.分类回归网络的具体结构如图 4所示.
图 4(Fig. 4)
图 4 轻量化分类回归网络Fig.4 Lightweight classification regression network

首先将生成的候选框输入到全连接层进行特征提取, 再将提取到的特征输入到深度可分离卷积层进行特征提取.本文选用的全连接层为1 024维, 深度卷积核DK为7, 因此特征提取过程可表示为
(12)
其中: ffc, 1024(·)表示全连接层; fdc, 7×7(·)表示深度卷积; fpc, 1×1(·)表示逐点卷积.最后, 将输出特征C分别输入到n+1维的全连接层和4×(n+1)维的全连接层, 用于目标分类和候选框位置回归, 分类和回归过程可分别表示为
(13)
(14)
其中: n表示目标类别数目; Ocls表示用于目标分类的输出向量; Oreg表示用于候选框位置回归的输出向量.
1.4 损失函数为了得到分类正确且位置准确的候选框, 本文基于类别损失和位置损失设计损失函数:
(15)
其中: pi表示第i个预测框是目标的概率; pi*表示预测框的目标类别标签, 如果该样本为正, pi*为1, 如果该样本为负, pi*为0;ti表示预测框的坐标; ti*表示标签框的坐标; λ为平衡权重; Ncls为类别的归一化值; Nreg表示预测框的坐标数量; LclsLreg分别表示类别损失函数和位置损失函数,
(16)
(17)
(18)
2 实验与结果分析2.1 实验平台和实验数据集实验平台配置: CPU,Intel i7-7 700 k; 内存,16 G DDR4;GPU,Nvidia Geforce GTX TITAN X; 操作系统,64位Ubuntu16.04 LTS; 实验框架为Pytorch开源框架; 编程语言为Python 2.7;第三方库为OpenCV和CUDA 9.0.
实验数据集为目前普遍使用的三个公开数据集: PASCAL VOC 2007数据集、PASCAL VOC 2012数据集[22]和MS COCO数据集[23].PASCAL VOC 2007包含了带有标签的trainval(5 011张图片)和test(4 952张图片).PASCAL VOC 2012包含了带有标签的trainval(11 540张图片)和没有标签的test(10 991张图片).PASCAL VOC 2007和PASCAL VOC 2012数据集都包含20个类别的物体.MS COCO数据集中目标检测任务包含80类物体, 与PASCAL VOC相比, MS COCO的最大进步是除了边界框标注外, 每个对象还使用实例分割进行标记, 以帮助精确定位.此外, MS COCO包含更多的小物体(其面积小于图像的1 %)和比PASCAL VOC更密集的物体.本文使用COCO Challenge 2017作为实验数据集, 训练集包含115 000张图片, 测试集包含20 000张图片.
2.2 评价指标常用的目标检测算法性能评估标准有: 检测速度(speed), 精确率(precision, P)和召回率(recall, R).对每张图片, 使用重叠率(intersection over union, IoU)来标记预测框是否正确, 召回率R即为检测出的正例目标占所有正例目标的比例, 精确率P为检测出的目标中正例目标占有的比例.在不同召回率下求准确率的平均值, 记为精度(AP).AP是针对某一类别进行评估, 在实际的目标检测中, 需要评估算法检测多个类别目标的能力, 因此, 采用所有目标类别加权的平均精度(mAP)作为检测性能度量.
2.3 与主流方法对比为了评估本文提出的目标检测算法性能, 在PASCAL VOC 2007, PASCAL VOC 2012和MS COCO三个数据集上与主流的目标检测方法进行对比.主要包括YOLO[8], SSD[9], Faster R-CNN[14], FPN[17]和Mask R-CNN[16]等.表 1为在PASCAL VOC 2007数据集和PASCAL VOC 2012数据集上的检测结果.其中, 在训练阶段, 总迭代次数为75 000, 学习率在开始的43 000次迭代为2.5×10-3, 在剩余的21 000和11 000次迭代中衰减到2.5×10-4和2.5×10-5.由表 1可以看出, 本文方法在检测速度上远高于其他双阶段目标检测方法, 且检测精度优于单阶段目标检测方法.此外, 本文方法与FPN相比, 以微小的精度损失, 带来更大的速度增益.在PASCAL VOC 2007数据集上, 本文方法比FPN的平均精度低0.6 % (< 1 %), 但检测速度快7.3帧/s(>100 %).在PASCAL VOC 2012数据集上, 本文方法比FPN的平均精度低1.6 % (< 2.1 %), 但检测速度快7.3帧/s(>100 %), 这说明轻量化分类回归子网络可显著提升目标检测方法的检测速度.
表 1(Table 1)
表 1 在PASCAL VOC测试集上的检测结果Table 1 Comparison of results tested on PASCAL VOC
阶数 方法 主干网络 PASCAL VOC 2007 PASCAL VOC 2012
mAP/% 速度/(帧·s-1) mAP/% 速度/(帧·s-1)
1 YOLO[8] VGG-16 63.4 45 57.9 45
YOLOv2[24] VGG-16 76.8 67 71.6 67
SSD321[9] ResNet-101 77.1 11
RON384[25] VGG-16 75.4 15 73.0 15
2 Fast R-CNN[13] VGG-16 70.0 0.5 68.4 0.5
Faster R-CNN[14] VGG-16 73.2 7 70.4 7
Faster R-CNN[14] ResNet-101 76.4 5 73.8 5
FPN[17] ResNet-101 78.3 7 76.2 7
本文 ResNet-50 77.7 14.3 74.6 14.3


表 1 在PASCAL VOC测试集上的检测结果 Table 1 Comparison of results tested on PASCAL VOC

表 2为在MS COCO测试集上的检测结果, 其中, 开始的230 000次迭代的学习率是2.5×10-3, 在剩余的110 000和60 000次迭代中衰减到2.5×10-4和2.5×10-5.由表 2可以看出, 在MS COCO数据集的测试结果中, 本文方法在AP(即APIoU=0.50:0.05:0.95)上的平均精度比FPN低1.8 % (< 5 %), 比Mask R-CNN低1.3 % (< 3.6 %), 但检测速度比FPN快7.3帧/s(>100 %), 比Mask R-CNN快2.8帧/s(>24 %), 说明本文所提出的目标检测网络, 能够以极小的精度损失获得更大的效率增益.对小目标物体检测而言, 本文方法在APsmall上的平均精度为17.4 %, 比SSD高7.2 % (>70 %), 说明多尺度特征图融合可提升小目标物体检测的精准度.
表 2(Table 2)
表 2 在MS COCO测试集上的检测结果Table 2 Comparison of results tested on MS COCO
阶数 方法 主干网络 AP mAP/% APIoU=0.50 mAP/% APIoU=0.75 mAP/% APsmall mAP/% APmedium mAP/% APlarge mAP/% AP速度/(帧·s-1)
1 DSSD513[26] ResNet-101 33.2 53.3 35.2 13.0 35.4 51.1 5.5
SSD513[9] ResNet-101 31.2 50.4 33.3 10.2 34.5 49.8 6.8
YOLOv2[24] DarkNet-19 21.6 44.0 19.2 5.0 22.4 35.5 40
YOLOv3[27] DarkNet-53 33.0 57.9 34.3 18.3 35.4 41.9 19.6
2 ION[28] VGG-16 23.6 43.2 23.6 6.4 24.1 38.3 1.25
R-FCN[15] ResNet-101 29.9 51.9 10.8 32.8 45.0 9
OHEM++[29] VGG-16 25.5 45.9 26.1 7.4 27.7 40.3 7
Faster R-CNN[14] VGG-16 21.9 42.7 7
Fast R-CNN[13] VGG-16 19.7 35.9 0.5
Mask R-CNN[16] ResNet-101 35.7 58.0 37.8 15.5 38.1 52.4 11.5
FPN[17] ResNet-101 36.2 59.1 39.0 18.2 39.0 48.2 7
本文 ResNet-50 34.4 55.5 35.8 17.4 38.5 46.4 14.3


表 2 在MS COCO测试集上的检测结果 Table 2 Comparison of results tested on MS COCO

2.4 不同参数对实验结果的影响训练参数设置: 训练集包含VOC 2007 trainval和VOC 2012 trainval, 测试集为VOC 2007 test.在训练阶段, 总的迭代次数为60 000, 学习率在开始的30 000次迭代中为2.5×10-3, 在剩余的20 000和10 000次迭代中衰减到2.5×10-4和2.5×10-5.IoU设置为0.5,采用的优化函数是SGD, 动量因子设置为0.9, 使用在ImageNet上预训练的ResNet-50作为初始值.
不同的全连接层数: 表 3给出了全连接层设置不同个数的检测结果.使用深度可分离卷积替换分类回归子网络中的两个全连接层, 平均精度是75.4 %, 检测速度是15帧/s, 模型大小是228.2 MB.保留第二个全连接层, 采用深度可分离卷积层替换第一个全连接层, 平均精度是77.6 %, 提升2.2 %, 检测速度是14.3帧/s, 降低0.7帧/s, 模型大小是232.7 MB, 增大4.5 MB.可以看出, 第二个全连接层对检测精度的影响较大, 而对检测速度和模型大小影响较小, 而第一个全连接层对检测速度和模型大小影响较大, 对检测精度影响较小.
表 3(Table 3)
表 3 不同全连接层个数的检测结果Table 3 Detection results with different fully connected layers
结构 mAP/% 速度/(帧·s-1)
没有全连接层 75.4 15
一层全连接层 77.6 14.3
两层全连接层 78.3 7


表 3 不同全连接层个数的检测结果 Table 3 Detection results with different fully connected layers

不同的深度可分离卷积输出维度: 表 4给出了深度可分离卷积输出不同维度的检测结果.当全连接层的输出维度为1 024, 深度可分离卷积输出维度为10时, 平均精度是77.6 %, 检测速度是14.3帧/s, 模型大小是232.7 MB.当全连接层的输出维度为1 024, 深度可分离卷积输出维度为256时, 平均精度是80.2 %, 提升2.8 %, 检测速度是7帧/s, 降低7.3帧/s, 模型大小是356.1 MB, 增大123.4 MB.
表 4(Table 4)
表 4 不同深度可分离卷积输出维度的检测结果Table 4 Detection results with different depth-wise separable convolution output dimensions
全连接层输出维度 深度卷积输出维度 mAP/% 速度
帧·s-1
1 024 10 77.6 14.3
256 80.2 7


表 4 不同深度可分离卷积输出维度的检测结果 Table 4 Detection results with different depth-wise separable convolution output dimensions

不同的全连接层输出维度: 表 5给出了全连接层不同输出维度的检测结果.当全连接层的输出维度为2 048, 深度可分离卷积输出维度为100时, 平均精度是79.7 %, 检测速度是8.4帧/s, 模型大小是318.9 MB.当全连接层的输出维度是1 024, 深度可分离卷积输出维度是100时, 网络发生梯度爆炸.
表 5(Table 5)
表 5 不同全连接层输出维度的检测结果Table 5 Detection results with different fully connected layer output dimensions
深度卷积输出维度 全连接层输出维度 mAP/% 速度
帧·s-1
100 2 048 79.7 8.4
1 024


表 5 不同全连接层输出维度的检测结果 Table 5 Detection results with different fully connected layer output dimensions

综上, 为了实现精度与效率的最佳平衡, 本文最终设置全连接层输出维度为1 024, 深度可分离卷积层输出维度为10.
3 结语针对单阶段目标检测方法检测精度较低而双阶段目标检测方法效率较低问题, 本文提出了一种轻量化的自适应特征选择网络进行目标检测, 可有效实现精度与效率之间的平衡.该网络通过特征空间滤波和通道自适应, 降低特征在传递过程中的信息丢失, 提升小目标物体检测精度.同时, 轻量化的分类回归网络, 使得网络检测速度大大提升.在PASCAL VOC 2007, 2012和MS COCO三个公开数据上的测试结果表明, 本文所提方法在检测精度和检测速度上均可获得较好的检测效果.
参考文献
[1] Zitnick C L, Dollár P. Edge boxes: locating object proposals from edges[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer-Verlag, 2014: 391-405.
[2] Uijlings J R R, Van de Sande K E A, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171. DOI:10.1007/s11263-013-0620-5
[3] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI:10.1023/B:VISI.0000029664.99615.94
[4] Joachims T. A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization[C]// Proceedings of the International Conference on Machine Learning. San Francisco, 1997: 143-151.
[5] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. San Diego, 2005: 886-893.
[6] Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139. DOI:10.1006/jcss.1997.1504
[7] Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
[8] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 779-788.
[9] Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer-Verlag, 2016: 21-37.
[10] Zhang S, Wen L, Bian X, et al. Single-shot refinement neural network for object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 4203-4212.
[11] Zhu C, He Y, Savvides M. Feature selective anchor-free module for single-shot object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 840-849.
[12] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, 2014: 580-587.
[13] Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, 2015: 1440-1448.
[14] Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proceedings of the Neural Information Processing Systems. Montréal, 2015: 91-99.
[15] Dai J, Li Y, He K, et al. R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the Neural Information Processing Systems. Barcelona, 2016: 379-387.
[16] He K M, Gkioxari G, Dollár P, et al. Mask R-CNN[C]// Proceedings of the IEEE International Conference on Computer Vision. Venice, 2017: 2980-2988.
[17] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 936-944.
[18] Pang J, Chen K, Shi J, et al. Libra R-CNN: towards balanced learning for object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 821-830.
[19] Sandler M, Howard A, Zhu M, et al. Mobilenetv2: inverted residuals and linear bottlenecks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 4510-4520.
[20] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 7132-7141.
[21] Wang X, Cai Z, Gao D, et al. Towards universal object detection by domain attention[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 7281-7290.
[22] Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes(VOC)challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338. DOI:10.1007/s11263-009-0275-4
[23] Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer-Verlag, 2014: 740-755.
[24] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 6517-6525.
[25] Kong T, Sun F, Yao A, et al. RON: reverse connection with objectness prior networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 5244-5252.
[26] Fu C Y, Liu W, Ranga A, et al. Dssd: deconvolutional single shot detector[J]. arXiv Preprint arXiv, 2017, 1701.06659.
[27] Redmon J, Farhadi A. Yolov3:an incremental improvement[J]. arXiv Preprint arXiv,, 2018, 1804.02767.
[28] Bell S, Lawrence Z C, Bala K, et al. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 2874-2883.
[29] Shrivastava A, Gupta A, Girshick R. Training region-based object detectors with online hard example mining[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 761-769.

相关话题/网络 特征 目标

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于特征融合的说话人聚类算法
    郑艳,姜源祥东北大学信息科学与工程学院,辽宁沈阳110819收稿日期:2020-01-06基金项目:国家自然科学基金资助项目(61773108)。作者简介:郑艳(1963-),女,辽宁沈阳人,东北大学副教授。摘要:针对单一声学特征和k-means算法在说话人聚类技术中的局限性,为了更好地表达说话人的 ...
    本站小编 Free考研考试 2021-12-15
  • 董事网络位置对高管薪酬水平影响的实证研究
    孙宸,庄新田东北大学工商管理学院,辽宁沈阳110169收稿日期:2020-10-22基金项目:国家自然科学基金资助项目(71671030)。作者简介:孙宸(1993-),女,辽宁沈阳人,东北大学博士研究生;庄新田(1956-),男,吉林四平人,东北大学教授,博士生导师。摘要:利用社会网络分析方法,基 ...
    本站小编 Free考研考试 2021-12-15
  • 基于粒子群算法的3种分级水网络超结构比较
    刘士琦1,宋锦春1,杨滨21.东北大学机械工程与自动化学院,辽宁沈阳110819;2.上海宝钢节能环保技术有限公司,上海201206收稿日期:2020-08-01基金项目:上海市科学技术委员会科技攻关计划项目(13dz1201700)。作者简介:刘士琦(1993-),男,辽宁锦州人,东北大学博士研究 ...
    本站小编 Free考研考试 2021-12-15
  • YOLOv3-ADS: 一种基于YOLOv3的深度学习目标检测压缩模型
    宋欣1,2,李奇1,解婉君1,李宁31.东北大学计算机科学与工程学院,辽宁沈阳110169;2.中国科学院自动化研究所,北京100190;3.中国移动信息技术有限公司,北京100037收稿日期:2020-07-20基金项目:国家自然科学基金资助项目(61603083);中央高校基本科研业务费专项资金 ...
    本站小编 Free考研考试 2021-12-15
  • 一种基于卷积神经网络的区域调光技术
    张涛,刘天威,杜文丽天津大学电气自动化与信息工程学院,天津300072收稿日期:2020-09-15基金项目:天津市科技计划项目(16YFZCGX00760)。作者简介:张涛(1975-),男,黑龙江北安人,天津大学副教授,博士生导师。摘要:由于光线串扰,像素补偿算法难以根据提取出的背光信息进行准确 ...
    本站小编 Free考研考试 2021-12-15
  • RBF网络干扰补偿的跷跷板系统解耦滑模控制研究
    陆志国,王世雄,林梦磊东北大学机械工程学院与自动化学院,辽宁沈阳110819收稿日期:2020-07-13基金项目:国家重点研发计划项目(2018YFB1304504);中央高校基本科研业务费专项资金资助项目(N182410007-05)。作者简介:陆志国(1982-),男,辽宁锦州人,东北大学教授 ...
    本站小编 Free考研考试 2021-12-15
  • 融合多层级特征的弱监督钢板表面缺陷检测算法
    何彧,宋克臣,张德富,颜云辉东北大学机械工程与自动化学院,辽宁沈阳110819收稿日期:2020-11-24基金项目:国家重点研发计划项目(2017YFB0304200);国家自然科学基金资助项目(51805078);中央高校基本科研业务费专项资金资助项目(N2003021)。作者简介:何彧(198 ...
    本站小编 Free考研考试 2021-12-15
  • 单轴压缩作用下CFST柱的声发射特征
    康玉梅,张乃源,任超,陈猛东北大学资源与土木工程学院,辽宁沈阳110819收稿日期:2020-06-29基金项目:国家自然科学基金资助项目(U1602232)。作者简介:康玉梅(1973-),女,辽宁灯塔人,东北大学副教授。摘要:通过对不同配筋率和不同壁厚钢管混凝土(CFST)柱进行单轴压缩声发射试 ...
    本站小编 Free考研考试 2021-12-15
  • 哈长—辽中南城市群扩张时空特征及驱动因素
    王雨枫1,曹洪军1,21.中国海洋大学环境科学与工程学院,山东青岛266100;2.中国海洋大学管理学院,山东青岛266100收稿日期:2020-09-01基金项目:国家自然科学基金资助项目(71603142);山东省社会科学规划研究项目(19CXSXJ05)。作者简介:王雨枫(1989-),男,四 ...
    本站小编 Free考研考试 2021-12-15
  • 基于事件触发的TCP网络滑模控制
    井元伟,白云东北大学信息科学与工程学院,辽宁沈阳110819收稿日期:2020-09-16基金项目:国家自然科学基金资助项目(61773108)。作者简介:井元伟(1956-),男,辽宁西丰人,东北大学教授,博士生导师。摘要:针对存在不确定参数和UDP流干扰的TCP网络拥塞问题,提出了一种基于事件触 ...
    本站小编 Free考研考试 2021-12-15