基于改进Faster R-CNN的SAR图像飞机检测算法*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

合成孔径雷达(Synthetic Aperture Radar，SAR)与光学和红外等被动式传感器相比，具有全天时、全天候、高分辨率的独特优势，在战场态势感知、典型目标识别和精确制导等军事领域具有突出的战略意义。飞机作为一种典型的人造目标，军事价值极其重要，高效、准确获取机场、空域等位置的飞机目标信息，对实时获取战场军事情报、制定作战计划具有重要意义。
恒虚警率(Constant False Alarm Rate，CFAR)检测器是传统SAR图像目标检测最常用的检测算法^[1]，基于像素级水平进行检测，并衍生出多种改进算法，如平均CFAR算法^[2]、双参数CFAR算法^[3]等。文献[4]提出一种基于级联CFAR的检测算法，可快速实现对SAR目标的检测，以满足实时要求。文献[5]提出了一种基于可变窗的CFAR算法，采用多尺度局部对比度和可变窗以实现对SAR目标的精确检测。此外，还有基于注意模型的检测算法等。文献[6]提出了一种基于视觉注意和学习策略的SAR图像目标检测算法，文献[7]提出了一种基于多尺度显著性特征的SAR目标检测算法。传统的检测算法能够自适应阈值，为飞机检测提供了较好的思路，缺点是仅利用像素级对比度进行检测，难以适应复杂背景下检测要求，容易造成虚警，影响检测结果。
深度学习具有强大的视觉目标检测能力，基于卷积神经网络(CNN)的目标检测算法成为了当前主流算法^[8]。典型检测算法有单阶段检测算法SSD^[9](Single Shot multiBox Detector)、YOLO^[10](You Only Look Once)、YOLOv2^[11]、YOLOv3^[12]等，以及双阶段检测算法R-CNN^[13] (Region-Convolutional Neural Network)、Fast R-CNN^[14]、Faster R-CNN^[15]等。目前，基于深度学习进行飞机目标检测的算法大多应用于可见光图像。文献[16]提出了一种基于Faster R-CNN模型的遥感图像飞机目标检测，采用迁移学习方法进行训练，使得查全率达到95%以上，但对于一些小而聚集、轮廓相似目标易出现漏警、虚警现象。文献[17]提出了一种级联卷积神经网络应用于遥感影像飞机目标检测，先利用小尺度浅层全卷积神经网络快速获取飞机兴趣区域，再利用深层的卷积神经网络对目标进行更精确的检测，但该算法对于部分小目标仍然无法有效检测。文献[18]提出了一种基于卷积神经网络的高分辨率SAR图像飞机目标检测算法，利用改进的显著性预检测快速粗定位飞机目标，基于LeNet-5^[19]网络对目标进行精确检测，利用数据增强扩大数据集，最终取得了96.36%的检测正确率。由于数据增强采用有监督方法，难以适应不同任务的差异性，并且LeNet-5网络较浅，对于SAR图像深层次语义特征表征不够。本文将深度学习检测算法引入SAR图像飞机检测，直接迁移应用Faster R-CNN算法进行检测时发现，对于机场周围小像素飞机目标易出现漏警，对车辆、建筑物等人造目标易出现虚警。针对该问题及SAR图像飞机目标的特点，本文对Faster R-CNN算法进行适应性改进，主要包括浅层特征增强结构、上下文信息融合、重设预设锚点框和引入RoI Align单元。此外，本文针对SAR图像飞机目标数据匮乏问题，构建了一个用于SAR图像飞机目标检测的数据集(SAR Aircraft Dataset，SAD)，对算法进行验证。
1 Faster R-CNN算法 Ren等^[15]在2015年提出了Faster R-CNN算法，最大的创新是提出了区域建议网络(Region Proposal Network，RPN)，通过共享卷积层将RPN网络和Fast R-CNN统一至一个网络中，解决了R-CNN、Fast R-CNN算法中候选框生成耗时问题，极大地提高了双阶段检测算法的效率。
R-CNN的基本网络框架如图 1所示，主要由卷积层单元、RPN单元、RoI池化单元及分类和回归单元4部分组成。

图 1 Faster R-CNN检测流程 Fig. 1 Faster R-CNN detection flowchart

图选项

1) 卷积层单元。利用一系列的卷积、激活和池化层基础组合，提取图像特征图(Feature Map)，RPN层和Fast R-CNN模块共享该单元生成的权值参数。
2) RPN单元。通过在特征图上滑动窗口产生候选框，设置尺寸为8、16、32，比例为1:2、1:1、2:1，共组合为9种锚点框(Anchor Boxes)，锚点框示意图如图 2所示，为特征图上每个像素提供基础候选框，通过对候选框和真实标注框回归得到目标候选框。设置IOU阈值筛选标定正例、负例锚点框，采用非极大值抑制(Non-Maximum Suppression，NMS)及Top-N分析法筛选出N个目标候选框。

图 2 锚点框示意图 Fig. 2 Schematic diagram of anchor box

图选项

3) RoI池化单元。将每个候选框均匀分成m×n块，对每块进行最大值池化(Max Pooling)，将不同大小的输入映射到一个固定尺度的特征向量，使得输入图片不要求固定尺寸。
4) 分类和回归单元。用于判断目标候选框的类别并预测其准确位置。
Faster R-CNN网络采用多任务损失，对一个图像的损失函数定义为

(1)

(2)

(3)

(4)

式中：λ为损失权重因子；L为总损失函数；L_cls表示分类损失函数，即目标或者非目标的对数损失；N_cls为分类损失归一化权值；L_reg为回归损失函数；N_reg为回归损失归一化权值；p_i表示第i个边框是前景的概率；p_i^*为1或0(边框为正样本时p_i^*=1，为负样本时p_i^*=0)；t_i和t_i^*分别表示预测框和真实框的坐标；R为smooth_L1(x)函数。
Faster R-CNN算法在VOC数据集上检测效果较好，达到78.8%的检测率。经实验验证，直接将Faster R-CNN算法应用于SAR图像飞机目标检测中，效果不佳，原因在于：①Faster R-CNN算法仅使用最深层特征图提取特征进行检测，而SAR图像成像原理与可见光不同，SAR图像飞机目标背景相对简单，深层特征表达的语义信息没有可见光丰富，使得检测效果不佳；②SAR图像飞机目标多样化，飞机目标尺寸与VOC数据有所差异，使得锚点框设定难以适应飞机目标，造成漏检问题；③SAR图像中，机场周围存在车辆、建筑物等人造目标，表现为强散射，对飞机目标检测容易造成误检，飞机目标成像效果较差时，易造成漏检问题；④RoI池化单元2次进行池化量化时，将浮点数取整，造成特征图像素映射偏差，影响后面的回归定位效果。针对以上问题，本文采取以下方法进行改进：①引用残差网络ResNet101作为特征提取网络，搭建更深网络层增强特征提取能力，同时在检测中引用多层(Layer2、Layer5)特征信息；②利用改进k-means算法对数据集中SAR图像飞机目标进行聚类分析，重新设计锚点框尺寸，以更好地适应SAR图像飞机尺寸；③利用多支路、多卷积核尺寸对浅层(Layer2)进行增强，同时对Layer5信息进行上采样，以扩大感受野，融合更多上下文信息，增强对小目标的检测效果；④使用RoI Align单元，利用插值方法保留浮点数以提高检测精度。
2 改进的Faster R-CNN算法 2.1 迁移学习应用与传统的监督式机器学习算法相比，深度卷积神经网络计算资源耗费大，从头开始训练是最理想的网络训练方式，但是由于SAR图像数据集难以获取且数量较小，从头开始训练容易造成过拟合，陷入局部最优解，并且耗时、计算成本高。本文应用迁移学习的方法，引用ImageNet上训练好的残差网络ResNet101来替代VGG16网络作为特征提取网络，去除Layer5后面的全连接(FC)层和分类层。网络结构如图 3所示。

图 3 VGG16、ResNet101结构示意图 Fig. 3 Schematic diagram of VGG16 and ResNet101 structure

图选项

相比于VGG16网络，ResNet101采用bottleneck结构搭建更深的网络层，bottleneck结构示意图如图 4所示。增强学习能力，同时利用1×1的卷积减少通道数以降低计算量，采用恒等快捷连接(Identity Shortcut Connection)实现跳层连接，加快收敛速度，使得网络模型更容易优化。

图 4 bottleneck结构示意图 Fig. 4 Schematic diagram of bottleneck structure

图选项

此外，ResNet101在卷积层后会添加一个BN^[20]层，对每层输入先做归一化处理(归一化至均值为0、方差为1的正态分布)，使得分布均匀，可以加快收敛，以提高训练阶段的效率。归一化公式如下。
每层d维输入：

(5)

归一化每一维：

(6)

式中：E[*]为期望运算；Var[*]为方差运算。
2.2 浅层特征增强与上下文信息融合 Faster R-CNN算法直接应用于SAR图像飞机目标检测，检测效果不佳，特别是对SAR图像中像素占比小的飞机目标，经4次下采样后，原图16×16的区域范围在特征图中仅映射为1×1像素点，漏检问题较严重。SAR图像中，飞机目标不像车辆、舰船、坦克等人造目标，外形轮廓较为简单、规律，飞机目标种类繁多且外形轮廓较为复杂，姿态敏感性较高，再加上背景复杂且其他人造目标的干扰，导致误检问题突出。Faster R-CNN算法为了节省运算量、提高检测效率，仅利用最深层特征图进行检测。最深层特征图语义信息较为丰富，能更好地反映图像全局化的特征，但是空间分辨率低；而低层的特征图，能更好地表达浅层特征，如轮廓、边缘等，且空间分辨率高，所包含的位置信息更为丰富，利于对小目标的定位与检测。通过上述分析，本文提出一种基于Faster R-CNN的浅层特征增强与上下文信息融合的检测算法，为兼顾检测速度，采用单尺度检测，检测框架流程如图 5所示。

图 5 改进的Faster R-CNN结构 Fig. 5 Structure of improved Faster R-CNN

图选项

ResNet101网络通过增加网络层深以挖掘图像深层语义特征，同时利用残差块以减少层深带来的计算量负担。与可见光图像相比，SAR图像背景相对简单，深层信息不如可见光图像丰富，通过增加网络层深带来的收益不大。为此，本文借鉴inception模块思想，引入浅层特征增强结构，通过拓展网络宽度，利用多路不同尺度卷积核(1×1、3×3、5×5)对Layer2输出进行卷积，以获取不同感受野，增强对弱小飞机目标的特征表达，利用1×1卷积将多路特征进行聚合，同时引入BN处理，使数据规范到N(0，1)的正态分布，能够加快训练速度并提高网络的泛化能力。Layer4输出相比Layer2要多经过27×(4+23)层残差块，会挖掘更深层次的语义信息，但会丢失更多的低层特征和位置信息，Layer2经过卷积层数减少，可以保留更多的位置信息，并经过浅层特征增强模块，利用2个3×3卷积核，设置滑动步长stride=2以实现下采样，输出特征图大小为38×57。下采样后经过3×3卷积，以消除混叠效应，得到特征图F4。
Layer5中有4个残差块，并下采样2倍，输出的特征图为原始图像的1/32，相比于Layer4的输出F1，有着更大的感受野。感受野越大，映射到原图的视野越广，可以引入更丰富的上下文信息。利用双线性插值法进行上采样得到特征图F2，其大小恢复至57×38，以实现与Layer4的输出F1进行特征融合，并经过3×3卷积，以消除混叠效应得到特征图F3。将F3和F4进行融合，得到最终的特征图，输入至RPN网络和RoI Align单元中，实现后续的分类与回归任务。
此外，Faster R-CNN网络对输入图片的要求为：限制最小边大于600像素，最大边小于1 000像素，即

(7)

(8)

式中：w和h分别为图像的宽度和高度。本文网络输入图像的尺寸为900×600。
2.3 锚点框预设 VOC数据集中，目标尺寸较大且种类丰富，Faster R-CNN算法采用3种尺度(8，16，32)和3种长宽比(1:2，1:1，2:1)共9种锚点框。SAD数据集中飞机目标尺寸相比较小，且长宽比近似为1:1，直接迁移应用原始预设锚点框，覆盖飞机目标的效果不佳，且人工设计预设锚点框，需要进行大量实验进行验证，并且设计不合理对检测结果会造成一定影响。
本文采用改进k-means算法，以交并比为距离度量对数据集中飞机目标聚类，根据聚类结果重新设定anchor，以改进预设锚点框大小，使之更适应飞机目标尺寸。距离度量公式如下：

(9)

(10)

式中：D(b, c)为预测框b和聚类中心c之间的距离；b_p为预测框；b_g为实际框。使用D(b, c)=1-IOU(b, c)作为度量，保证预设锚点框到聚类中心的距离越小，且IOU值越大。
针对SAR图像飞机目标形状特点，聚类中心设置为9，通过15次聚类分析，取得平均聚类结果为：{(42，36)，(48，54)，(63，72)，(70，48)，(96，75)，(101，102)，(129，120)，(168，141)，(228，210)}。2种预设锚点框示意图如图 6所示。对比图 6(a)和图 6 (b)可知，聚类得到的预设锚点框更能适应飞机目标尺寸。此外，该方法去除人工设计预设锚点框的复杂环节，一定程度上减轻了人工设计不合理对检测结果造成的影响。

图 6 预设锚点框范围示例 Fig. 6 Example range of preset anchor box

图选项

2.4 RoI Align单元 Faster R-CNN中使用RoI池化层使得生成的候选框映射产生固定尺寸的特征图，故Faster R-CNN对输入图像不再要求是固定尺寸。使用VGG16网络进行特征提取时，会进行4次最大值池化，使得特征图尺寸缩小16倍，在特征图上进行平均值池化，输出尺寸均为7×7。RoI池化层经过2次浮点数取整量化，会使得特征图上映射的区域建议框产生偏差，引起的“不匹配问题”会造成精度损失，这种像素偏差会使得后续回归定位的准确性下降。
针对上述问题，本文采用Mask R-CNN^[21]算法中提出的思想，引入RoI Align方法进行池化，改进RoI池化层带来的量化偏差，利用双线性插值法进行插值，保留浮点数，避免取整带来的精度损失，以提高空间对称性(Alignment)，故取名为“RoI Align”。RoI池化、RoI Align结构示意图如图 7所示，两者具体实现过程如下：

图 7 RoI池化、RoI Align示意图 Fig. 7 Schematic diagram of RoI Pooling and RoI Align

图选项

1) 第1次量化。假设SAR图像中目标尺寸为300×280，经过特征提取网络后，区域建议框变为原图的1/16，大小为18.75×17.5。ROI Align第1次量化(保留浮点数)后，区域建议框尺寸变为18.75×17.5，而RoI池化第1次量化(取整)后尺寸变为18×17。
2) 第2次量化。区域建议框经过池化固定为7×7尺寸，将区域建议框划分为49(7×7)个等子区域，RoI Align第2次量化(保留浮点数)每个子区域取2.68×2.5(18.75/7=2.68、17.5/7=2.5)；RoI池化第2次量化(取整)子区域取2×2(18/7=2.57≈2、17/7=2.43≈2)。
3) 最大值池化。每个子区域取最大值作为该区域的“代表”值，输出的49个值组成7×7大小的特征图。
由上可知，RoI池化经过2次取整量化，原本在特征图上映射的18×17大小的区域建议框，偏差为14×14大小，产生的像素偏差对后续的回归定位会产生影响。RoI池化利用插值法保留浮点数，有效解决了像素映射偏差带来的定位误差问题。
3 实验结果与分析 3.1 实验平台实验使用的操作系统：Ubuntu 16.04 LTS，使用CUDA8.0和cuDNN5.0加速训练；使用的GPU:NVIDIA TITAN Xp GPU(12 GB显存)；使用的编程语言：Python语言和C语言；使用的网络开发框架：Pytorch；使用的处理器：inter^ⓇCore^TM7-6850K CPU@3.60 GHz×12；Faster R-CNN框架链接：https://github.com/jwyang/faster-rcnn.pytorch。
3.2 数据集本文按照VOC数据集格式制作了一个用于SAR图像飞机目标检测的数据集SAD，数据集中共647幅图片，包含多类型、多尺寸的飞机目标2 294个。SAR图像数据来源为高分三号卫星、TerraSAR-X卫星、机载SAR等，图像分辨率从0.5 m到3 m不等。
VOC数据集中含图像9 963幅，共20类目标，各类目标包含图像数如图 8所示。VOC数据集中20类目标中有15类目标图像数量小于647幅，因此只有一类目标的SAD数据集满足SAR飞机目标检测算法性能的检测要求。

图 8 VOC数据集中各目标图像数量 Fig. 8 Number of various target images of VOC dataset

图选项

SAD数据集中飞机目标信息统计直方图如图 9所示。每幅图像所含飞机数量的统计直方图如图 9(a)所示，各飞机与全图像素占比的统计直方图如图 9(b)所示。每幅图像平均包含3.5架飞机目标，且飞机像素占比大多数在0.05以下，飞机目标较小，一定程度上增加检测任务的难度。SAD数据集中飞机目标宽度、高度、标注框面积及其占比的统计参数如表 1所示。

图 9 飞机目标信息统计直方图 Fig. 9 Statistical histogram of aircraft target information

图选项

表 1 飞机目标统计参数 Table 1 Statistical parameters of aircraft target

统计参数	最大值	最小值	平均值
宽度/像素	459	27	87
宽度占比	0.510	0.030	0.097
高度/像素	378	42	81
高度占比	0.630	0.070	0.135
面积/像素	173 502	1 134	7 047
面积占比	0.321	0.002	0.013

表选项

图 10为SAD数据集中几种典型场景的飞机目标，包含密集型飞机目标与稀疏型飞机目标，且飞机类型不一、尺寸和朝向多样。每幅图片裁成900×600的尺寸，并使用开源软件“LabelImg”对飞机目标进行标注，采用“留出法”将SAD数据集划分为互斥的训练集S和测试集T，并按照8:2的比例划分训练集和测试集。

图 10 SAD数据集中部分SAR飞机图像 Fig. 10 Some SAR aircraft images in SAD dataset

图选项

3.3 模型训练与评估训练参数设置：使用在ImageNet数据集上预先训练好的ResNet101模型，训练的batch_size取1，初始学习率(Lnitial Learning Rate)取0.001，权重衰减系数(Weight Decay)取0.000 5，训练代数epoch取300，参数更新方法采用梯度下降法(Stochastic Gradient Descent，SGD)，动量因子(Momentum)设为0.9，利用平移、旋转、缩放方法将训练样本扩充至1 169幅。
使用平均检测精度(AP)、每秒处理图像的帧数即检测速度、准确率-召回率(Precision-Recall，P-R)曲线作为评价指标。平均检测精度的定义为

(11)

式中：AP为平均检测精度；R为召回率；P为准确率。
召回率和准确率的定义如下：

(12)

(13)

式中：TP代表预测为正的正样本；FN代表预测为负的正样本；FP代表预测为正的负样本。
3.4 测试结果分析利用构建的SAD数据集，验证本文提出的改进Faster R-CNN算法对SAR图像飞机目标的检测性能。从表 2可以看出，本文算法的平均检测精度相比于前3种算法，本文算法的平均检测精度最高，达到了88.5%，召回率由78.1%提升至89.5%，准确率由77.0%提升至85.9%，检测速度相比于其他算法有所降低，主要原因是本文算法在残差网络Layer2后添加了多支路特征增强结构，并增加了上下文信息的利用，导致计算量增加。
表 2 实验结果对比 Table 2 Comparison of experimental results

算法	特征提取网络	AP/%	R/%	P/%	检测速度/ fps
Faster R-CNN	VGG16	81.1	78.1	77.0	16.6
Faster R-CNN	ResNet101	82.3	80.2	79.4	13.2
Faster R-CNN+ k-means	ResNet101	83.5	81.7	80.8	13.5
本文算法	ResNet101	88.5	89.5	85.9	12.7
注:fps为帧/s。

表选项

由图 11可知，本文算法的P-R曲线位置最高，且下降最为缓慢，相比于另外3种算法，在保持相同召回率的同时，能够保持较高的检测精度，表明浅层特征增强模块和上下文信息融合对提高检测精度有积极作用。本文算法的P-R曲线与两坐标轴包围的面积更大，证明了算法对SAR图像飞机目标的检测性能更好。

图 11 不同算法P-R曲线比较 Fig. 11 P-R curves comparison among different algorithms

图选项

图 12为SAD数据集部分检测结果对比。为方便对比检测结果，用不同颜色框进行区分：绿色和黄色框为算法检测结果，黄色为虚警框，蓝色为漏警框。

图 12 检测结果对比 Fig. 12 Comparison of detection results

图选项

图 12中，(1)为飞机目标成像效果较差的情形，飞机区域亮度显示微弱，容易造成漏检。图 12(b)的(1)中，右侧2架飞机误检测为1架飞机，图 12(c)的(1)、图 12(d)的(1)中，对中间的飞机均造成了漏检，本文算法实现了对3架飞机的检测。(2)为单一建筑物干扰情形，建筑顶部材料形成强散射，对飞机目标的检测造成干扰，前3种算法对2架飞机均造成了漏检，本文算法对浅层特征进行增强，实现了较好的检测。(3)为复杂建筑物干扰情形。在图 12(b)的(3)中，以VGG16为特征提取网络，层深较浅，特征挖掘不足，对最上方和最下方飞机目标造成漏检(蓝色框)，并出现一处误检(黄色框)；图 12(c)的(3)中，采用ResNet101网络提取特征，更深的网络有利于提出图像深层次语义信息，故将5架飞机全部检测出，但造成了4处误检(黄色框)；图 12(d)的(3)中，通过聚类分析训练集中飞机目标的尺寸后，对预设锚点框进行设置，很好地降低了误检，但只检测出4架飞机，造成1处漏检(蓝色框)；本文算法对5架飞机全部检测出，并未造成误检。(4)中存在多处小型人造目标干扰，图像中表现为“十”字型亮斑，容易引起误检，前3种算法均存在不同程度的误检与漏检，本文算法利用k-means聚类设定锚点框和融合上下文信息，可以很好地解决对“十”字型亮斑的误检，同时Layer2后搭建浅层特征增强结构，消除了对右下角飞机的漏检，实现了对飞机的全部检测。从实验结果来看，本文算法提高了对SAR图像飞机目标的检测能力，达到了预期的检测效果。
4 结论原始Faster R-CNN算法直接应用于SAR图像飞机检测效果不佳，为此本文提出了一种改进的Faster R-CNN算法。主要改进如下：
1) 迁移模型的应用，以更好地提取图像特征和节省计算成本。
2) 锚点框的重新设定和RoI Align的引入，使算法更适应于SAR图像飞机目标形状特点，减少定位误差。
3) 改进特征提取网络，进一步提升了检测效果。
在SAD数据集中，改进的算法有效降低了对干扰目标的误检和对弱小飞机目标的漏检，使得平均检测精度提高了7.4%。由于改进的算法复杂度有所增加，导致检测速度略有下降，降低了约4 fps，在接受范围内。本文实验证明了应用于可见光数据集的Faster R-CNN目标检测算法迁移至SAR图像数据集的可行性，并针对SAR图像飞机目标进行适应性改进，提高了算法的检测精度，对后续的SAR图像飞机目标检测研究具有重要意义。

参考文献

[1]	黎薇萍, 李渝, 段崇棣, 等. 一种新的鲁棒CFAR检测器设计方法[J]. 空间电子技术, 2018(3): 61-64. LI W P, LI Y, DUAN C L, et al. A new robust CFAR detector design method[J]. Space Electronic Technology, 2018(3): 61-64. DOI:10.3969/j.issn.1674-7135.2018.03.013 (in Chinese)

[2]	CUI Y, ZHOU G, YANG J, et al. On the iterative censoring for target detection in SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2011, 8(4): 641-645. DOI:10.1109/LGRS.2010.2098434

[3]	BRUSCH S, LEHNER S, FRITZ T, et al. Ship surveillance with TerraSAR-X[J]. IEEE Transactions on Geoscience and Remote Sensing, 2011, 49(3): 1092-1103. DOI:10.1109/TGRS.2010.2071879

[4]	王彦华, 陈维, 王军福, 等. 基于级联CFAR的SAR图像目标快速检测方法[J]. 现代雷达, 2019, 41(2): 21-25. WANG Y H, CHEN W, WANG J F, et al. Fast target detection method of SAR image based on cascaded CFAR[J]. Modern Radar, 2019, 41(2): 21-25. (in Chinese)

[5]	CHEN S, LI X. A new CFAR algorithm based on variable window for ship target detection in SAR images[J]. Signal, Image and Video Processing, 2019, 13: 779-786. DOI:10.1007/s11760-018-1408-4

[6]	GAO F, XUE X, WANG J, et al.Visual attention model with a novel learning strategy and its application to target detection from SAR images[C]//International Conference on Brain Inspired Cognitive Systems.Berlin: Springer, 2016: 149-160.

[7]	TU S, SU Y. Fast and accurate target detection based on multiscale saliency and active contour model for high-resolution SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(10): 5729-5744. DOI:10.1109/TGRS.2016.2571309

[8]	BENGIO Y, COURVILLE A, VINCENT P. Representation learning:A review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828. DOI:10.1109/TPAMI.2013.50

[9]	LIU W, ANGUELOV D, ERHAN D, et al.SSD: Single shot multibox detector[C]//European Conference on Computer Vision.Berlin: Springer, 2016: 21-37.

[10]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2016: 779-788.

[11]	REDMON J, FARHADI A.YOLO9000: Better, faster, stronger[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2017: 6517-6525.

[12]	REDMON J, FARHADI A.YOLOv3: An incremental improvement[EB/OL].(2018-04-08)[2020-01-01].http://arxiv.org/abs/1804.02767.

[13]	GIRSHICK R, DONAHUE J, DARRELL T, et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2014: 580-587.

[14]	GIRSHICK R.Fast R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2015: 1440-1448.

[15]	REN S, HE K M, GIRSHICK R, et al.Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Proceedings of Advances in Neural Information Processing Systems, 2015: 91-99.

[16]	常鹏飞, 段云龙. Faster R-CNN模型在遥感图像飞机目标检测中的应用[J]. 无线电工程, 2019, 49(10): 925-929. CHANG P F, DUAN Y L. Application of Faster R-CNN model in aircraft target detection in remote sensing image[J]. Radio Engineering, 2019, 49(10): 925-929. DOI:10.3969/j.issn.1003-3106.2019.10.016 (in Chinese)

[17]	余东行, 郭海涛, 张保明, 等. 级联卷积神经网络的遥感影像飞机目标检测[J]. 测绘学报, 2019, 48(8): 1046-1058. YU D X, GUO H T, ZHANG B M, et al. Aircraft target detection in remote sensing image using cascaded convolutional neural network[J]. Journal of Surveying and Mapping, 2019, 48(8): 1046-1058. (in Chinese)

[18]	王思雨, 高鑫, 孙皓, 等. 基于卷积神经网络的高分辨率SAR图像飞机目标检测方法[J]. 雷达学报, 2017, 6(2): 195-203. WANG S Y, GAO X, SUN H, et al. Method of aircraft target detection in high resolution SAR image based on convolutional neural network[J]. Journal of Radar, 2017, 6(2): 195-203. DOI:10.12000/JR17009 (in Chinese)

[19]	LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791

[20]	IOFFE S, SZEGEDY C.Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International Conference on Machine Learning, 2015: 448-456.

[21]	HE K M, GKIOXARI G, DOLLAR P, et al.Mask R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2017: 2980-2988.