基于EfficientDet的无预训练SAR图像船舶检测器*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

遥感图像船舶检测在民用和军用领域应用前景广泛，而合成孔径雷达(Synthetic Aperture Radar，SAR)图像由于其全天候、全天时、可穿透的特点，是船舶检测的主要技术手段^[1]。随着越来越多的SAR卫星发射，原始的SAR图像数据日益增长，如何从中快速准确检测船舶成为亟需解决的问题^[2-3]。
传统的SAR图像船舶检测通常分为4个阶段：地面遮掩、预处理、预筛选以及识别。地面遮掩将与海面成像结果悬殊的地面遮掩掉，从而减少探测面积^[4]。预处理使用多种图像处理方法，如斑点噪声过滤等^[5]，将原始的SAR图像转换成更易探测船舶的图像。预筛选阶段，将一些可能是船舶的像素提取为候选目标，在搜索候选像素时，主流方法为恒定虚警率法^[6]和广义似然比测试法^[7]。识别阶段通过排除虚警区域同时接受包含真实目标区域来提取船只。这类方法利用SAR图像的统计信息，借助人类专家的先验知识，通过将图像转换到频域进一步提高了检测性能，但由于其核心思想是基于海杂波建模和参数估计进而找到代表船舶的像素点，同时由于人工标记特征的提取能力是有限的，在一些特殊场景，特别是在海岸线、港口等陆海交界的复杂环境下不能充分提取SAR图像船舶的特征，这些方法存在鲁棒性差，不能实现端到端操作，仍然需要人力干预的问题。
随着深度学习技术的发展，开始出现将卷积神经网络应用于SAR图像船舶检测的方法。由于目前主流的深度卷积神经网络模型是有监督的训练，大多包含数百万个参数，其需要大量人工标注的数据集进行训练。Li^[8]和Wang^[9]等分别基于SAR遥感卫星图像建立了SAR船舶检测数据集，同时运用主流目标检测器获得了基线(Baseline)结果; Liu等^[10]运用单射多框检测器(Single Shot MultiBox Detector，SSD512，512指输入图像长宽为512像素)、更快的区域特征检测卷积神经网络(Faster Regions with CNN Features，Faster R-CNN)^[11]、视网膜网络(RetinaNet)^[12]分别获得了平均准确率(Average Precision，AP)值为89.43%、88.26%、91.36%的检测精度。从部分实验结果可以看到依然存在较多漏检、误检的情况，检测精度还有较大的提升空间。分析原因如下：①遥感图像和自然场景图像之间存在的跨领域不适用性，深度学习目标检测器大多基于自然场景的大型数据集上训练好的参数微调得来，这不能解决SAR成像机制导致的固有缺陷，如相干斑噪声，运动物体存在拖影、重叠、阴影等，即没有解决两者之间的差异性；②卷积神经网络由浅到深，每一层都提取成百上千的特征，浅层特征语义信息少、位置信息多，深层特征与之相反，如何充分利用、融合这些特征是解决假目标和背景干扰，实现多场景、多尺度检测的关键。
由于遥感图像与自然场景图像相比具有目标背景复杂、尺寸多变、有方向性等特点^[13]，在普通场景下可行的迁移学习(利用在大型通用数据集上训练好的参数权重作为网络初始化，再用新的小样本训练)并未取得理想的成绩。随着脱离预训练的检测器性能达到甚至超过有预训练(Pre-training)的网络^[14-15]，尝试运用从头开始(Scratch)训练的方式解决跨领域不适用的问题。SAR图像的固有缺陷要求更高效的特征提取方法，为充分利用高低级特征图的语义信息，在特征金字塔网络(Feature Pyramid Networks，FPN)^[16]结构的基础上进行改进，删减只有一个输入的节点，同时将尺度相同的输入和输出连接起来，形成类似残差网络(Residual Network，ResNet)^[17]的结构，再增加向下的路径，并将其整体看作一个层操作，多次连接从而加强特征融合。
为了实现这些目标，本文提出一种基于可扩展且高效的目标检测器(EfficientDet)^[18]的脱离预训练参数神经网络检测器(SED)，以实现多尺度和多场景的SAR船舶检测。该方法通过使用高效的EfficientNet-D0作为主干网络提取特征，在相较于先前的经典网络，在提升保证性能的同时大大降低了模型参数、算力消耗和训练时长，在测试集上进行测试的速度达到每秒20张图像，基本满足实时性的要求，同时对数据进行归一化操作从而增加训练过程中梯度传输的稳定性以实现脱离预训练模型参数的收敛，最终在SAR船舶检测数据集上取得了最优结果。
1 相关工作单阶段检测器：现有的目标检测器根据是否使用感兴趣区域候选步骤分为两阶段法^{[11, 19-20]}(使用)和单阶段法^{[10, 12, 21-22]}(不使用)。虽然普遍认为两阶段法具有更高的精度，但单阶段法通过使用预设的锚框(Bounding Box)可以更高效简单。本文遵循单阶段检测器设计，方便针对任务调整结构，提升精度。
Scratch训练：文献[14]使用深度连接网络的监督机制，首先实现了从头开始训练并取得了与有预训练网络接近的性能，但无法随意调整主干网络以克服跨领域不适用性。从头开始训练的检测器(ScratchDet)^[15]分析了下采样步长大小对小目标检测精度的影响，推迟下采样操作的同时使用批归一化(Batch Normalization，BN)来稳定训练过程中的梯度传播。但BN操作需要使用大的小批量尺寸(Mini-batch Size)，对实验环境要求较高，本文探讨更简单高效的梯度稳定方法来避免这一缺点同时优化从头开始训练过程。
多尺度特征融合：不论是自然场景，还是遥感SAR图像，目标检测的难点之一就是如何更有效地处理多尺度特征。较早的检测器只是简单的使用骨干网络提取的金字塔特征层^[10]甚至只是最后一层^[19]进行类别和位置预测。FPN^[16]首次使用自上而下的途径组合多尺度特征，路径汇聚网络(Path Aggregation Network，PANet)^[23]在其基础上，额外增加了一条自底向上的路径来进一步融合特征。随着自动机器学习(AutoML)的发展，神经网络架构搜索-特征金字塔网络(NAS-FPN)^[24]使用神经架构搜索自动设计了特征网络拓扑结构。虽然NAS-FPN具有优异的性能，但其消耗了大量算力，且生成的FPN不规律。EfficientDet以更直观、可解释的方式优化了多尺度特征融合。
2 改进方法 2.1 组归一化 BN在文献[25]中首次出现，目的是解决如下2个问题。一是在深度神经网络训练的过程中，每个批次具有不同的分布，增加了模型训练的难度。二是内部变量转换问题(Internal Covariate Shift，ICS)：在训练的过程中，激活函数会改变各层数据的分布，随着网络的加深，这种差异会越来越大，从而出现梯度弥散，使模型难以收敛。Zhu等^[15]通过在SSD的主干网络和检测子网络分别添加BN进行从头开始训练的实验证实了BN可以在优化过程中大幅缓解梯度的波动幅度，从而保证了更大的学习率和更快的收敛。但BN的问题也是显而易见的，由于要在批次中获得更普适的均值和方差，需要足够大的单卡批大小，如ScratchDet使用了128的批大小。这需要较高的硬件条件才能实现，因此尝试使用组归一化(Group Normalization，GN)^[26]。
神经网络的输入数据通常有4个维度，B(Batch)、C(Channel)、H(Height)、W(Width)。训练过程中，显存能储存的数据量即批大小是有限的，在图像处理任务中可能是个位数。为了解决这一缺陷，GN通过在通道维度进行数据的归一化，将通道分为几组后，在组内计算均值和方差以进行归一化，如图 1所示(立方体表示特征图张量，灰色方块表示用于归一化的量)。

图 1 数据归一化的方式 Fig. 1 Methods of data normalization

图选项

GN在计算均值和标准差时，将每个特征图的通道维度分为G组，则每组中有C/G个通道，再对属于细分通道的像素求均值和标准差。每组通道独立地使用与其对应的参数进行归一化，所以GN的运算不受批大小的影响，并且精度比BN更加稳定。GN的推导过程如下：

(1)

式中: x为特征图计算的张量，i为索引号，即x_i=[x_iB, x_iC, x_iH, x_iW];

为经过归一化处理的张量；μ和σ分别为均值和标准差，计算方法如下：

(2)

(3)

式中：ε为一个极小的常数，保证σ≥0；b、c、g、h、w为索引号；B、C、G、H、W为取值范围，其中G为人为设定的分组数量，C/G为每组的通道数。GN由于并不在批次维度进行归一化，所以在小批次训练时的表现比BN更加优秀^[26]。当想要使用小批次数据实现模型的从头开始训练时，GN对稳定优化过程中梯度变化，防止后向传播时发生梯度弥散的手段起着重要的作用。BN与GN的应用对比将在3.2节以消融实验的形式呈现。
2.2 特征提取遥感SAR图像中的船舶绝大多数是相对尺寸(

，w_bbox和h_bbox分别为框的宽和高，w_img和h_img分别为图像的宽和高)小于0.2的小目标对象^[9]，这就要求作为特征提取部分的主干网络具有更强的提取能力，通常的做法是使用更复杂的模型^[17]。而为了避免梯度弥散的发生，保证从头开始训练，同时减少下采样次数，尽可能增大深层特征图的感受野，提高小目标检测能力，又要求网络尽可能简化。这本身是相互矛盾的，但深度可分离卷积(Depthwise separable Convolution，DWConv)^[27]和倒残差模块(IRes)^[28]的出现，一定程度上实现了两者兼具。DWConv将普通卷积每个卷积核与每张特征图按位相乘再相加的步骤分离进行，先在通道维度进行按位相乘的卷积运算，此时Channel不变，再用1×1卷积与第1步的结果进行卷积(Pointwise conv，PW)，如图 2所示。通过调整1×1卷积个数改变通道，从而使得DWConv计算量约为普通卷积的1/(kernelsize)²，损失精度仅为1%。

图 2 两种卷积对比 Fig. 2 Comparison of two convolutions

图选项

残差模块^[17]可以有效地复用之前的数据特征，如图 3所示，其输入量经过1×1卷积压缩，再使用3×3卷积提取特征，最后用1×1卷积将通道数增大，同时将输入与输出再次相加，形成如同沙漏的"压缩-卷积-扩张"的数据流图，从而使得卷积层集中精力学习输入、输出之间的残差。文献[28]直接将DWConv应用到残差模块中并不能提升性能，原因是DWConv的特征提取能力受限于输入的通道数量，而倒残差模块的数据流图是"扩张-卷积-压缩"，类似纺锤的形状，在卷积操作前先进行扩张，保证了特征提取能力。

图 3 残差模块和倒残差模块数据流图对比 Fig. 3 Comparison of data flow graph between residual blocks and inverted residual blocks

图选项

2.3 特征融合特征融合将不同分辨率的特征图信息充分利用如图 4(a)所示，可以实现对多尺度目标较好的检测结果。网络自底向上的前向传播过程中，随着下采样次数的不断增加，语义信息越来越多，而位置信息逐渐减少。尽管更深的特征图拥有更多的语义信息，但是其分辨率较低，经过5次下采样后，原始图像中32×32像素的物体只有1×1像素大小，因此更深的特征图对小尺寸目标检测精度低。

图 4 特征融合网络设计 Fig. 4 Design of feature fusion network

图选项

EfficientDet使用的高效双向跨尺度连接和加权特征融合(BiFPN)如图 4(b)所示，使用以下技巧来提高性能：①拥有自顶向下和自底向上2条路径融合特征；②忽略只有一个输入的节点并加入跳跃连接以轻量化网络；③可学习权重自动加权融合过程的输入特征。为了更加充分地利用不同层级的语义和位置信息，在BiFPN的基础上改进(见图 4(c))，增加了跨级的数据流，实验证明这提升了网络性能。P_i表示主干网络中分辨率为输入图像(1/2ⁱ)的特征图。
本文选择倒残差模块作为主干网络基础结构，运用数据归一化手段对优化过程中梯度稳定性进行优化，降低主干网络下采样次数，使网络可以脱离预训练，最终实现端到端的目标检测，模型如图 5所示。

图 5 网络结构示意图 Fig. 5 Schematic diagram of network structure

图选项

3 实验与分析 3.1 实验准备
3.1.1 数据集本文中使用的数据主要来源于中国的高分3号SAR卫星和欧洲航天局的Sentinel-1 SAR卫星，总共使用了102张高分3号图像和108张Sentinel-1图像^[9]。数据集包括43 819张切割后的船舶图像。高分3号SAR卫星的成像模式包括超细带状图(Ultrafine Strip-map，UFS)、精细带状图 1(FSⅠ)、全极化1(QPS Ⅰ)、精细带状图 2(FS Ⅱ)和全极化2(QPS Ⅱ)，分辨率分别为3 m、5 m、8 m、10 m和25 m。Sentinel-1 SAR卫星的成像模式是分辨率从1.7 m×4.3 m~3.6 m×4.9 m的宽视场成像的S3 Strip-Map(SM)、S6以及分辨率为22 m的干涉测量宽幅(IW)模式。船舶目标数据及其标注示例如图 6所示，参照微软语义场景通用目标(MS COCO)^[29]格式制作数据集，并划分70%为训练集、20%为验证集、10%为测试集。

图 6 复杂背景下的船舶数据集可视化 Fig. 6 Visualization of a ship dataset in complex background

图选项

3.1.2 网络训练实验平台系统为Ubuntu 18.04，图形处理单元(GPU)为NVIDIA RTX 2080Ti，深度学习框架为pytorch。为了训练收敛，采用亚当优化器梯度下降方法^[30]，其使用了梯度的一阶矩估计和二阶矩估计来自适应地调整每个参数的学习步长。Adam衰减系数分别为0.9和0.999。若无特殊说明，图像输入大小均为512×512，批大小均为12。在主干网络和子网络同时设置BN或GN，位置为DWConv操作后，激活函数前。损失函数使用聚焦损失函数^[12]。

3.1.3 评价指标船舶检测需要返回目标框位置信息和二分类置信度。评估指标主要有准确率P(Precision)、召回率R(Recall)和AP值，定义如下：

(4)

(5)

(6)

式中：TP为对象本来为正例，网络识别为正例；FP为对象本来为负例，网络识别为正例；FN为对象本来为正例，网络识别为负例。因此，TP+FP为检测到的所有船舶数量，TP+FN为实际船舶总数。由于实际中P关于R的函数是离散的，不同的预测框和标注框的交并比(IoU)下存在不同的P和R，AP在计算时由IoU划分包络曲线。AP_0.5表示当预测框和标注框的IoU≥0.5时认为识别正确，计算此时的AP值，AP_{0.5∶ 0.95}表示预测框和标注框的IoU从0.5~0.95，间隔0.05取值，在此IoU取值下，认为识别正确，计算AP并取平均值。AP_{0.5∶ 0.95}比AP_0.5更严格。
3.2 结果与分析
3.2.1 消融实验如第2节所述，SED具有GN和改进BiFPN这2个核心构件，为了评估这2个构件对性能提升的作用，如表 1所示开展消融实验，最左侧的Baseline为EfficientDet-D0基于预训练参数迁移学习得到的结果。可以看到，右侧没有BN或GN的实验条件下，模型从头开始训练无法收敛(Nan)，而训练过程中有归一化优化数据操作，即存在BN或者GN可以使以EfficientNet作为主干的模型实现脱离预训练的收敛。
表 1 消融实验 Table 1 Ablation experiment

条件	组成
预训练	√
BN	√	√	√
GN				√	√
BiFPN	√	√		√		√
改进BiFPN			√		√
AP_0.5/%	92.3	93.4	93.5	93.7	94.2	Nan
AP_0.5∶0.95/%	60.0	59.9	60.6	63.3	64.7	Nan

表选项

由于实验硬件的限制，每个小批量尺寸最大只有12，BN的效果被削弱，而在Channel维度进行归一化的GN操作则没有这些限制，并同样能够优化梯度传播。在表 1中可以看到，使用GN相比于BN在AP_0.5指标下提升0.3和0.7(2、4列比较，3、5列比较)，在AP_{0.5∶ 0.95}指标下提升3.4和4.1(2、4列比较，3、5列比较)。在其他条件相同的情况下，本文提出改进BiFPN组件，通过增加FPN的数据路径，在AP_0.5指标下提升幅度较小，为0.1和0.5(2、3列，4、5列比较)，在更严苛的AP_{0.5∶ 0.95}指标下提升0.7和1.4(2、3列，4、5列比较)，证明了更好的融合不同层级之间的数据对性能的提升。

3.2.2 对比实验为了更好地评估SED的性能，使用了5个模型，即SSD、Faster R-CNN、RetinaNet、EfficientDet-D0和EfficienDet-D4开展对比实验。为保证结果公平，均在本实验平台重新进行训练，除本文提出的SED模型外，其他均采用有预训练模型的迁移学习进行训练，受限于平台硬件性能，即使将训练时的批大小缩小至1依然无法训练EfficientDet模型系列中最优的D7，因此采用能够训练的D4模型作为比较对象。表 2为5种经典模型和本文提出的SED实验结果对比，其中不同模型在每种指标下的最优结果已加粗表示。从表 2的数据中可以得出，SED模型大小只有15.4 MB，是所有对比模型中最小的，虽然训练时长、测试时长、每秒处理图像数量各个单项并不是最优，但综合各项指标，尤其是代表精度性能，在AP_0.5和AP_{0.5∶ 0.95}值方面取得了最佳成绩。图 7中不同模型对相同图像的检测结果可视化对比也证实了本文所提的SED在多场景情况下取得了更好的结果。
表 2 不同模型结果对比 Table 2 Comparison of results among different models

指标	SSD300	SSD512	Faster R-CNN (R50)	RetinaNet (R50)	EfficientDet-D0 (预训练)	EfficientDet-D4 (预训练)	SED
AP_0.5/%	88.5	89.6	91.8	92.9	92.3	93.4	94.2
AP_0.5∶0.95/%	49.1	51.4	54.9	57.1	60.0	62.7	64.7
训练时长/min	10	43	23	15	14	195	19
测试时长/s	77	126	114	115	144	326	227
图像处理速度/(fp·s^-1)	56.6	36.3	38.6	38.0	30.5	13.5	19.3
模型大小/MB	190.0	195.0	247.6	303.2	15.7	83.2	15.4

表选项

图 7 不同模型预测结果可视化 Fig. 7 Visualized prediction results of different models

图选项

SSD512和SSD300的不同是输入尺寸的不同，由表 2可以看到越大的输入尺寸，结果越好，这是因为更多的小目标在大图像中经过多次下采样后在深层特征图中依然可以提供足够的位置信息。Faster R-CNN和SSD主要用于评估FPN的语义多尺度特征对性能的影响。基于ResNet50迁移学习的Faster R-CNN(双阶段法)和RetinaNet(单阶段法)的结果对比用来验证单阶段法在SAR图像类中更具优势。RetinaNet和SSD对比，评估聚焦损失函数对结果的影响。EfficientDet作为最新最高效、精度最高的目标检测器，算法EfficientDet-D0的AP_0.5值达到了92.3%，而EfficientDet-D4的AP_0.5值达到了93.4%。但是经过对训练损失函数的分析，发现EfficientDet-D4由于批大小只有1，在训练过程中损失值下降极不平滑，波动性极大，在脱离预训练参数的条件下难以收敛，决定通过第2节所述的技巧在EfficientDet-D0的基础上优化，检测精度取得了进一步的提升。一方面原因是成功脱离预训练进行实验，对多场景检测结果的优化，因为没有采用自然场景下的初始化参数，可以更大程度地避免SAR图像成像机制所产生的固有缺陷对检测结果的影响，令模型更好地学习SAR图像特征，在复杂的多场景下，尤其是陆海交界处，获得更好的结果；另一方面是Modified-BiFPN对小目标检测做出的贡献，通过增加不同层级之间的数据流通管道，将浅层的、精细的位置信息和深层的、粗糙的语义信息更好地融合，在小目标占比高的SAR图像船舶数据中，获得了更好的性能提升。
由表 2数据可知，由于SSD300的输入图像大小为300×300，在训练时长、测试时长和每秒处理图像张数方面取得了最优解，但在输入图像大小均为512×512的其他模型中，EfficientDet-D0的训练时长最短，图像处理速度达到30.5 fp/s，SED是在EfficientDet-D0的基础上进行改进，由于添加了GN和从头开始训练的原因，训练时长稍有增加，图像处理速度也下降到19.3 fp/s，但基本满足实时性的要求，同时模型大小最小，便于在一些有算力限制的场景下部署。
图 7为在不同复杂场景中获得的检测结果。当背景是远离陆地的海面时，所有模型都表现出了有效的检测精度。当船舶接近陆地、岛屿和港口时，尽管模型仍然能够检测到船舶，但除了SED外，其他模型均存在不同程度的误报或漏报情况。漏报的发生主要是因为SSD虽然采用了多层卷积层提取的特征，但只是简单地叠加信息，而Faster R-CNN和RetinaNet虽然采用了FPN结构融合特征，但信息复用不够充分，EfficientDet的检测结果虽然已经很好，但由于依赖了分类模型的预训练模型参数，位置回归不够准确。本文提出的SED不管是在分类准确度还是预测框回归上均取得了最佳效果。
4 结束语在公开的SAR图像船舶检测数据集上的实验证明了本文SED模型在多尺度和多场景SAR船舶检测中的有效性。使用GN作为梯度优化手段可以在较小的迷你批大小的条件下实现脱离预训练的模型收敛，一定程度上解决了跨领域不适用性的问题，从而实现多场景下的有效检测。改进BiFPN用更典型简洁的结构将具有更多语义信息和更高分辨率的不同特征数据合并。低级的特征图适用于检测小型船舶，而高级的特征图适用于检测大型船舶，多次使用改进BiFPN使本文模型更适合于多尺度SAR船舶检测。SED在与其他模型的对比中，不仅检测精度达到了最优，模型大小也是最小的，训练难度低，虽然测试速度略有下降，但依然满足实时性的要求。
在之后的研究中将进一步对网络进行优化，并考虑将生成式对抗网络加入检测器当中，增强网络的鲁棒性能，并且进一步提高检测精度。

参考文献

[1]	KANJIR U, GREIDANUS H, KRIS ˇTOF O. Vessel detection and classification from spaceborne optical images: A literature survey[J]. Remote Sensing of Envioronment, 2018, 207: 1-26.

[2]	WANG Y, WANG C, ZHANG H, et al. Automatic ship detection based on retinanet using multi-resolution gaofen-3 imagery[J]. Remote Sensing, 2019, 11(5): 531. DOI:10.3390/rs11050531

[3]	EL-DARYMLI K, GILL E W, MCGUIRE P, et al. Automatic target recognition in synthetic aperture tadar imagery: A state-of-the-art review[J]. IEEE Access, 2016, 4: 6014-6058. DOI:10.1109/ACCESS.2016.2611492

[4]	YANG C S, PARK J H, RASHID A. An improved method of land masking for synthetic aperture radar-based ship detection[J]. Journal of Navigation, 2018, 71(4): 788-804. DOI:10.1017/S037346331800005X

[5]	MOLINA D E, GLEICH D, DATCU M, et al. Gibbs random field models for model-based despeckling of SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2009, 7(1): 73-77.

[6]	QIN X X, ZHOU S L, ZOU H X, et al. A CFAR detection algorithm for generalized gamma distributed background in high-resolution SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2013, 10(4): 806-810. DOI:10.1109/LGRS.2012.2224317

[7]	ZHAO J, ZHANG Z, YU W, et al. A cascade coupled convolutional neural network guided visual attention method for ship detection from SAR images[J]. IEEE Access, 2018, 6: 50693-50708. DOI:10.1109/ACCESS.2018.2869289

[8]	LI J, QU C, SHAO J. Ship detection in SAR images based on an improved faster R-CNN[C]//2017 SAR in Big Data Era: Models, Methods and Applications. Piscataway: IEEE Press, 2017: 1-6.

[9]	WANG Y, WANG C, ZHANG H, et al. A SAR dataset of ship detection for deep learning under complex backgrounds[J]. Remote Sensing, 2019, 11(7): 765. DOI:10.3390/rs11070765

[10]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multiBox detector[C]//European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.

[11]	REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems, 2015: 91-99.

[12]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 2999-3007.

[13]	NOGUEIRA K, PENATTI O A, DOS SANTOS J A. Towards better exploiting convolutional neural networks for remote sensing scene classification[J]. Pattern Recognition, 2017, 61: 539-556.

[14]	SHEN Z, LIU Z, LI J, et al. DSOD: Learning deeply supervised object detectors from scratch[C]//2017 IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 1919-1927.

[15]	ZHU R, ZHANG S, WANG X, et al. ScratchDet: Training single-shot object detectors from scratch[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 2268-2277.

[16]	LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 2117-2125.

[17]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778.

[18]	TAN M, PANG R, LE Q V. EfficientDet: Scalable and efficient object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2020: 10781-10790.

[19]	GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2015: 1440-1448.

[20]	HE K, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 2961-2969.

[21]	REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/OL]. [2020-05-13]. https://arxiv.org/abs/1804.02767.

[22]	TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully convolutional one-stage object detection[C]//2019 IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 9627-9636.

[23]	LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 8759-8768.

[24]	GHIASI G, LIN TY, LE Q V. NAS-FPN: Learning scalable feature pyramid architecture for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 7036-7045.

[25]	IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning. New York: ACM Press, 2015: 448-456.

[26]	WU Y, HE K. Group normalization[C]//European Conference on Computer Vision. Berlin: Springer, 2018: 3-19.

[27]	HOWARD A G, ZHU M, CHEN B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[EB/OL]. [2020-05-13]. https://arxiv.org/abs/1704.04861.

[28]	SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 4510-4520.

[29]	CHEN X, FANG H, LIN T, et al. Microsoft COCO captions: Data collection and evaluation server[J]. (2015-04-03)[2020-05-13]. https://arxiv.org/abs/1504.00325.

[30]	KINGMA D P, BA J. Adam: A method for stochastic optimization[EB/OL]. (2017-01-30)[2020-05-13]. https://arxiv.org/abs/1412.6980v9.