基于代价敏感剪枝卷积神经网络的弹道目标识别*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

高分辨距离像(High-Resolution Range Profile，HRRP)是宽带雷达的回波在对应散射距离单元上的叠加，包含了散射源丰富的结构信息，且具有获取容易、处理速度快等优势，可作为弹道目标识别的有效信息^[1-2]。
作为深度学习的经典算法之一，卷积神经网络(Convolutional Neural Network，CNN)^[3]具有较强的特征提取能力，在基于HRRP的雷达目标识别领域中具有较多的研究与应用。例如，Chen等^[4]将极值理论引入到CNN中，并使用openmax层代替Softmax分类器用于估计HRRP样本属于已知类别和未知类别的概率，解决了HRRP的开集识别问题；Guo等^[5]使用多尺度卷积核提取HRRP的不同精细度特征，并构造中心损失函数对网络进行训练，有效克服了目标平移敏感性和姿态敏感性问题；Wan等^[6]将原始的一维HRRP数据转化为二维的光谱图，并利用深度CNN对HRRP光谱图进行识别，同时引入了基于反卷积的解码器结构克服了离群值的影响，相比基于原始HRRP的识别方法具有更高的识别正确率；Wen等^[7]结合迁移学习技术，先利用视角完备的HRRP辅助数据集对一维CNN(One-Dimensional CNN，1D-CNN)进行预训练，再使用真实数据对预训练的模型进行微调，提高了视角不完备条件下的HRRP识别效果。
虽然以上基于CNN的方法解决了特定条件下的雷达目标识别问题，但对于弹道导弹目标HRRP识别而言，仍然存在以下2个方面的不足：
1) 以目标的整体识别正确率为目标，忽略了各类目标的误识别代价。对于弹道目标识别，把弹头误识别为诱饵比把诱饵误识别为弹头所产生的代价大得多^[2]，因此，考虑误识别代价的影响至关重要。
2) CNN在网络的构造过程中需要人工调参，因此，很难在有限的时间内找到误识别代价较小的网络结构，同时往往造成模型过参数化，导致其具有较高的运算复杂度。
针对以上问题，本文提出了一种基于代价敏感剪枝(Cost-Sensitively Pruning，CSP)1D-CNN的弹道目标HRRP识别方法，其创新点如下：
1) 将1D-CNN的代价敏感识别问题和模型压缩问题统一为寻找误识别代价较小的子网络(即代价敏感子网络)问题，建立了以此为目标的数学规划模型。
2) 针对1D-CNN代价敏感子网络的搜索问题，提出了基于人工蜂群算法^[8]的CSP算法，实现了网络结构的自动搜索，得到的代价敏感子网络具有相对较低的计算复杂度和整体误识别代价。
3) 针对传统剪枝算法在微调过程中未考虑误识别代价的问题，提出了代价敏感交叉熵(Cost-Sensitive Cross Entropy，CSCE)损失函数，使代价敏感子网络以最小化误识别代价为目标进行训练。
1 一维卷积神经网络 CNN是一类包含卷积计算的深度前馈神经网络，1D-CNN主要处理的是一维数据。与处理图像等二维数据的CNN类似，1D-CNN核心模块一般包括一维卷积层、池化层、全连接层和Softmax分类器。其中，一维卷积层和池化层一般以成对的形式存在，通过对卷积-池化层进行多次叠加形成深度1D-CNN。
1.1 一维卷积层对于包含

个卷积层的深度1D-CNN，设X^(l)∈R^{D^(l)×C^(l)}为第l层的多通道输入，D^(l)和C^(l)分别为特征长度和通道个数，且每个通道对应一个卷积核。X^(l)与该层的第k∈{1，2，…, C^(l)}个长度为H^(l)的卷积核W^{(k, l)}∈R^{C^(l)×H^(l)}进行运算，产生的一维特征图为

(1)

式中：b^{(k, l)}为第k个卷积核的偏置参数；δ(·)为非线性激活函数，目的是为模型增加非线性因素。
1.2 批归一化批归一化通过对每个批次的输入数据进行归一化处理，增加了损失函数的Lipschitz连续性，即降低了损失函数的变化速率和梯度的幅度，使得网络训练对超参数不敏感，从而快速收敛^[9-10]。因此，使用其对卷积层的输出归一化到均值为0、标准差为1的分布。设卷积层的输出为x=[x⁽¹⁾, x⁽²⁾, …, x^(d)]，每一维的输出归一化为

(2)

式中：期望E[·]和标准差Var[·]在训练数据集的每个小批次中进行计算；ε为接近0的数，用以防止分母为0。
引入超参数γ^(k)和β^(k)对归一化值进行缩放和平移：

(3)

1.3 池化层池化层可以对特征图进行下采样，起到减少数据量的同时保留有用信息的作用。如果采用最大池化的方法，对于第l个池化层的第k个输入特征图，最大池化后输出特征图位置i处的值由式(4)给出：

(4)

式中：r^(l)和s^(l)分别为第l个池化层的池化窗口大小和池化操作步幅。
1.4 全连接层与Softmax分类器对于末尾的一维卷积层，各个通道的特征图长度如果为1，则可直接连接分类器进行分类，如果不为1，则需将各个通道的特征图进行拉平操作，形成一个长度为L_u的向量u，其后连接全连接层或者Softmax分类器。如果是全连接层，设u经过全连接层的输出为u′，则u′在位置i处的值为

(5)

式中：L_u′为全连接层的神经元个数；w为全连接层的权重参数；b′为全连接层的偏置参数。
Softmax分类器可视作特殊的全连接层，其神经元个数与待分类目标的类别总数相等，并且使用Softmax激活函数。设目标的类别总数为K，Softmax分类器的参数表示为θ_sm={W_sm, b_sm}，W_sm和b_sm分别为Softmax分类器的权重和偏置参数，对于每个输入样本(x_n, y_n)，x_n和y_n分别为样本数据和对应的真实标签，分类器所在全连接层第j个神经元的输出表示的是将样本x判断为第j个类别的概率，即

(6)

式中：?_θ^*(·)为分类器前所有层提取的特征；θ^*为除分类器之外的所有特征提取层参数；θ={θ^*, θ_sm}为网络的所有可训练参数。
样本x_n的预测过程就是最大化后验概率，即

(7)

对于训练阶段，网络在整个训练数据集{(x_n, y_n)}_n=1^N上的交叉熵(Cross Entropy，CE)损失函数为

(8)

式中：N为训练集训练样本个数；1{·}为指示函数，即1{true}=1，1{false}=0。
2 基于代价敏感剪枝的1D-CNN 2.1 模型结构基于1D-CNN的弹道目标HRRP识别模型结构具体如图 1所示。网络的输入为含有256个距离单元的HRRP样本，输出为弹头、高仿诱饵、简单诱饵、母舱和球形诱饵等5个目标的后验概率，因此K=5。模型含有4个一维卷积层，各层的卷积核数目分别为100、200、400和800，各层输入不进行零填充，卷积核大小和步幅皆分别为5和1，同时将输出进行批归一化之后再使用Mish^[11]函数激活。最大池化层的窗口大小和步幅皆为3。由于输入的含有256个距离单元的HRRP数据经过整个网络进行处理之后各个通道输出的特征长度为1，无需拉平操作，直接连接Softmax分类器。

图 1 1D-CNN整体结构 Fig. 1 Architecture of 1D-CNN

图选项

2.2 代价敏感子网络为了评价模型对测试数据集的整体误识别代价，首先定义一个K×K的矩阵M用以描述K个类别相互之间的误识别代价：

(9)

式中：m_ij表示真实类别为i的样本被识别为类别j的代价。
设模型对于测试数据集的混淆矩阵为Z_K×K=[z_ij]_K×K，即z_ij表示真实类别i被识别为类别j的样本总数。因此，对于给定的代价矩阵M，测试数据集的整体误识别代价cost为M和Z的Hadamard积中的所有元素之和，即

(10)

彩票假设^[12-13]指出，一个随机初始化的较大的原始网络中存在一些较小的子网络(即“中奖彩票”)，这些子网络各自独立地通过与原始网络相同次数的训练之后可以达到与原始网络相近的识别正确率。为了在保证与原始模型相近的识别正确率前提下，找到整体误识别代价较小的子网络，即代价敏感子网络，可将上述“中奖彩票”中整体误识别代价较小的网络作为代价敏感子网络。Liu等^[14]进一步指出，可通过网络结构搜索的方式对原始网络进行通道剪枝，即确定子网络各个卷积层合适的通道个数，从而获得这些“中奖彩票”，亦可使用网络结构搜索的方式找到代价敏感子网络。
2.3 代价敏感剪枝按照如图 2所示的典型网络剪枝流程^[14]，先对较大的原始网络进行预训练，再对网络进行剪枝获得一个代价敏感的子网络，最终构建代价敏感损失函数对其进行微调，进一步降低整体误识别代价。

图 2 三阶段网络剪枝流程 Fig. 2 Three-stage network pruning procedure

图选项

设原始网络

中各个卷积层的卷积核组成的集合为

，对应通道个数组成的集合为

。相应地，

的子网络

包含的卷积核和通道个数组成的集合分别表示为

和

，且

。对于给定的训练数据集

和测试数据集

，为了获得一个最优的代价敏感子网络，选择以确定最优的通道个数集合

为目标，使得对应的子网络

在

上微调之后对

具有最小的整体误识别代价。因此，该优化目标可描述为以下规划问题：

(11)

式中：cost(·)表示模型的整体误识别代价，由式(10)进行计算得到；α∈(0, 100%]为给定的通道个数保留百分比上限超参数，表示在剪枝的过程中子网络每个卷积层最多只保留原始网络

中对应卷积层百分比为α的通道个数，起到了限定子网络通道个数的上界，以达到剪枝效果和缩小搜索空间的作用。
就一个较大的原始网络而言，其子网络个数为

，即使引入超参数α，通过遍历的方法寻找较优的代价敏感子网络也难以在相对较少的搜索次数内实现。因此，引入人工蜂群算法对原始网络结构进行自动结构搜索来解决此问题。基于人工蜂群的CSP算法如算法1所示，主要分为初始化阶段、雇佣蜂阶段、跟随蜂阶段和侦察蜂阶段。
1) 初始化阶段。将子网络的通道个数集

视为蜜源，对数量为Ω的蜜源集

进行初始化，即每个卷积层的通道个数

在(0, αC^(l)]之间随机选取。
2)雇佣蜂阶段。雇佣蜂为每个蜜源

在其邻域范围内寻找一个新的蜜源

，

中每个卷积层的通道个数通过式(12)计算得到。将子网络

和

训练Φ个周期，并通过式(13)分别计算出

和

的适应度值

和

，如果

，则使用

替代

，否则保持

不变。

(12)

式中：?为在[－1, +1]上服从均匀分布的随机数；

为随机选取的邻居蜜源，且j≠g；[·]表示取整数部分。

(13)

3) 跟随蜂阶段。跟随蜂利用式(14)通过轮盘赌选择法选择一个蜜源，并将选择的蜜源使用式(12)产生新的蜜源，再根据其各自的适应度值对新旧蜜源进行贪婪选择。

(14)

式中：

；β∈(0, 1)，用于避免

时，P_j=0。
4) 侦察蜂阶段。如果蜜源

经过Ψ次搜索之后仍未在邻域内找到比其更优的蜜源，则按照初始化阶段的方法随机生成一个蜜源代替

。
在雇佣蜂阶段和跟随蜂阶段都用到了式(13)对给定蜜源

的适应度进行计算，但是从头开始训练

对应的子网络

再通过式(10)求得

的整体误识别代价是非常耗时的。因此，按照

中各个卷积层的具体通道个数，首先从经过预训练的原始网络

中对应的卷积层随机挑选相应数目的卷积核作为

的卷积核，使得

中各个卷积层参数完全继承自

，再对

训练周期Φ计算适应度。
算法1? 基于人工蜂群的CSP算法。
输入：经预训练的初始网络

；搜索周期

；蜜源数量Ω；通道个数保留百分比上限超参数α；蜜源等待更新次数上限Ψ；训练数据集

；测试数据集

；计算适度值时子网络训练周期数Φ；轮盘赌选择法参数β。
输出：最优的通道个数集合

对应的最优代价敏感子网络

。
# 初始化阶段：
1：为每个蜜源设置计数器，初始化计数器的值为0：{t_j}_j=1^Ω=0。
2：根据α的值初始化集合

中的每个蜜源。
3：FOR

DO
# 雇佣蜂阶段：
4：??FOR j=1→Ω DO
5：????通过式(12)产生一个新的蜜源

。
6：????将子网络

和

练Φ个周期，并通过式(13)分别计算出

和

适应度值

和

。
7：????IF

THEN
8：??????

；
9：??????

；
10：??????t_j=0；
11：??ELSE
12：??????t_j=t_j+1；
13：??END
14：END
# 跟随蜂阶段：
15：FOR j=1→Ω DO
16：??将β代入式(14)计算概率P_j。
17：??随机生成一个随机数?_j∈[0, 1]。
18：??IF ?≤P_j THEN
19：????通过式(12)产生一个新的蜜源

。
20：????将子网络

和

训练Φ个周期，并通过式(13)分别计算出

和

适应度值

和

。
21：????IF

THEN
22：??????

；
23：??????

；
24：?????? t_j=0；
25：????ELSE
26：??????t_j=t_j+1；
27：????END
28：??END
29：END
# 侦察蜂阶段：
30：FOR j=1→Ω DO
31：??IF t_j>Ψ THEN
32：??????重新初始化

。
33：??END
34：END
35：END
36：

37：RETURN最优的通道个数集合

对应的最优代价敏感子网络

。
在算法1所示的人工蜂群算法中的4个阶段，都会因计算新生成的子网络适应度而增加额外的训练周期。对于初始化阶段，Ω个子网络计算适应度增加的额外训练周期总数为Ω×Φ。雇佣蜂阶段每个搜索周期内亦有Ω个子网络需计算适应度，该阶段增加的额外训练周期总数为

。跟随蜂阶段和侦察蜂阶段具有较大的随机性，额外增加的训练周期数的范围分别在

范围内，则剪枝过程中增加的额外训练周期总数至少为

，最多为

。因此，算法1引入相对增加了模型在训练过程中的计算量，但对于弹道目标识别而言，有效降低模型在识别过程的计算量比降低模型在训练过程中的计算量相对更为重要，而控制通道数量超参数α的引入可以使算法1在搜索过程中寻找通道数更少而误识别代价更小的子网络，进而减少识别过程中的计算量。
2.4 CSCE损失函数传统的剪枝算法在微调过程中对代价敏感子网络的训练策略和预训练过程相同，即通过最小化分类损失进一步使代价敏感子网络分类错误率最小化，不能保证微调后的代价敏感子网络具有较低的误识别代价。为了使代价敏感子网络在微调过程中仍以最小化误识别代价为目标，可构造代价敏感损失函数，使其侧重对误识别代价较高的类别正确分类^[15]。
为了实现上述目标，首先对式(8)表示的CE损失函数按照各个类别展开，得

(15)

式中：{N_k}_k=1^K为数据集中各个类别的样本的总数，且

为J(θ)关于第k个类别的分项，即

(16)

由式(15)可以看出，整体损失函数关于各个类别的分项具有平等的重要性，在训练过程中不能起到侧重对误识别代价较高的类别正确分类的作用。因此，对损失函数中关于每个类别的分项分配不同的权重λ_i，即

(17)

式中：{λ_k}_k=1^K>0。
在式(17)中，对于误识别代价较高的类别，可以赋予相对较大的权重，从而使得网络的训练更加倾向于对该类别的样本正确分类，由此得到了CSCE损失函数。对于弹道目标识别而言，弹头识别正确率的重要性是远大于诱饵等其他目标的，模型应该尽量拟合弹头这类目标的样本。假设J₁(θ)为J(θ)关于弹头这类目标的分项，可将式(17)简化为

(18)

式中：超参数λ>0，用于控制模型对弹头类目标样本和其他类目标样本的相对拟合程度。
3 实验与分析 3.1 实验数据为检验本文算法的性能，建立了弹头、高仿诱饵、简单诱饵、球形诱饵和母舱等5类典型弹道目标的仿真模型，其具体物理参数如图 3所示，同时使用FEKO软件中的物理光学算法对这5类目标进行高频散射计算来获取其HRRP数据^[16]。仿真采用水平极化方式，雷达中心频率设置为10 GHz，鉴于各个目标的对称性，仿真的方位角范围设置为0°~180°，仿真精度为0.05°。

图 3 仿真目标物理特征 Fig. 3 Physical characteristics of simulated targets

图选项

每类目标分别仿真得到了3 601个不同方位角下的HRRP样本，其距离单元个数E=256。随机从每类目标的HRRP样本中选取其中的20%组成测试数据集，将剩余的样本按照表 1所示的样本个数组成训练数据集，其中Im0为平衡数据集，Im1、Im2和Im3为相对不平衡的数据集，且Im1的弹头样本数量> Im2的弹头样本数量> Im3的弹头样本数量。假定弹头的误识别代价>高仿诱饵的误识别代价>简单诱饵的误识别代价>母舱的误识别代价>球形诱饵的误识别代价，并且在不平衡数据集中误识别代价高的类别分配的样本数量相对较少，用以检验算法在不同数据分布条件下的识别性能。
表 1 数据集样本数量 Table 1 Sample number of datasets

数据集	训练数据集各类样本数					测试数据集各类样本数
数据集	弹头	高仿诱饵	简单诱饵	母舱	球形诱饵	测试数据集各类样本数
Im0	2 881	2 881	2 881	2 881	2 881	720
Im1	2 305	2 449	2 593	2 737	2 881	720
Im2	1 729	2 017	2 305	2 593	2 881	720
Im3	1 152	1 729	2 305	2 593	2 881	720

表选项

3.2 实验设计为了检验提出的CSP算法和CSCE损失函数对传统1D-CNN的改进效果，分别将单独使用CE损失函数训练的1D-CNN——CNN1D(CE)、同时结合CSP和CE损失函数训练的1D-CNN——CNN1D(CSP+CE)、单独使用CSCE损失函数训练的1D-CNN——CNN1D(CSCE)和同时结合CSP和CSCE损失函数训练的1D-CNN——CNN1D(CSP+CSCE)进行对比。
模型训练采用diffGrad算法^[17]，并使用文献[17]中的默认参数设置，训练的批大小统一设置为64。上述4个模型中，需剪枝的模型在微调过程中的训练周期数设置为200，无需剪枝的模型在训练过程中周期数设置为200。算法1的参数设置为：搜索周期

=10，蜜源数量Ω=10，蜜源等待更新次数上限Ψ=5，计算适度值时子网络训练周期数Φ=2，轮盘赌选择法参数β=0.1。按照误识别代价由高到低的顺序，将识别正确的代价设为0，同时假定将弹头误识别为诱饵的代价远高于将诱饵误识别为弹头的代价^[2]，给出了如下3个代价矩阵进行实验：

3个代价矩阵从上到下、从左到右分别表示的真实类别和预测类别次序为球形诱饵、母舱、简单诱饵、高仿诱饵、弹头。实验中，按照式(10)计算各算法在不同的代价矩阵下测试数据集的整体误识别代价。
3.3 实验结果分析分别使用CNN1D(CE)、CNN1D(CSP+CE)、CNN1D(CSCE)和CNN1D(CSP+CSCE)等4种方法对不同的数据集进行实验，得到测试数据集整体误识别代价和识别正确率如表 2所示。在相同代价矩阵和数据集条件下，测试数据集整体误识别代价的最优结果已在表 2中加粗表示。
表 2 四种方法的识别结果 Table 2 Recognition results of four methods

代价矩阵	数据集	测试数据集整体误识别代价				测试数据集整体识别正确率/%
代价矩阵	数据集	CNN1D(CE)	CNN1D(CSP+CE)	CNN1D(CSCE)	CNN1D(CSP+CSCE)	CNN1D(CE)	CNN1D(CSP+CE)	CNN1D(CSCE)	CNN1D(CSP+CSCE)
M₁	Im0	924.00±26.00	896.00±42.00	762.00±48.00	648.00±68.00	95.29±0.26	95.50±0.12	94.47±0.44	95.38±0.53
	Im1	830.00±52.00	1 016.00±28.00	762.00±14.00	742.00±18.00	95.50±0.35	95.50±0.70	94.74±0.12	95.47±0.09
	Im2	1 012.00±78.00	1 190.00±112.00	852.00±28.00	771.00±15.00	94.33±1.20	95.58±0.32	94.12±0.26	95.03±0.29
	Im3	1 527.00±17.00	1 574.00±110.00	1 012.00±62.00	857.00±128.00	92.98±0.82	93.60±0.56	93.51±0.23	93.92±0.82
M₂	Im0	142.05±10.45	176.20±5.00	142.10±12.60	136.75±6.25	95.76±0.03	95.96±0.18	94.50±0.41	94.88±0.03
	Im1	141.30±3.00	169.65±4.65	142.65±7.55	134.75±0.45	95.44±0.18	96.05±0.50	94.74±0.29	94.94±0.09
	Im2	175.85±9.25	197.70±15.30	151.20±3.20	143.60±8.80	95.35±0.03	95.32±0.06	94.24±0.20	94.50±0.12
	Im3	209.65±22.85	226.64±1.65	179.30±14.60	174.70±0.30	94.42±0.03	94.15±0.53	93.01±0.61	94.44±0.06
M₃	Im0	845.45±74.05	890.10±21.30	838.75±22.95	811.35±13.05	95.44±0.18	95.99±0.03	94.91±0.18	95.50±0.24
	Im1	803.70±50.40	968.15±13.45	939.15±42.55	769.65±32.15	95.88±0.44	96.26±0.18	94.30±0.32	95.85±0.12
	Im2	910.70±16.90	1 145.80±31.00	979.00±40.60	922.20±31.70	95.44±0.06	95.56±0.12	94.27±0.29	94.92±0.35
	Im3	1 342.00±71.00	1 346.75±29.85	1 155.10±122.30	1 122.25±4.75	94.12±0.20	94.39±0.18	93.36±0.67	93.42±0.15

表选项

从表 2可以得出以下结论：
1) CNN1D(CE)与CNN1D(CSP+CE)对比实验可以看出，大多数情况下，经过剪枝后的模型相对于未剪枝的模型整体识别正确率有所提高，但是剪枝后的模型却具有较高的整体误识别代价，说明剪枝后的模型主要是提高了误识别代价较小类别的识别正确率。这一结果的主要原因是：剪枝后的模型在微调过程中使用的传统CE损失函数主要以提高整体识别正确率为目标，未侧重使误识别代价较高的类别正确分类。
2) 将基于传统CE损失函数训练的模型与基于CSCE损失函数训练的模型对比，即CNN1D(CE)与CNN1D(CSCE)对比、CNN1D(CSP+CE)与CNN1D(CSP+CSCE)对比，可以看出基于CSCE损失函数训练的模型具有较小的整体识别正确率，但是整体误识别代价有所降低，说明误识别代价较高类别的识别正确率有所提升，因此证明了所提出的CSCE损失函数可以通过改变传统CE损失函数对不同误识别代价类别样本的拟合程度来提高模型的代价敏感性。
3) CNN1D(CSCE)和CNN1D(CSP+CSCE)对比可以看出，经过代价敏感剪枝后的模型比未剪枝的模型具有较低的整体误识别代价，且保证了与未剪枝的模型具有相近的整体识别正确率(剪枝后的模型和未剪枝的模型识别正确率分别在93%和92%以上)，说明所提出的代价敏感剪枝算法可以有效地找到原始网络的代价敏感子网络。
4) 4种方法在不同数据集和不同代价矩阵下的对比实验可以看出，CNN1D(CSP+CSCE)在保证较高的识别正确率前提下具有更小的整体误识别代价，进一步证明了提出的CSP和CSCE损失函数相结合的方法对于降低整体误识别代价的有效性。
图 4为代价矩阵为M₁时4种模型在不同数据集上训练时测试数据集整体误识别代价的变化曲线。可以看出，经过剪枝后的模型具有较低的整体误识别代价起始值且收敛速度比随机初始化的未剪枝网络更快，这是因为剪枝后的模型继承了原始模型的部分参数，而且这部分参数组成了经过人工蜂群算法挑选出的代价敏感子网络。同时也可以看出，CNN1D(CSP+CSCE)具有更低的整体误识别代价水平渐进线，并且随着训练次数的增加整体误识别代价趋于更加持续的稳定状态。

图 4 代价矩阵为M₁时4种模型在不同数据集上的训练曲线 Fig. 4 Training curves of four models in different datasets when cost matrix is M₁

图选项

为了定量分析CSP算法对模型的压缩效果，分别统计剪去的浮点运算量、模型参数总数和通道总数占原始模型相关量的百分比，结果如表 3所示。由实验设置可知，剪枝过程中增加的额外训练周期总数至少为

10×2=220，最多为

10×2=620，显然使得训练过程中的计算量增加。但由表 3可以看出，在图 1原始模型的参数配置条件下，采用CSP算法在保证降低整体误识别代价和较高识别率的前提下，可分别减少原始网络50%以上的浮点运算量、40%以上的模型参数和20%以上的通道总数，有效降低了模型在识别阶段的计算量。模型在不同的数据集和代价矩阵下具有不同的参数总数和通道总数，说明在剪枝的过程中算法会自动地搜索到代价敏感的子网络，避免了在设计具有代价敏感的网络结构时人工调参。
表 3 三种指标下模型剪枝量百分比 Table 3 Pruned percentages of model under three metrics

代价矩阵	数据集	浮点运算量/%	参数总数/%	通道总数/%
M₁	Im0	75.90±2.88	83.10±7.20	58.00±12.07
	Im1	65.93±11.19	80.99±5.56	60.13±4.73
	Im2	65.99±13.20	78.21±3.00	54.80±5.53
	Im3	65.58±9.18	70.43±6.63	48.43±7.77
M₂	Im0	61.89±13.20	54.58±10.18	35.60±7.00
	Im1	81.93±5.18	86.56±4.95	60.63±1.63
	Im2	53.74±3.46	57.30±7.38	34.50±6.37
	Im3	72.52±0.90	82.45±6.84	57.70±10.17
M₃	Im0	67.36±3.13	77.97±2.69	49.57±9.50
	Im1	67.21±5.24	83.97±5.20	61.87±4.07
	Im2	63.61±3.86	74.90±12.96	52.67±15.80
	Im3	62.81±3.58	69.81±10.60	45.73±13.73

表选项

3.4 噪声对模型性能的影响分析由于弹道中段目标在空间环境中仍会存在一定噪声影响，为了进一步比较模型在不同信噪比(Signal-to-Noise Ratio，SNR)下的整体误识别代价，将上述4个数据集中的样本加入高斯白噪声并采用与上文相同的实验设置进行实验。SNR的定义^{[5-6, 8]}如下：

(19)

式中：E=256为HRRP的距离单元个数；P_l为第l个距离单元的原始信号强度；P_Noise为噪声的信号强度。
SNR的取值范围为{-10，-5，0，5，10，15，20，25，30，35，40}dB，当代价矩阵为M₁时，4种模型在不同SNR数据集上的整体误识别代价变化情况如图 5所示。可分析得到如下结论：

图 5 代价矩阵为M₁时4种模型在不同SNR数据集上的整体误识别代价 Fig. 5 Total misrecognition cost of four models in different datasets with different SNR when cost matrix is M₁

图选项

1) CNN1D(CSP+CE)虽然引入了CSP算法，但其误识别代价某些情况下比CNN1D(CE)的误识别代价高，这是因为其在剪枝后的微调过程以整体识别正确率为目标，忽略了各个类别目标之间的误识别代价，致使整体误识别代价在不同SNR条件下变化较大。说明在噪声条件下，1D-CNN中单独使用CSP算法不能有效降低整体误识别代价。
2) 当-10 dB≤SNR≤30 dB时，随着SNR逐渐增大，4种模型在4个数据集上的整体误识别代价逐渐减小，大多数情况下，CNN1D(CSCE)和CNN1D(CSP+CSCE)比CNN1D(CE)和CNN1D(CSP+CE)的整体误识别代价低，说明CSCE损失函数在不同程度的噪声条件下亦可以有效降低整体误识别代价。当30 dB＜SNR≤40 dB时，随着SNR增大，4种模型在相同的数据集上的误识别代价基本相似，且基本不再减少。
3) CNN1D(CSP+CSCE)与CNN1D(CSCE)的整体误识别代价在不同的SNR条件下的差异相对较小，但CNN1D(CSP+CSCE)是对CNN1D(CSCE)剪枝后得到的子网络，其模型计算复杂度更小。
总之，在上述SNR的取值范围内，与传统的1D-CNN相比，将CSP算法和CSCE损失函数相结合优化1D-CNN的方法大多数情况下仍然同时实现了降低模型复杂度和降低整体误识别代价2项任务，且在-10 dB≤SNR≤30 dB时效果相对比较明显，进一步证明了所提方法在不同程度的噪声数据集上具有一定的有效性和通用性。
3.5 超参数对实验结果的影响分析首先对CNN1D(CSCE)中CSCE损失函数的超参数λ取不同的值进行实验，从而确定相对较优的λ取值λ^*。在讨论剪枝算法的超参数α对模型的影响时，先取λ=λ^*，再选取不同的α值对模型CNN1D(CSP+CSCE)进行实验。代价矩阵为M₁时2个超参数在4个数据集上对模型的影响效果分别如图 6和图 7所示，图中“Non”表示未剪枝的原始网络。

图 6 代价矩阵为M₁时超参数λ对实验结果的影响 Fig. 6 Effects of hyper-parameter λ on experimental results when cost matrix is M₁

图选项

图 7 代价矩阵为M₁时超参数α对实验结果的影响 Fig. 7 Effects of hyper-parameter α on experimental results when cost matrix is M₁

图选项

由图 6(a)可以看出，随着CSCE损失函数的超参数λ从10¹减小到10^-4，CNN1D(CSCE)在4个数据集上的平均整体误识别代价呈现出先减后增的变化趋势，同时从图 6(b)可以看出其他目标与弹头识别正确率之比呈现出递减趋势，说明适当地减少λ的值可以增加模型对弹头这类误识别代价相对较高目标的拟合程度，进而减少整体误识别代价，当λ过小时会导致其他类别样本的拟合程度显著降低，进而导致整体误识别代价的增高。λ∈[10^-2, 10^-1]时，模型在各个数据集上都取得了较小的整体误识别代价，因此在分析超参数α对模型的影响时令λ^*=0.05。
由图 7(a)可以看出，在图中的取值范围内都会一定程度上减少原始未剪枝模型的通道数，但随着α的增加，剪枝后模型的通道总数整体上呈现上升的趋势，同时通道总数的上升也意味着模型的参数总量和计算复杂度的上升。图 7(b)表明模型在不同的数据集上的最优的α取值不尽相同，为了实现降低整体误识别代价和降低模型计算复杂度的折中，α在Im0、Im1、Im2和Im3上相对较优的取值分别在[60%，80%]、[60%，80%]、[70%，90%]和[30%，50%]之间。
从图 6(a)和图 7(b)还可以看出，训练集中误识别代价较高类别的样本数越少，大多数情况下测试集的平均整体误识别代价越高，说明在现实情况下增加误识别代价高类别的样本数量的必要性。
4 结论 1) 在不同的数据集和代价矩阵下的对比实验表明，提出的基于CSP的1D-CNN与传统的1D-CNN在各个数据集上的识别正确率分别在93%和92%以上，提出的方法保证了与传统的1D-CNN具有相近的识别正确率前提下有效降低了整体误识别代价。
2) 所提方法一定程度上增加了学习过程中的计算量，但经过CSP后的1D-CNN与未剪枝的原始模型相比，可分别减少50%以上的浮点运算量、40%以上的模型参数和20%以上的通道总数，有效降低了模型识别过程中的计算量。
3) 在不同SNR数据集上，与传统的1D-CNN相比，将CSP算法和CSCE损失函数相结合优化1D-CNN的方法，大多数情况下仍然同时实现了降低模型复杂度和降低整体误识别代价2项任务，且当-10 dB≤SNR≤30 dB时效果相对比较明显，进一步证明了所提方法在不同程度的噪声数据集上具有一定的有效性和通用性。
4) 随着CSCE损失函数的超参数λ从10¹减小到10^-4，模型在4个数据集上的平均整体误识别代价呈现出先减后增的变化趋势，综合来看，λ的最优取值范围是[10^-2, 10^-1]。
5) 随着CSP的超参数α的增大，剪枝后的模型在不同数据集上计算复杂度整体呈现上升趋势，而其整体误识别代价变化差异较大，综合考虑计算复杂度和误识别代价的折中，α在Im0、Im1、Im2和Im3上相对较优的取值分别在[60%，80%]、[60%，80%]、[70%，90%]和[30%，50%]之间。

参考文献

[1]	PERSICO A R, ILIOUDIS C V, CLEMENTE C, et al. Novel classification algorithm for ballistic target based on HRRP frame[J]. IEEE Transactions on Aerospace and Electronic Systems, 2019, 55(6): 3168-3189. DOI:10.1109/TAES.2019.2905281

[2]	赵振冲, 王晓丹. 引入拒识的最小风险弹道目标识别[J]. 西安交通大学学报, 2018, 52(4): 132-138. ZHAO Z C, WANG X D. A minimum risk recognition method of ballistic targets with rejection options[J]. Journal of Xi'an Jiaotong University, 2018, 52(4): 132-138. (in Chinese)

[3]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems, 2012, 1: 1097-1105.

[4]	CHEN W, WANG Y, SONG J, et al. Open set HRRP recognition based on convolutional neural network[J]. The Journal of Engineering, 2019, 19(21): 7701-7704.

[5]	GUO C, HE Y, WANG H P, et al. Radar HRRP target recognition based on deep one-dimensional residual-inception network[J]. IEEE Access, 2019, 7(2): 9191-9204.

[6]	WAN J, CHEN B, XU B, et al. Convolutional neural networks for radar HRRP target recognition and rejection[J]. EURASIP Journal on Advances in Signal Processing, 2019, 5(19): 1-27. DOI:10.1186/s13634-019-0603-y

[7]	WEN Y, SHI L C, YU X, et al. HRRP target recognition with deep transfer learning[J]. IEEE Access, 2020, 8(22): 57859-57867.

[8]	XIANG Q, WANG X D, SONG Y F, et al. One-dimensional convolutional neural networks for high-resolution range profile recognition via adaptively feature recalibrating and automatically channel pruning[J]. International Journal of Intelligent Systems, 2021, 36(1): 332-361. DOI:10.1002/int.22302

[9]	SANTURKAR S, TSIPRAS D, ILYAS A, et al. How does batch normalization help optimization?[EB/OL]. (2018-05-29)[2020-08-14]. https://arxiv.org/abs/1805.11604.

[10]	IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[EB/OL]. (2015-02-11)[2020-08-14]. https://arxiv.org/abs/1502.03167.

[11]	MISRA D. Mish: A self regularized non-monotonic neural activation function[EB/OL]. (2019-08-23)[2020-08-14]. https://arxiv.org/abs/1908.08681.

[12]	GOHIL V, NARAYANAN S D, JAIN A. One ticket to win them all: Generalizing lottery ticket initializations across datasets and optimizers[EB/OL]. (2019-06-06)[2020-08-14]. https://arxiv.org/abs/1906.02773.

[13]	FRANKLE J, CARBIN M. The lottery ticket hypothesis: Finding sparse, trainable neural networks[EB/OL]. (2018-03-09)[2020-08-14]. https://arxiv.org/abs/1803.03635.

[14]	LIU Z, SUN M, ZHOU T, et al. Rethinking the value of network pruning[J/OL]. (2018-10-11)[2020-08-14]. https://arxiv.org/abs/1810.05270.

[15]	李秋洁, 赵亚琴, 顾洲. 代价敏感学习中的损失函数设计[J]. 控制理论与应用, 2015, 32(5): 689-694. LI Q J, ZHAO Y Q, GU Z. Design of loss function for cost-sensitive learning[J]. Control Theory & Applications, 2015, 32(5): 689-694. (in Chinese)

[16]	向前, 王晓丹, 李睿, 等. 基于DCNN的弹道中段目标HRRP图像识别[J]. 系统工程与电子技术, 2020, 42(11): 2426-2433. XIANG Q, WANG X D, LI R, et al. HRRP image recognition of midcourse ballistic targets based on DCNN[J]. Systems Engineering and Electronics, 2020, 42(11): 2426-2433. (in Chinese)

[17]	DUBEY S R, CHAKRABORTY S, ROY S K, et al. diffGrad: An optimization method for convolutional neural networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 55(2): 1-12.