基于记忆关联学习的小样本高光谱图像分类方法*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

高光谱图像(Hyperspectral Image, HSI)是一种通过高光谱传感器探测地物反射的电磁波而获得的数字图像。在常规的彩色或者灰度图像中，每一个像素仅包含一个或者三个离散的能量值，而高光谱图像中的每一个像素包含几十甚至数百个光谱波段，每一个像素记录了对应地物的光谱曲线^[1]。由于不同地物通常呈现出不同的光谱曲线，使得高光谱图像有效地集合了成像场景中的空间信息和光谱信息，利用高光谱图像中丰富的空间及光谱信息有助于更加准确地区分成像场景中的不同物质。随着遥感技术和传感器技术的进步，获取的高光谱遥感图像数据量在不断增加，使得高光谱图像被广泛应用于资源勘探^[2]、环境监测^[3]、伪装目标检测^[4]等诸多民用和军事领域。
在众多遥感应用中，高光谱图像分类是其中的一项重要应用^[4-6]。高光谱图像分类旨在根据部分带标签的像素样本训练分类器，预测图像中其他像素样本对应的标签，获得图像中不同地物的空间分布情况。传统的高光谱图像分类方法包括K近邻(K-Nearest Neighbor，KNN)^[7]、支持向量机(Support Vector Machine，SVM)^[8]和基于稀疏表示(Sparse Representation)^[9]的方法等。这些模型结构浅、速度快，但是表征能力弱，无法充分挖掘像素光谱中隐含的非线性、可区分特征，在复杂情况下的泛化能力有限。
近期研究表明，深度神经网络具有强大的非线性表征能力，能够有效提升分类识别性能。因此，大量工作开始研究基于深度神经网络的高光谱图像分类方法。例如，基于一维卷积神经网络(1D-CNN)的方法^[10]利用端到端的卷积神经网络提取每一个像素光谱维度的特征并训练分类器。基于二维卷积神经网络(2D-CNN)的方法^[11]使用二维卷积网络对局部的空间像素块进行高维特征提取。基于三维卷积神经网络(3D-CNN)的方法^[12]同时对高光谱图像的空间和光谱维进行特征表示。在此基础上，基于残差网络(Residual Network)^[13]、密集连接网络(Dense Convolutional Network)^[14]和胶囊网络(Capsule Network)^[15]的模型也相继被应用到高光谱图像分类任务中。虽然基于深度神经网络的方法显著提升了分类性能，但是需要大量的带有类别标签的像素样本进行模型训练。
在实际高光谱图像分类应用中，人工标注像素样本耗时、费力、成本高昂，致使能够获取的带标签像素样本极少。少量带标签的训练样本无法充分地描述数据分布，从而导致基于深度神经网络的方法产生过拟合现象，分类精确度大幅下降。近年来，虽然有少量的工作提出了一些解决方案^[16-18]，但是未能充分地挖掘无标签样本中的结构信息，分类效果依然有限。因此，研究小样本高光谱图像分类问题是非常有必要且具有挑战性的。
为了解决这一问题，本文提出一种基于记忆关联学习的小样本高光谱图像分类方法。首先，利用有标签样本构建记忆模块，并根据样本间的特征关联，学习无标签样本的潜在类别分布。然后，在深度神经网络模型的基础上，利用学习的类别分布在无标签样本上构建无监督学习任务，并与有标签样本上的有监督学习任务进行联合优化。由于无监督学习任务能够有效约束有监督学习过程，避免了小样本情况下训练深度神经网络模型导致的过拟合现象。在多个高光谱图像分类数据集上，本文方法有效提升了小样本高光谱图像分类的准确性。
本文贡献主要包括以下3点：
1) 将记忆模块引入高光谱图像分类任务中，基于有标签样本，通过记忆关联学习，预测无标签样本的潜在类别分布。
2) 构建联合学习分类模型，其中根据预测的类别分布在无标签样本上构建无监督分类模型，同时在有标签样本上构建有监督分类模型，并对2个模型进行联合求解。
3) 在3个高光谱图像分类数据集上的实验结果证明了本文方法能有效提升小样本高光谱图像分类的准确性。
1 基于记忆关联学习的高光谱图像分类本节详细介绍提出的基于记忆关联学习的小样本高光谱图像分类方法，整体流程如图 1所示，共包括3个模块：特征提取模块、记忆模块及学习模块。

图 1 基于记忆关联学习的小样本高光谱图像分类方法流程 Fig. 1 Flowchart of small sample hyperspectral image classification method based on memory association learning

图选项

在介绍具体的模块之前，先对本文中使用的符号进行介绍。

表示高光谱图像标签样本集，n_b为波段数，n_l为标签样本数量，

表示标签样本的标签，

，C为数据集中的类别个数，

表示无标签样本集，n_u为无标签样本数量，

。其中，标签样本数量远远小于无标签样本数量n_l?n_u。为表示方便，下文中用

表示标签样本或者无标签样本，

表示样本对应标签。
1.1 特征提取模块特征提取模块由卷积网络和分类器2部分组成。卷积网络将高光谱图像通过卷积神经网络映射到高维特征空间，分类器将高维特征映射到类别概率空间。具体来说，卷积网络包括6个卷积层(Convolutional Layer)，其中每一个卷积层由3个连续的子模块构成，分别为卷积子模块、批标准化模块(Batch Normalization, BN)及非线性激活函数模块(Rectified Linear Unit, ReLU)。为了同时捕获高光谱图像的空间和光谱特征，使用三维卷积对图像进行特征提取。分类器层包含2个级联的子模块，分别为全连接子模块和归一化指数(Softmax)激活函数模块。
对于输入的有标签或者无标签高光谱图像数据x∈{X_l, X_u}，通过卷积网络对其进行特征提取，获得对应的特征向量。

(1)

式中：f(·)表示卷积网络模型；

为有标签样本对应的特征，

为无标签样本对应的特征，d为特征维度。
通过卷积网络获得特征后，进一步引入一个分类器层，输出每个样本的类别预测概率向量。

(2)

式中：g(·)表示分类器模型；

为有标签样本的预测概率，

为无标签样本的预测概率。
1.2 记忆模块记忆关联学习通过存储学习到的知识，并将其抽象成对任务有益的结构化信息，提升当前任务的性能。为了充分挖掘无标签样本中的结构信息，构建了基于有标签样本的记忆模块，在每一次训练过程中，对类间信息进行动态地更新和存储，并根据样本间的特征关联，预测无标签样本的类别分布。
本节构建的记忆模块包括2部分，分别为类别特征空间

和类别概率分布特征空间

表示第i类的类别特征中心，

表示第i类的概率分布特征中心。本文中仅使用带标签的数据对记忆模块进行更新，以避免无标签数据的类别预测不确定性对模型的干扰。对于有标签样本，通过特征提取模块得到对应的特征向量和类别概率向量，记忆模块中k_i由n_i个第i类样本的特征向量更新得到，v_i由n_i个第i类样本的类别概率向量更新得到。具体更新公式为

(3)

(4)

(5)

(6)

式中：η为更新系数；1[y=i]表示指示函数。为了公平对待所有类别，同时不引入任何类别先验，K初始化为0，V初始化为1/C。
对于有标签样本或者无标签样本x对应的类别概率向量p，利用更新的记忆模块进一步获得预测的类别概率向量

：

(7)

式中：

表示样本x到记忆模块中每个类别中心k_i的权重系数。
对于有标签样本，权重

定义为

(8)

对于无标签样本，通过计算样本的特征向量e到每个类别中心k_i的距离得到权重

。

(9)

式中：dist(·)表示余弦距离。
1.3 学习模块根据预测的类别分布，在有标签样本上构建有监督损失，同时在无标签样本上设计无监督损失，通过联合求解有监督及无监督损失函数，优化分类模型参数。

1.3.1 监督损失对于有标签样本x，经过特征提取模块得到对应的类别概率向量p后，通过交叉熵损失：

(10)

1.3.2 无监督损失本文中无监督损失由信息熵和相对熵共同定义。信息熵用来衡量信息量的大小，事件发生的概率越低，其发生时所能给出的信息量越大，即如果模型不能以较高的置信度预测样本类别，那么该模型的样本类别信息熵较大。通过最小化记忆模块预测的类别概率向量的熵，可以对模型的预测不确定性进行惩罚。
对于有标签或者无标签样本x，通过特征提取模块得到对应类别概率向量p，利用记忆模块得到类别概率向量

，信息熵损失定义为

(11)

相对熵又称KL散度，是2个概率分布间差异的非对称性度量。在信息论中，相对熵等价于2个概率分布的信息熵的差值，若其中一个概率分布为真实分布，另一个为拟合分布，则此时相对熵等于交叉熵与真实分布的信息熵之差，表示使用拟合分布拟合真实分布时产生的信息损耗。为了使特征提取模块预测的类别概率向量p和记忆模块预测的类别概率向量

的分布趋于一致，通过最小化相对熵，对2个分布之间的差异进行惩罚。相对熵损失定义如下：

(12)

(13)

式中：

为KL散度；

表示KL散度的动态调节系数，该系数可以减小2个分布之间的差异，降低KL散度在总损失中的比重，使模型更专注于分类任务。
因此，总的无监督损失定义为

(14)

式中：μ₁和μ₂表示信息熵损失和相对熵之间的均衡系数，实验中μ₁和μ₂均设置为1。
综上，学习模型总的损失函数定义为

(15)

在模型的训练过程中，需要利用记忆模块及学习模块进行记忆关联学习，但是在测试阶段只需要特征提取模块得到的类别概率向量，不再需要记忆模块和学习模块，进而减少额外的存储和计算消耗。
2 实验结果及分析本节在多个高光谱图像分类数据集上设计实验，对比本文方法和现有的其他分类方法以验证提出方法的有效性。
2.1 数据集本文实验中采用3个标准的高光谱图像分类数据集作为实验数据，分别为Indian Pines数据集、Pavia University数据集和Salinas数据集，数据集中样本类别和样本数如表 1~表 3所示，数据和真实分类结果(Ground Truth，GT)如图 2所示。Indian Pines数据集由AVIRIS卫星在美国Indiana州西北部拍摄地面场景得到。该数据空间包含145×145个像素，在波长0.38~2.5 μm的光谱范围内，共捕获220个不同的光谱波段，空间分辨率为20 m，该数据场景中共包含16种不同的地物。在实验中，参考文献[19]，移除该数据中的20个水吸收波段，将余下的200个波段作为实验数据。Pavia University数据集由ROSIS卫星在意大利Pavia University拍摄得到。该数据空间包含610×340个像素，共包含115个光谱波段，覆盖的光谱波长范围为0.43~0.86 μm，空间分辨率为1.3 m。图像场景内包含9种不同的地物类别。本文移除该数据中的12个水吸收波段，将余下的103个波段作为实验数据。Salinas数据集也是由AVIRIS卫星拍摄，场景内容为美国California州的Salinas峡谷。该数据集总共包含224个波段，空间上共有512×217个像素，空间分辨率为3.7 m。这些像素分别来自于16种不同的地物类别。实验中，移除该数据中的20个水吸收波段，将剩下的204个波段作为实验数据。
表 1 Indian Pines数据集中样本类别和样本数 Table 1 Name and pixel numbers of per adopted class on Indian Pines datasets

序号	样本类别名称	样本数
1	Alfalfa	46
2	Corn-notill	1 428
3	Corn-mintill	830
4	Corn	237
5	Grass-pasture	483
6	Grass-trees	730
7	Grass-pasture-mowed	28
8	Hay-windrowed	478
9	Oats	20
10	Soybean-notill	972
11	Soybean-mintill	2 455
12	Soybean-clean	593
13	Wheat	205
14	Woods	1 265
15	Buildings-Grass-Trees-Drives	386
16	Stone-Steel-Towers	93
总计		10 249

表选项

表 2 Pavia University数据集中样本类别和样本数 Table 2 Name and pixel numbers of per adopted class on Pavia University datasets

序号	样本类别名称	样本数
1	Asphalt	6 631
2	Meadows	18 649
3	Gravel	2 099
4	Trees	3 064
5	Painted metal sheets	1 345
6	Bare Soil	5 029
7	Bitumen	1 330
8	Self-Blocking Bricks	3 682
9	Shadows	947
总计		42 776

表选项

表 3 Salinas数据集中样本类别和样本数 Table 3 Name and pixel numbers of per adopted class on Salinas datasets

序号	样本类别名称	样本数
1	Brocoli_green_weeds_1	2 009
2	Brocoli_green_weeds_2	3 726
3	Fallow	1 976
4	Fallow_rough_plow	1 394
5	Fallow_smooth	2 678
6	Stubble	3 959
7	Celery	3 579
8	Grapes_untrained	11 271
9	Soil_vinyard_develop	6 203
10	Corn_senesced_green_weeds	3 278
11	Lettuce_romaine_4wk	1 068
12	Lettuce_romaine_5wk	1 927
13	Lettuce_romaine_6wk	916
14	Lettuce_romaine_7wk	1 070
15	Vinyard_untrained	7 268
16	Vinyard_vertical_trellis	1 807
总计		54 129

表选项

图 2 三个高光谱图像分类数据集的代表性波段图像和真实分类结果 Fig. 2 Representative band image and ground truth classification map of three HSI classification datasets

图选项

2.2 对比方法及实验设置为了验证本文方法能够有效减轻深度神经网络在面对少量训练数据时产生的过拟合问题，对比了6种不同的分类方法，分别为KNN方法^[7]、SVM方法^[8]、基于深度学习的一维卷积模型(1D-CNN)和三维卷积模型(3D-CNN)的方法，以及半监督卷积神经网络分类方法(SS-CNN)^[20]和基于类内相似结构表示的高光谱图像小样本分类方法(ISSR-HIC)^[18]。本文提出的基于记忆关联学习的高光谱图像分类方法的特征提取模块中卷积网络的整体结构如表 4所示，s表示第5个卷积单元光谱维的维度，valid表示不进行特征补齐。分类器层如表 5所示。一维卷积模型与本文方法的特征提取模块不同的是：一维卷积模型使用一维卷积对图像进行特征提取。三维卷积模型的网络结构和层数与本文方法的特征提取模块均相同。
表 4 卷积网络 Table 4 Convolution network

卷积层	卷积核	卷积步长	特征数	补齐
conv1	(3, 1, 8)	(1, 1, 3)	64	valid
conv2	(1, 1, 3)	(1, 1, 2)	64	valid
conv3	(1, 3, 3)	(1, 1, 2)	128	valid
conv4	(1, 1, 3)	(1, 1, 2)	128	valid
conv5	(1, 1, 3)	(1, 1, 2)	256	valid
conv6	(1, 1, s)	(1, 1, 1)	128	valid

表选项

表 5 分类器层 Table 5 Classifier layer

名称	神经元节点	激活函数
fc	128	ReLU
logits	C	Softmax

表选项

实验中，取每个样本周围大小为3邻域的像素块，训练batch size设置为180，其中包括无标签样本90，有标签样本90，使用带动量的随机梯度下降法进行参数优化，动量大小设置为0.9，优化器初始学习率为0.001，对于学习率，本文采用指数衰减的方式进行更新，衰减率为0.95，衰减步长为5 000。对于记忆模块的更新系数η，根据具体的数据设定，实验数据集为Indian Pines时设置为0.8，实验数据集为Pavia University和Salinas时设置为0.5。
2.3 评价指标为了客观比较不同方法的分类性能，在实验中采用了3种不同的量化评价指标，分别为总体分类精度(Overall Accuracy, OA)^[8]、类别平均分类精度(Average Accuracy, AA)^[8]和Kappa系数^[21]，这3个指标的取值范围均为[0, 1]。对于每一个评价指标，得分越高表示分类结果越好。
2.4 实验结果对于所有的数据集，随机采样5次，每次每类数据随机采样10个有标签样本，以及一共10×C个无标签样本用于训练，其余用作测试。并将5次采样结果的平均值作为对应方法的最终性能评价结果。将不同方法在3个数据集上的分类数值结果汇总到表 6~表 8中(表中加粗数据表示最好结果)。具体来说，在Indian Pines数据集上，当数据量较少时，本文方法的总体分类精度优于除ISSR-HIC方法以外的其他对比方法，对比KNN、SVM、1D-CNN、3D-CNN、SS-CNN方法，本文方法分别提升了11.95%、3.14%、4.34%、2.68%、1.50%，对比ISSR-HIC方法降低3.69%。在Pavia University数据集和Salinas数据集上，本文方法明显优于其他对比方法，对比ISSR-HIC方法，本文方法的总体分类精度分别提高13.38%、3.59%。相较于Pavia University数据集和Salinas数据集，Indian Pines数据集的空间分辨率更低，因此Indian Pines数据集中存在更多的噪声。本文通过记忆模块对无标签数据赋予伪标签，大量噪声的存在会导致记忆模块的预测不准确，无监督学习有偏移，影响整体的分类精度。因此，实验结果表明本文方法在大多数情况下能在训练样本有限时提升模型的分类性能。
表 6 不同方法在Indian Pines数据集上的分类结果 Table 6 Classification results of different methods on Indian Pines datasets?%

序号	KNN	SVM	1D-CNN	3D-CNN	SS-CNN	ISSR-HIC	本文方法
1	86.11	82.50	79.44	79.44	76.09	90.76	63.89
2	44.63	41.70	31.71	29.28	18.00	55.25	10.65
3	36.05	47.74	47.63	44.15	6.86	52.56	11.59
4	48.02	57.31	49.16	42.29	70.04	64.98	46.26
5	69.98	76.77	74.97	77.59	17.18	76.09	64.38
6	64.39	81.19	89.44	87.72	80.41	85.82	92.36
7	92.22	92.22	83.33	98.89	92.86	92.86	91.67
8	66.03	82.46	76.03	77.82	78.87	78.09	97.44
9	68.00	98.00	94.00	100	100	95.00	90.00
10	39.33	49.95	49.29	54.51	55.33	55.14	17.05
11	29.87	39.75	38.45	46.74	68.73	47.82	89.65
12	26.83	42.04	38.46	36.50	31.20	48.06	23.50
13	90.15	93.23	92.00	96.62	93.17	95.61	92.56
14	61.96	66.22	70.17	70.80	96.05	74.35	84.22
15	14.31	36.91	46.65	38.24	38.95	41.97	28.99
16	86.02	91.57	88.43	98.07	100	93.55	96.99
AA	57.74	67.47	65.57	67.42	63.98	71.74	62.57
OA	44.99	53.80	52.60	54.26	55.44	60.63	56.94
Kappa	38.69	48.46	47.16	48.71	48.96	55.87	49.28

表选项

表 7 不同方法在Pavia University数据集上的分类结果 Table 7 Classification results of different methods on Pavia University datasets?%

序号	KNN	SVM	1D-CNN	3D-CNN	SS-CNN	ISSR-HIC	本文方法
1	58.07	68.75	68.15	68.84	75.19	69.44	96.55
2	66.60	68.17	62.95	74.63	86.05	65.22	91.94
3	48.22	66.40	66.18	68.43	61.99	66.33	62.83
4	85.38	82.27	86.64	90.22	93.81	85.13	83.72
5	92.27	99.28	99.43	98.97	99.18	99.57	99.91
6	29.25	67.02	71.30	50.37	32.85	67.21	39.74
7	89.97	87.83	86.50	87.88	74.06	91.24	90.71
8	56.00	81.55	71.14	73.40	72.41	80.75	92.46
9	99.89	99.91	99.96	99.59	97.99	98.76	100
AA	70.07	80.13	79.14	79.15	77.06	80.41	84.21
OA	62.83	72.47	69.98	73.30	76.47	71.56	84.94
Kappa	53.02	65.14	70.32	65.79	68.95	64.38	79.65

表选项

表 8 不同方法在Salinas数据集上的分类结果 Table 8 Classification results of different methods on Salinas datasets?%

序号	KNN	SVM	1D-CNN	3D-CNN	SS-CNN	ISSR-HIC	本文方法
1	98.27	94.92	95.55	91.23	99.29	97.55	99.28
2	81.15	97.47	99.77	97.34	98.09	97.82	99.60
3	74.38	87.60	92.33	89.70	69.38	86.29	98.19
4	94.45	99.29	98.71	95.55	97.99	98.05	99.47
5	88.54	92.83	90.41	93.64	99.18	95.44	94.61
6	96.58	98.34	99.21	96.28	99.09	99.25	99.26
7	98.55	98.83	99.00	96.02	99.80	99.46	99.46
8	62.39	53.00	68.02	58.28	25.30	58.08	79.12
9	91.36	96.03	95.60	92.80	99.00	96.02	99.03
10	58.92	83.71	83.48	76.08	81.96	82.82	74.96
11	78.11	86.60	93.72	87.75	86.48	95.13	96.96
12	91.46	99.74	99.45	99.46	99.90	98.62	99.96
13	98.72	98.10	95.74	95.81	99.56	96.97	99.58
14	88.17	90.91	94.11	92.87	94.53	95.35	94.83
15	52.84	70.70	54.26	69.76	93.09	67.23	56.91
16	43.17	90.04	79.67	90.16	77.30	92.17	98.25
AA	81.32	89.88	89.94	88.92	88.75	91.02	92.74
OA	76.20	82.61	83.57	82.31	79.73	83.72	87.31
Kappa	73.56	80.76	81.74	80.41	77.69	81.97	85.84

表选项

上述实验结果说明，本文方法能够有效减轻基于深度神经网络的分类方法在仅有少量训练样本的情况下产生的过拟合问题。为了进一步说明这一问题，在图 3~图 5中绘制了不同方法在3个数据集上获得的分类结果视觉图。可以看出，相对于其他方法，在绝大多数情况下，本文方法更加接近真实的分类结果，从而再次验证了上述结论。

图 3 Indian Pines数据集上的分类结果 Fig. 3 Classification results of different methods on Indian Pines datasets

图选项

图 4 Pavia University数据集上的分类结果 Fig. 4 Classification results of different methods on Pavia University datasets

图选项

图 5 Salinas数据集上的分类结果 Fig. 5 Classification results of different methods on Salinas datasets

图选项

2.5 有效性验证本节验证训练样本量不同及损失函数变化对本文方法性能的影响。

2.5.1 训练样本有效性本节对比本文方法与3D-CNN、ISSR-HIC方法在训练样本量不同时的分类表现。实验中分别设置有标签训练样本量为每类1、5、10、50、100和200，其余用作测试。3个数据集上的数值结果如表 9~表 11所示(表中加粗数据表示最好结果)。可以看出，随着有标签训练样本量不断增加，本文方法及3D-CNN、ISSR-HIC方法的分类准确率均有所提高。当有标签样本充足时(每类有标签样本为200)，对比3D-CNN和ISSR-HIC方法，本文方法在Indian Pines数据集上的总体分类精度提升4.75%、8.24%，在Pavia University数据集上提升2.88%、8.79%，在Salinas数据集上提升3.79%、1.68%。在有标签样本不足时(每类标签样本数为5)，对比3D-CNN和ISSR-HIC方法，本文方法在Pavia University数据集上的总体分类精度分别提升10.08%、11.17%，在Salinas数据集上提升8.52%、5.56%，在Indian Pines数据集上，本文方法比3D-CNN方法总体分类精度提升6.52%，比ISSR-HIC方法下降5.11%。
表 9 Indian Pines数据集上不同数量训练样本下的分类结果 Table 9 Classification results of different methods with changed numbers of training samples on Indian Pines datasets?%

方法	评价指标	训练样本数
方法	评价指标	1	5	10	50	100	200
3D-CNN	AA	32.96	54.23	67.42	87.42	91.09	92.64
	OA	22.70	43.42	54.26	77.01	85.54	87.71
	Kappa	15.33	36.90	48.71	72.32	83.47	85.68
ISSR-HIC	AA	40.93	66.35	71.74	84.31	88.73	91.01
	OA	30.55	55.05	60.63	79.09	81.14	84.22
	Kappa	23.31	49.64	55.87	75.79	78.80	82.22
本文方法	AA	33.77	48.18	62.57	89.45	92.49	95.80
	OA	39.60	49.94	56.94	83.92	86.27	92.46
	Kappa	29.67	41.64	49.28	81.54	84.16	91.14

表选项

表 10 Pavia University数据集上不同数量训练样本下的分类结果 Table 10 Classification results of different methods with changed numbers of training samples on Pavia University datasets?%

方法	评价指标	样本数
方法	评价指标	1	5	10	50	100	200
3D-CNN	AA	55.03	68.27	79.15	92.70	95.74	96.04
	OA	49.97	63.81	73.30	92.15	94.84	96.43
	Kappa	37.48	53.36	65.79	89.65	93.18	95.22
ISSR-HIC	AA	65.94	76.94	80.41	86.10	89.89	92.51
	OA	53.46	62.72	71.56	81.55	86.84	90.52
	Kappa	43.11	54.70	64.38	76.26	82.93	87.63
本文方法	AA	55.80	72.21	84.21	95.83	97.87	98.80
	OA	55.81	73.89	84.94	97.32	98.42	99.31
	Kappa	41.88	65.14	79.65	96.41	97.89	99.07

表选项

表 11 Salinas数据集上不同数量训练样本下的分类效果 Table 11 Classification results of different methods with changed numbers of training samples on Salinas datasets?%

方法	评价指标	样本数
方法	评价指标	1	5	10	50	100	200
3D-CNN	AA	62.02	85.24	88.92	94.08	94.76	95.82
	OA	57.24	76.97	82.31	87.25	88.13	89.86
	Kappa	53.04	74.61	80.41	85.83	86.79	88.68
ISSR-HIC	AA	77.67	87.39	91.02	94.47	96.01	96.63
	OA	70.65	79.93	83.72	90.21	91.52	91.97
	Kappa	67.44	77.67	81.97	89.13	90.56	91.08
本文方法	AA	78.30	90.99	92.74	94.56	96.76	97.27
	OA	78.30	85.49	87.31	89.01	92.78	93.65
	Kappa	74.39	83.83	85.84	87.73	91.94	92.89

表选项

实验结果证明，在使用不同训练样本时，相比基准方法，本文方法在大多数情况下能有效提升分类任务的性能。

2.5.2 损失函数有效性本节验证不同损失函数对分类结果的影响。将本文方法

与去除部分无监督损失

及去除全部无监督损失

的方法进行对比，在3个数据集上数值结果如表 12所示(表中加粗数据表示最好结果)。可以看出，每部分无监督损失均能有效提升模型性能，如在Pavia University数据集上，去除信息熵损失，总体分类精度降低3.3%，去除信息熵和相对熵损失，总体分类准确率下降16.26%。该结果证明了无监督损失函数的有效性，记忆模块对无标签数据的预测可以有效减少噪声的引入，使无监督模型更加稳定。
表 12 不同损失函数在不同数据集上的分类结果 Table 12 Classification results of the proposed methods with different loss function on three datasets?%

数据集	评价指标	损失函数
数据集	评价指标
Indian Pines	AA	62.57	55.58	61.20
	OA	56.94	52.26	48.33
	Kappa	49.28	45.28	42.28
Pavia University	AA	84.21	83.08	77.42
	OA	84.94	81.64	68.68
	Kappa	79.65	75.38	60.88
Salinas	AA	92.74	90.78	90.08
	OA	87.31	85.49	83.29
	Kappa	85.84	83.78	81.46

表选项

3 结论 1) 针对少量训练样本导致基于深度神经网络的分类方法产生过拟合的问题，本文提出一种基于记忆关联学习的小样本高光谱图像分类方法。
2) 首先，通过特征提取模块对特征进行提取，构建记忆模块学习和存储有标签样本的类别特征信息，同时利用更新后的记忆模块预测无标签数据的类别分布。然后，根据预测的类别分布在大量的无标签数据上构建无监督分类任务，同时在少量的有标签样本上构建有监督分类任务。最后，通过联合求解2个学习任务，优化分类模型参数，使得模型在有标签样本较少的情况下，避免了因监督信息不足而造成的过拟合问题。
3) 实验结果表明，本文方法能够有效地处理高光谱图像的小样本学习问题，提升分类准确率。

参考文献

[1]	LANDGREBE D. Hyperspectral image data analysis[J]. IEEE Signal Processing Magazine, 2002, 19(1): 17-28. DOI:10.1109/79.974718

[2]	BISHOP C A, LIU J G, MASON P J. Hyperspectral remote sensing for mineral exploration in Pulang, Yunnan Province, China[J]. International Journal of Remote Sensing, 2011, 32(9): 2409-2426. DOI:10.1080/01431161003698336

[3]	ZHANG B, WU D, ZHANG L, et al. Application of hyperspectral remote sensing for environment monitoring in mining areas[J]. Environmental Earth Sciences, 2012, 65(3): 649-658. DOI:10.1007/s12665-011-1112-y

[4]	ZHANG Y X, DU B, ZHAGN L P, et al. Joint sparse representation and multitask learning for hyperspectral target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(2): 894-906. DOI:10.1109/TGRS.2016.2616649

[5]	WANG C, ZHANG L, WEI W, et al. When low rank representation based hyperspectral imagery classification meets segmented stacked denoising auto-encoder based spatial-spectral feature[J]. Remote Sensing, 2018, 10(2): 284. DOI:10.3390/rs10020284

[6]	PAN E T, MEI X G, WANG Q D, et al. Spectral-spatial classification for hyperspectral image based on a single GRU[J]. Neurocomputing, 2020, 387: 150-160. DOI:10.1016/j.neucom.2020.01.029

[7]	GUO G D, WANG H, BELL D A, et al. KNN model-based approach in classification[C]//OTM Confederated International Conferences "On the Move to Meaningful Internet Systems". Berlin: Springer, 2003: 986-996.

[8]	MELGANI F, BRUZZONE L. Classification of hyperspectral remote sensing images with support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8): 1778-1790. DOI:10.1109/TGRS.2004.831865

[9]	LI W, DU Q. Joint within-class collaborative representation for hyperspectral image classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2200-2208. DOI:10.1109/JSTARS.2014.2306956

[10]	HU W, HUANG Y Y, LI W, et al. Deep convolutional neural networks for hyperspectral image classification[J]. Journal of Sensors, 2015, 2015: 258619.

[11]	LIU X F, SUN Q Q, LIU B, et al. Hyperspectral image classification based on convolutional neural network and dimension reduction[C]//2017 Chinese Automation Congress. Piscataway: IEEE Press, 2017: 1686-1690.

[12]	LEE H, KWON H. Going deeper with contextual CNN for hyperspectral image classification[J]. IEEE Transactions on Image Processing, 2017, 26(10): 4843-4855. DOI:10.1109/TIP.2017.2725580

[13]	ZHONG Z L, LI J, LUO Z M, et al. Chapman: Spectral-spatial residual network for hyperspectral image classification: A 3-D deep learning framework[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(2): 847-858. DOI:10.1109/TGRS.2017.2755542

[14]	FANG B, LI Y, ZHAGN H K, et al. Hyperspectral images classification based on dense convolutional networks with spectral-wise attention mechanism[J]. Remote Sensing, 2019, 11(2): 159. DOI:10.3390/rs11020159

[15]	PAOLETTI M E, HAUT J M, BELTRAN R F, et al. Capsule networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(4): 2145-2160. DOI:10.1109/TGRS.2018.2871782

[16]	SAMIAPPAN S, MOORHEAD R J. Semi-supervised co-training and active learning framework for hyperspectral image classification[C]//IEEE International Geoscience and Remote Sensing Symposium (IGARSS). Piscataway: IEEE Press, 2015: 401-404.

[17]	RASMUS A, VALPOLA H, HONKALA M, et al. Semi-supervised learning with ladder networks[EB/OL]. (2015-07-09)[2020-08-01]. https://arxiv.org/abs/1507.02672.

[18]	WEI W, ZHAGN L, LI Y, et al. Intraclass similarity structure representation-based hyperspectral imagery classification with few samples[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 1045-1054. DOI:10.1109/JSTARS.2020.2977655

[19]	LI W, WU G D, ZHANG F, et al. Hyperspectral image classification using deep pixel-pair features[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(2): 844-853. DOI:10.1109/TGRS.2016.2616355

[20]	LIU B, YU X C, ZHAGN P Q, et al. A semi-supervised convolutional neural network for hyperspectral image classification[J]. Remote Sensing Letters, 2017, 8(9): 839-848. DOI:10.1080/2150704X.2017.1331053

[21]	PONTIUS R G, MILLONES M. Death to Kappa: Birth of quantity disagreement and allocation disagreement for accuracy assessment[J]. International Journal of Remote Sensing, 2011, 32(15): 4407-4429. DOI:10.1080/01431161.2011.552923