在众多遥感应用中,高光谱图像分类是其中的一项重要应用[4-6]。高光谱图像分类旨在根据部分带标签的像素样本训练分类器,预测图像中其他像素样本对应的标签,获得图像中不同地物的空间分布情况。传统的高光谱图像分类方法包括K近邻(K-Nearest Neighbor,KNN)[7]、支持向量机(Support Vector Machine,SVM)[8]和基于稀疏表示(Sparse Representation)[9]的方法等。这些模型结构浅、速度快,但是表征能力弱,无法充分挖掘像素光谱中隐含的非线性、可区分特征,在复杂情况下的泛化能力有限。
近期研究表明,深度神经网络具有强大的非线性表征能力,能够有效提升分类识别性能。因此,大量工作开始研究基于深度神经网络的高光谱图像分类方法。例如,基于一维卷积神经网络(1D-CNN)的方法[10]利用端到端的卷积神经网络提取每一个像素光谱维度的特征并训练分类器。基于二维卷积神经网络(2D-CNN)的方法[11]使用二维卷积网络对局部的空间像素块进行高维特征提取。基于三维卷积神经网络(3D-CNN)的方法[12]同时对高光谱图像的空间和光谱维进行特征表示。在此基础上,基于残差网络(Residual Network)[13]、密集连接网络(Dense Convolutional Network)[14]和胶囊网络(Capsule Network)[15]的模型也相继被应用到高光谱图像分类任务中。虽然基于深度神经网络的方法显著提升了分类性能,但是需要大量的带有类别标签的像素样本进行模型训练。
在实际高光谱图像分类应用中,人工标注像素样本耗时、费力、成本高昂,致使能够获取的带标签像素样本极少。少量带标签的训练样本无法充分地描述数据分布,从而导致基于深度神经网络的方法产生过拟合现象,分类精确度大幅下降。近年来,虽然有少量的工作提出了一些解决方案[16-18],但是未能充分地挖掘无标签样本中的结构信息,分类效果依然有限。因此,研究小样本高光谱图像分类问题是非常有必要且具有挑战性的。
为了解决这一问题,本文提出一种基于记忆关联学习的小样本高光谱图像分类方法。首先,利用有标签样本构建记忆模块,并根据样本间的特征关联,学习无标签样本的潜在类别分布。然后,在深度神经网络模型的基础上,利用学习的类别分布在无标签样本上构建无监督学习任务,并与有标签样本上的有监督学习任务进行联合优化。由于无监督学习任务能够有效约束有监督学习过程,避免了小样本情况下训练深度神经网络模型导致的过拟合现象。在多个高光谱图像分类数据集上,本文方法有效提升了小样本高光谱图像分类的准确性。
本文贡献主要包括以下3点:
1) 将记忆模块引入高光谱图像分类任务中,基于有标签样本,通过记忆关联学习,预测无标签样本的潜在类别分布。
2) 构建联合学习分类模型,其中根据预测的类别分布在无标签样本上构建无监督分类模型,同时在有标签样本上构建有监督分类模型,并对2个模型进行联合求解。
3) 在3个高光谱图像分类数据集上的实验结果证明了本文方法能有效提升小样本高光谱图像分类的准确性。
1 基于记忆关联学习的高光谱图像分类 本节详细介绍提出的基于记忆关联学习的小样本高光谱图像分类方法,整体流程如图 1所示,共包括3个模块:特征提取模块、记忆模块及学习模块。
图 1 基于记忆关联学习的小样本高光谱图像分类方法流程 Fig. 1 Flowchart of small sample hyperspectral image classification method based on memory association learning |
图选项 |
在介绍具体的模块之前,先对本文中使用的符号进行介绍。
1.1 特征提取模块 特征提取模块由卷积网络和分类器2部分组成。卷积网络将高光谱图像通过卷积神经网络映射到高维特征空间,分类器将高维特征映射到类别概率空间。具体来说,卷积网络包括6个卷积层(Convolutional Layer),其中每一个卷积层由3个连续的子模块构成,分别为卷积子模块、批标准化模块(Batch Normalization, BN)及非线性激活函数模块(Rectified Linear Unit, ReLU)。为了同时捕获高光谱图像的空间和光谱特征,使用三维卷积对图像进行特征提取。分类器层包含2个级联的子模块,分别为全连接子模块和归一化指数(Softmax)激活函数模块。
对于输入的有标签或者无标签高光谱图像数据x∈{Xl, Xu},通过卷积网络对其进行特征提取,获得对应的特征向量。
(1) |
式中:f(·)表示卷积网络模型;
通过卷积网络获得特征后,进一步引入一个分类器层,输出每个样本的类别预测概率向量。
(2) |
式中:g(·)表示分类器模型;
1.2 记忆模块 记忆关联学习通过存储学习到的知识,并将其抽象成对任务有益的结构化信息,提升当前任务的性能。为了充分挖掘无标签样本中的结构信息,构建了基于有标签样本的记忆模块,在每一次训练过程中,对类间信息进行动态地更新和存储,并根据样本间的特征关联,预测无标签样本的类别分布。
本节构建的记忆模块包括2部分,分别为类别特征空间
(3) |
(4) |
(5) |
(6) |
式中:η为更新系数;1[y=i]表示指示函数。为了公平对待所有类别,同时不引入任何类别先验,K初始化为0,V初始化为1/C。
对于有标签样本或者无标签样本x对应的类别概率向量p,利用更新的记忆模块进一步获得预测的类别概率向量
(7) |
式中:
对于有标签样本,权重
(8) |
对于无标签样本,通过计算样本的特征向量e到每个类别中心ki的距离得到权重
(9) |
式中:dist(·)表示余弦距离。
1.3 学习模块 根据预测的类别分布,在有标签样本上构建有监督损失,同时在无标签样本上设计无监督损失,通过联合求解有监督及无监督损失函数,优化分类模型参数。
1.3.1 监督损失 对于有标签样本x,经过特征提取模块得到对应的类别概率向量p后,通过交叉熵损失:
(10) |
1.3.2 无监督损失 本文中无监督损失由信息熵和相对熵共同定义。信息熵用来衡量信息量的大小,事件发生的概率越低,其发生时所能给出的信息量越大,即如果模型不能以较高的置信度预测样本类别,那么该模型的样本类别信息熵较大。通过最小化记忆模块预测的类别概率向量的熵,可以对模型的预测不确定性进行惩罚。
对于有标签或者无标签样本x,通过特征提取模块得到对应类别概率向量p,利用记忆模块得到类别概率向量
(11) |
相对熵又称KL散度,是2个概率分布间差异的非对称性度量。在信息论中,相对熵等价于2个概率分布的信息熵的差值,若其中一个概率分布为真实分布,另一个为拟合分布,则此时相对熵等于交叉熵与真实分布的信息熵之差,表示使用拟合分布拟合真实分布时产生的信息损耗。为了使特征提取模块预测的类别概率向量p和记忆模块预测的类别概率向量
(12) |
(13) |
式中:
因此,总的无监督损失定义为
(14) |
式中:μ1和μ2表示信息熵损失和相对熵之间的均衡系数,实验中μ1和μ2均设置为1。
综上,学习模型总的损失函数定义为
(15) |
在模型的训练过程中,需要利用记忆模块及学习模块进行记忆关联学习,但是在测试阶段只需要特征提取模块得到的类别概率向量,不再需要记忆模块和学习模块,进而减少额外的存储和计算消耗。
2 实验结果及分析 本节在多个高光谱图像分类数据集上设计实验,对比本文方法和现有的其他分类方法以验证提出方法的有效性。
2.1 数据集 本文实验中采用3个标准的高光谱图像分类数据集作为实验数据,分别为Indian Pines数据集、Pavia University数据集和Salinas数据集,数据集中样本类别和样本数如表 1~表 3所示,数据和真实分类结果(Ground Truth,GT)如图 2所示。Indian Pines数据集由AVIRIS卫星在美国Indiana州西北部拍摄地面场景得到。该数据空间包含145×145个像素,在波长0.38~2.5 μm的光谱范围内,共捕获220个不同的光谱波段,空间分辨率为20 m,该数据场景中共包含16种不同的地物。在实验中,参考文献[19],移除该数据中的20个水吸收波段,将余下的200个波段作为实验数据。Pavia University数据集由ROSIS卫星在意大利Pavia University拍摄得到。该数据空间包含610×340个像素,共包含115个光谱波段,覆盖的光谱波长范围为0.43~0.86 μm,空间分辨率为1.3 m。图像场景内包含9种不同的地物类别。本文移除该数据中的12个水吸收波段,将余下的103个波段作为实验数据。Salinas数据集也是由AVIRIS卫星拍摄,场景内容为美国California州的Salinas峡谷。该数据集总共包含224个波段,空间上共有512×217个像素,空间分辨率为3.7 m。这些像素分别来自于16种不同的地物类别。实验中,移除该数据中的20个水吸收波段,将剩下的204个波段作为实验数据。
表 1 Indian Pines数据集中样本类别和样本数 Table 1 Name and pixel numbers of per adopted class on Indian Pines datasets
序号 | 样本类别名称 | 样本数 |
1 | Alfalfa | 46 |
2 | Corn-notill | 1 428 |
3 | Corn-mintill | 830 |
4 | Corn | 237 |
5 | Grass-pasture | 483 |
6 | Grass-trees | 730 |
7 | Grass-pasture-mowed | 28 |
8 | Hay-windrowed | 478 |
9 | Oats | 20 |
10 | Soybean-notill | 972 |
11 | Soybean-mintill | 2 455 |
12 | Soybean-clean | 593 |
13 | Wheat | 205 |
14 | Woods | 1 265 |
15 | Buildings-Grass-Trees-Drives | 386 |
16 | Stone-Steel-Towers | 93 |
总计 | 10 249 |
表选项
表 2 Pavia University数据集中样本类别和样本数 Table 2 Name and pixel numbers of per adopted class on Pavia University datasets
序号 | 样本类别名称 | 样本数 |
1 | Asphalt | 6 631 |
2 | Meadows | 18 649 |
3 | Gravel | 2 099 |
4 | Trees | 3 064 |
5 | Painted metal sheets | 1 345 |
6 | Bare Soil | 5 029 |
7 | Bitumen | 1 330 |
8 | Self-Blocking Bricks | 3 682 |
9 | Shadows | 947 |
总计 | 42 776 |
表选项
表 3 Salinas数据集中样本类别和样本数 Table 3 Name and pixel numbers of per adopted class on Salinas datasets
序号 | 样本类别名称 | 样本数 |
1 | Brocoli_green_weeds_1 | 2 009 |
2 | Brocoli_green_weeds_2 | 3 726 |
3 | Fallow | 1 976 |
4 | Fallow_rough_plow | 1 394 |
5 | Fallow_smooth | 2 678 |
6 | Stubble | 3 959 |
7 | Celery | 3 579 |
8 | Grapes_untrained | 11 271 |
9 | Soil_vinyard_develop | 6 203 |
10 | Corn_senesced_green_weeds | 3 278 |
11 | Lettuce_romaine_4wk | 1 068 |
12 | Lettuce_romaine_5wk | 1 927 |
13 | Lettuce_romaine_6wk | 916 |
14 | Lettuce_romaine_7wk | 1 070 |
15 | Vinyard_untrained | 7 268 |
16 | Vinyard_vertical_trellis | 1 807 |
总计 | 54 129 |
表选项
图 2 三个高光谱图像分类数据集的代表性波段图像和真实分类结果 Fig. 2 Representative band image and ground truth classification map of three HSI classification datasets |
图选项 |
2.2 对比方法及实验设置 为了验证本文方法能够有效减轻深度神经网络在面对少量训练数据时产生的过拟合问题,对比了6种不同的分类方法,分别为KNN方法[7]、SVM方法[8]、基于深度学习的一维卷积模型(1D-CNN)和三维卷积模型(3D-CNN)的方法,以及半监督卷积神经网络分类方法(SS-CNN)[20]和基于类内相似结构表示的高光谱图像小样本分类方法(ISSR-HIC)[18]。本文提出的基于记忆关联学习的高光谱图像分类方法的特征提取模块中卷积网络的整体结构如表 4所示,s表示第5个卷积单元光谱维的维度,valid表示不进行特征补齐。分类器层如表 5所示。一维卷积模型与本文方法的特征提取模块不同的是:一维卷积模型使用一维卷积对图像进行特征提取。三维卷积模型的网络结构和层数与本文方法的特征提取模块均相同。
表 4 卷积网络 Table 4 Convolution network
卷积层 | 卷积核 | 卷积步长 | 特征数 | 补齐 |
conv1 | (3, 1, 8) | (1, 1, 3) | 64 | valid |
conv2 | (1, 1, 3) | (1, 1, 2) | 64 | valid |
conv3 | (1, 3, 3) | (1, 1, 2) | 128 | valid |
conv4 | (1, 1, 3) | (1, 1, 2) | 128 | valid |
conv5 | (1, 1, 3) | (1, 1, 2) | 256 | valid |
conv6 | (1, 1, s) | (1, 1, 1) | 128 | valid |
表选项
表 5 分类器层 Table 5 Classifier layer
名称 | 神经元节点 | 激活函数 |
fc | 128 | ReLU |
logits | C | Softmax |
表选项
实验中,取每个样本周围大小为3邻域的像素块,训练batch size设置为180,其中包括无标签样本90,有标签样本90,使用带动量的随机梯度下降法进行参数优化,动量大小设置为0.9,优化器初始学习率为0.001,对于学习率,本文采用指数衰减的方式进行更新,衰减率为0.95,衰减步长为5 000。对于记忆模块的更新系数η,根据具体的数据设定,实验数据集为Indian Pines时设置为0.8,实验数据集为Pavia University和Salinas时设置为0.5。
2.3 评价指标 为了客观比较不同方法的分类性能,在实验中采用了3种不同的量化评价指标,分别为总体分类精度(Overall Accuracy, OA)[8]、类别平均分类精度(Average Accuracy, AA)[8]和Kappa系数[21],这3个指标的取值范围均为[0, 1]。对于每一个评价指标,得分越高表示分类结果越好。
2.4 实验结果 对于所有的数据集,随机采样5次,每次每类数据随机采样10个有标签样本,以及一共10×C个无标签样本用于训练,其余用作测试。并将5次采样结果的平均值作为对应方法的最终性能评价结果。将不同方法在3个数据集上的分类数值结果汇总到表 6~表 8中(表中加粗数据表示最好结果)。具体来说,在Indian Pines数据集上,当数据量较少时,本文方法的总体分类精度优于除ISSR-HIC方法以外的其他对比方法,对比KNN、SVM、1D-CNN、3D-CNN、SS-CNN方法,本文方法分别提升了11.95%、3.14%、4.34%、2.68%、1.50%,对比ISSR-HIC方法降低3.69%。在Pavia University数据集和Salinas数据集上,本文方法明显优于其他对比方法,对比ISSR-HIC方法,本文方法的总体分类精度分别提高13.38%、3.59%。相较于Pavia University数据集和Salinas数据集,Indian Pines数据集的空间分辨率更低,因此Indian Pines数据集中存在更多的噪声。本文通过记忆模块对无标签数据赋予伪标签,大量噪声的存在会导致记忆模块的预测不准确,无监督学习有偏移,影响整体的分类精度。因此,实验结果表明本文方法在大多数情况下能在训练样本有限时提升模型的分类性能。
表 6 不同方法在Indian Pines数据集上的分类结果 Table 6 Classification results of different methods on Indian Pines datasets?
序号 | KNN | SVM | 1D-CNN | 3D-CNN | SS-CNN | ISSR-HIC | 本文方法 |
1 | 86.11 | 82.50 | 79.44 | 79.44 | 76.09 | 90.76 | 63.89 |
2 | 44.63 | 41.70 | 31.71 | 29.28 | 18.00 | 55.25 | 10.65 |
3 | 36.05 | 47.74 | 47.63 | 44.15 | 6.86 | 52.56 | 11.59 |
4 | 48.02 | 57.31 | 49.16 | 42.29 | 70.04 | 64.98 | 46.26 |
5 | 69.98 | 76.77 | 74.97 | 77.59 | 17.18 | 76.09 | 64.38 |
6 | 64.39 | 81.19 | 89.44 | 87.72 | 80.41 | 85.82 | 92.36 |
7 | 92.22 | 92.22 | 83.33 | 98.89 | 92.86 | 92.86 | 91.67 |
8 | 66.03 | 82.46 | 76.03 | 77.82 | 78.87 | 78.09 | 97.44 |
9 | 68.00 | 98.00 | 94.00 | 100 | 100 | 95.00 | 90.00 |
10 | 39.33 | 49.95 | 49.29 | 54.51 | 55.33 | 55.14 | 17.05 |
11 | 29.87 | 39.75 | 38.45 | 46.74 | 68.73 | 47.82 | 89.65 |
12 | 26.83 | 42.04 | 38.46 | 36.50 | 31.20 | 48.06 | 23.50 |
13 | 90.15 | 93.23 | 92.00 | 96.62 | 93.17 | 95.61 | 92.56 |
14 | 61.96 | 66.22 | 70.17 | 70.80 | 96.05 | 74.35 | 84.22 |
15 | 14.31 | 36.91 | 46.65 | 38.24 | 38.95 | 41.97 | 28.99 |
16 | 86.02 | 91.57 | 88.43 | 98.07 | 100 | 93.55 | 96.99 |
AA | 57.74 | 67.47 | 65.57 | 67.42 | 63.98 | 71.74 | 62.57 |
OA | 44.99 | 53.80 | 52.60 | 54.26 | 55.44 | 60.63 | 56.94 |
Kappa | 38.69 | 48.46 | 47.16 | 48.71 | 48.96 | 55.87 | 49.28 |
表选项
表 7 不同方法在Pavia University数据集上的分类结果 Table 7 Classification results of different methods on Pavia University datasets?
序号 | KNN | SVM | 1D-CNN | 3D-CNN | SS-CNN | ISSR-HIC | 本文方法 |
1 | 58.07 | 68.75 | 68.15 | 68.84 | 75.19 | 69.44 | 96.55 |
2 | 66.60 | 68.17 | 62.95 | 74.63 | 86.05 | 65.22 | 91.94 |
3 | 48.22 | 66.40 | 66.18 | 68.43 | 61.99 | 66.33 | 62.83 |
4 | 85.38 | 82.27 | 86.64 | 90.22 | 93.81 | 85.13 | 83.72 |
5 | 92.27 | 99.28 | 99.43 | 98.97 | 99.18 | 99.57 | 99.91 |
6 | 29.25 | 67.02 | 71.30 | 50.37 | 32.85 | 67.21 | 39.74 |
7 | 89.97 | 87.83 | 86.50 | 87.88 | 74.06 | 91.24 | 90.71 |
8 | 56.00 | 81.55 | 71.14 | 73.40 | 72.41 | 80.75 | 92.46 |
9 | 99.89 | 99.91 | 99.96 | 99.59 | 97.99 | 98.76 | 100 |
AA | 70.07 | 80.13 | 79.14 | 79.15 | 77.06 | 80.41 | 84.21 |
OA | 62.83 | 72.47 | 69.98 | 73.30 | 76.47 | 71.56 | 84.94 |
Kappa | 53.02 | 65.14 | 70.32 | 65.79 | 68.95 | 64.38 | 79.65 |
表选项
表 8 不同方法在Salinas数据集上的分类结果 Table 8 Classification results of different methods on Salinas datasets?
序号 | KNN | SVM | 1D-CNN | 3D-CNN | SS-CNN | ISSR-HIC | 本文方法 |
1 | 98.27 | 94.92 | 95.55 | 91.23 | 99.29 | 97.55 | 99.28 |
2 | 81.15 | 97.47 | 99.77 | 97.34 | 98.09 | 97.82 | 99.60 |
3 | 74.38 | 87.60 | 92.33 | 89.70 | 69.38 | 86.29 | 98.19 |
4 | 94.45 | 99.29 | 98.71 | 95.55 | 97.99 | 98.05 | 99.47 |
5 | 88.54 | 92.83 | 90.41 | 93.64 | 99.18 | 95.44 | 94.61 |
6 | 96.58 | 98.34 | 99.21 | 96.28 | 99.09 | 99.25 | 99.26 |
7 | 98.55 | 98.83 | 99.00 | 96.02 | 99.80 | 99.46 | 99.46 |
8 | 62.39 | 53.00 | 68.02 | 58.28 | 25.30 | 58.08 | 79.12 |
9 | 91.36 | 96.03 | 95.60 | 92.80 | 99.00 | 96.02 | 99.03 |
10 | 58.92 | 83.71 | 83.48 | 76.08 | 81.96 | 82.82 | 74.96 |
11 | 78.11 | 86.60 | 93.72 | 87.75 | 86.48 | 95.13 | 96.96 |
12 | 91.46 | 99.74 | 99.45 | 99.46 | 99.90 | 98.62 | 99.96 |
13 | 98.72 | 98.10 | 95.74 | 95.81 | 99.56 | 96.97 | 99.58 |
14 | 88.17 | 90.91 | 94.11 | 92.87 | 94.53 | 95.35 | 94.83 |
15 | 52.84 | 70.70 | 54.26 | 69.76 | 93.09 | 67.23 | 56.91 |
16 | 43.17 | 90.04 | 79.67 | 90.16 | 77.30 | 92.17 | 98.25 |
AA | 81.32 | 89.88 | 89.94 | 88.92 | 88.75 | 91.02 | 92.74 |
OA | 76.20 | 82.61 | 83.57 | 82.31 | 79.73 | 83.72 | 87.31 |
Kappa | 73.56 | 80.76 | 81.74 | 80.41 | 77.69 | 81.97 | 85.84 |
表选项
上述实验结果说明,本文方法能够有效减轻基于深度神经网络的分类方法在仅有少量训练样本的情况下产生的过拟合问题。为了进一步说明这一问题,在图 3~图 5中绘制了不同方法在3个数据集上获得的分类结果视觉图。可以看出,相对于其他方法,在绝大多数情况下,本文方法更加接近真实的分类结果,从而再次验证了上述结论。
图 3 Indian Pines数据集上的分类结果 Fig. 3 Classification results of different methods on Indian Pines datasets |
图选项 |
图 4 Pavia University数据集上的分类结果 Fig. 4 Classification results of different methods on Pavia University datasets |
图选项 |
图 5 Salinas数据集上的分类结果 Fig. 5 Classification results of different methods on Salinas datasets |
图选项 |
2.5 有效性验证 本节验证训练样本量不同及损失函数变化对本文方法性能的影响。
2.5.1 训练样本有效性 本节对比本文方法与3D-CNN、ISSR-HIC方法在训练样本量不同时的分类表现。实验中分别设置有标签训练样本量为每类1、5、10、50、100和200,其余用作测试。3个数据集上的数值结果如表 9~表 11所示(表中加粗数据表示最好结果)。可以看出,随着有标签训练样本量不断增加,本文方法及3D-CNN、ISSR-HIC方法的分类准确率均有所提高。当有标签样本充足时(每类有标签样本为200),对比3D-CNN和ISSR-HIC方法,本文方法在Indian Pines数据集上的总体分类精度提升4.75%、8.24%,在Pavia University数据集上提升2.88%、8.79%,在Salinas数据集上提升3.79%、1.68%。在有标签样本不足时(每类标签样本数为5),对比3D-CNN和ISSR-HIC方法,本文方法在Pavia University数据集上的总体分类精度分别提升10.08%、11.17%,在Salinas数据集上提升8.52%、5.56%,在Indian Pines数据集上,本文方法比3D-CNN方法总体分类精度提升6.52%,比ISSR-HIC方法下降5.11%。
表 9 Indian Pines数据集上不同数量训练样本下的分类结果 Table 9 Classification results of different methods with changed numbers of training samples on Indian Pines datasets?
方法 | 评价指标 | 训练样本数 | |||||
1 | 5 | 10 | 50 | 100 | 200 | ||
3D-CNN | AA | 32.96 | 54.23 | 67.42 | 87.42 | 91.09 | 92.64 |
OA | 22.70 | 43.42 | 54.26 | 77.01 | 85.54 | 87.71 | |
Kappa | 15.33 | 36.90 | 48.71 | 72.32 | 83.47 | 85.68 | |
ISSR-HIC | AA | 40.93 | 66.35 | 71.74 | 84.31 | 88.73 | 91.01 |
OA | 30.55 | 55.05 | 60.63 | 79.09 | 81.14 | 84.22 | |
Kappa | 23.31 | 49.64 | 55.87 | 75.79 | 78.80 | 82.22 | |
本文方法 | AA | 33.77 | 48.18 | 62.57 | 89.45 | 92.49 | 95.80 |
OA | 39.60 | 49.94 | 56.94 | 83.92 | 86.27 | 92.46 | |
Kappa | 29.67 | 41.64 | 49.28 | 81.54 | 84.16 | 91.14 |
表选项
表 10 Pavia University数据集上不同数量训练样本下的分类结果 Table 10 Classification results of different methods with changed numbers of training samples on Pavia University datasets?
方法 | 评价指标 | 样本数 | |||||
1 | 5 | 10 | 50 | 100 | 200 | ||
3D-CNN | AA | 55.03 | 68.27 | 79.15 | 92.70 | 95.74 | 96.04 |
OA | 49.97 | 63.81 | 73.30 | 92.15 | 94.84 | 96.43 | |
Kappa | 37.48 | 53.36 | 65.79 | 89.65 | 93.18 | 95.22 | |
ISSR-HIC | AA | 65.94 | 76.94 | 80.41 | 86.10 | 89.89 | 92.51 |
OA | 53.46 | 62.72 | 71.56 | 81.55 | 86.84 | 90.52 | |
Kappa | 43.11 | 54.70 | 64.38 | 76.26 | 82.93 | 87.63 | |
本文方法 | AA | 55.80 | 72.21 | 84.21 | 95.83 | 97.87 | 98.80 |
OA | 55.81 | 73.89 | 84.94 | 97.32 | 98.42 | 99.31 | |
Kappa | 41.88 | 65.14 | 79.65 | 96.41 | 97.89 | 99.07 |
表选项
表 11 Salinas数据集上不同数量训练样本下的分类效果 Table 11 Classification results of different methods with changed numbers of training samples on Salinas datasets?
方法 | 评价指标 | 样本数 | |||||
1 | 5 | 10 | 50 | 100 | 200 | ||
3D-CNN | AA | 62.02 | 85.24 | 88.92 | 94.08 | 94.76 | 95.82 |
OA | 57.24 | 76.97 | 82.31 | 87.25 | 88.13 | 89.86 | |
Kappa | 53.04 | 74.61 | 80.41 | 85.83 | 86.79 | 88.68 | |
ISSR-HIC | AA | 77.67 | 87.39 | 91.02 | 94.47 | 96.01 | 96.63 |
OA | 70.65 | 79.93 | 83.72 | 90.21 | 91.52 | 91.97 | |
Kappa | 67.44 | 77.67 | 81.97 | 89.13 | 90.56 | 91.08 | |
本文方法 | AA | 78.30 | 90.99 | 92.74 | 94.56 | 96.76 | 97.27 |
OA | 78.30 | 85.49 | 87.31 | 89.01 | 92.78 | 93.65 | |
Kappa | 74.39 | 83.83 | 85.84 | 87.73 | 91.94 | 92.89 |
表选项
实验结果证明,在使用不同训练样本时,相比基准方法,本文方法在大多数情况下能有效提升分类任务的性能。
2.5.2 损失函数有效性 本节验证不同损失函数对分类结果的影响。将本文方法
表 12 不同损失函数在不同数据集上的分类结果 Table 12 Classification results of the proposed methods with different loss function on three datasets?
数据集 | 评价指标 | 损失函数 | ||
Indian Pines | AA | 62.57 | 55.58 | 61.20 |
OA | 56.94 | 52.26 | 48.33 | |
Kappa | 49.28 | 45.28 | 42.28 | |
Pavia University | AA | 84.21 | 83.08 | 77.42 |
OA | 84.94 | 81.64 | 68.68 | |
Kappa | 79.65 | 75.38 | 60.88 | |
Salinas | AA | 92.74 | 90.78 | 90.08 |
OA | 87.31 | 85.49 | 83.29 | |
Kappa | 85.84 | 83.78 | 81.46 |
表选项
3 结论 1) 针对少量训练样本导致基于深度神经网络的分类方法产生过拟合的问题,本文提出一种基于记忆关联学习的小样本高光谱图像分类方法。
2) 首先,通过特征提取模块对特征进行提取,构建记忆模块学习和存储有标签样本的类别特征信息,同时利用更新后的记忆模块预测无标签数据的类别分布。然后,根据预测的类别分布在大量的无标签数据上构建无监督分类任务,同时在少量的有标签样本上构建有监督分类任务。最后,通过联合求解2个学习任务,优化分类模型参数,使得模型在有标签样本较少的情况下,避免了因监督信息不足而造成的过拟合问题。
3) 实验结果表明,本文方法能够有效地处理高光谱图像的小样本学习问题,提升分类准确率。
参考文献
[1] | LANDGREBE D. Hyperspectral image data analysis[J]. IEEE Signal Processing Magazine, 2002, 19(1): 17-28. DOI:10.1109/79.974718 |
[2] | BISHOP C A, LIU J G, MASON P J. Hyperspectral remote sensing for mineral exploration in Pulang, Yunnan Province, China[J]. International Journal of Remote Sensing, 2011, 32(9): 2409-2426. DOI:10.1080/01431161003698336 |
[3] | ZHANG B, WU D, ZHANG L, et al. Application of hyperspectral remote sensing for environment monitoring in mining areas[J]. Environmental Earth Sciences, 2012, 65(3): 649-658. DOI:10.1007/s12665-011-1112-y |
[4] | ZHANG Y X, DU B, ZHAGN L P, et al. Joint sparse representation and multitask learning for hyperspectral target detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(2): 894-906. DOI:10.1109/TGRS.2016.2616649 |
[5] | WANG C, ZHANG L, WEI W, et al. When low rank representation based hyperspectral imagery classification meets segmented stacked denoising auto-encoder based spatial-spectral feature[J]. Remote Sensing, 2018, 10(2): 284. DOI:10.3390/rs10020284 |
[6] | PAN E T, MEI X G, WANG Q D, et al. Spectral-spatial classification for hyperspectral image based on a single GRU[J]. Neurocomputing, 2020, 387: 150-160. DOI:10.1016/j.neucom.2020.01.029 |
[7] | GUO G D, WANG H, BELL D A, et al. KNN model-based approach in classification[C]//OTM Confederated International Conferences "On the Move to Meaningful Internet Systems". Berlin: Springer, 2003: 986-996. |
[8] | MELGANI F, BRUZZONE L. Classification of hyperspectral remote sensing images with support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8): 1778-1790. DOI:10.1109/TGRS.2004.831865 |
[9] | LI W, DU Q. Joint within-class collaborative representation for hyperspectral image classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2200-2208. DOI:10.1109/JSTARS.2014.2306956 |
[10] | HU W, HUANG Y Y, LI W, et al. Deep convolutional neural networks for hyperspectral image classification[J]. Journal of Sensors, 2015, 2015: 258619. |
[11] | LIU X F, SUN Q Q, LIU B, et al. Hyperspectral image classification based on convolutional neural network and dimension reduction[C]//2017 Chinese Automation Congress. Piscataway: IEEE Press, 2017: 1686-1690. |
[12] | LEE H, KWON H. Going deeper with contextual CNN for hyperspectral image classification[J]. IEEE Transactions on Image Processing, 2017, 26(10): 4843-4855. DOI:10.1109/TIP.2017.2725580 |
[13] | ZHONG Z L, LI J, LUO Z M, et al. Chapman: Spectral-spatial residual network for hyperspectral image classification: A 3-D deep learning framework[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(2): 847-858. DOI:10.1109/TGRS.2017.2755542 |
[14] | FANG B, LI Y, ZHAGN H K, et al. Hyperspectral images classification based on dense convolutional networks with spectral-wise attention mechanism[J]. Remote Sensing, 2019, 11(2): 159. DOI:10.3390/rs11020159 |
[15] | PAOLETTI M E, HAUT J M, BELTRAN R F, et al. Capsule networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(4): 2145-2160. DOI:10.1109/TGRS.2018.2871782 |
[16] | SAMIAPPAN S, MOORHEAD R J. Semi-supervised co-training and active learning framework for hyperspectral image classification[C]//IEEE International Geoscience and Remote Sensing Symposium (IGARSS). Piscataway: IEEE Press, 2015: 401-404. |
[17] | RASMUS A, VALPOLA H, HONKALA M, et al. Semi-supervised learning with ladder networks[EB/OL]. (2015-07-09)[2020-08-01]. https://arxiv.org/abs/1507.02672. |
[18] | WEI W, ZHAGN L, LI Y, et al. Intraclass similarity structure representation-based hyperspectral imagery classification with few samples[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 1045-1054. DOI:10.1109/JSTARS.2020.2977655 |
[19] | LI W, WU G D, ZHANG F, et al. Hyperspectral image classification using deep pixel-pair features[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(2): 844-853. DOI:10.1109/TGRS.2016.2616355 |
[20] | LIU B, YU X C, ZHAGN P Q, et al. A semi-supervised convolutional neural network for hyperspectral image classification[J]. Remote Sensing Letters, 2017, 8(9): 839-848. DOI:10.1080/2150704X.2017.1331053 |
[21] | PONTIUS R G, MILLONES M. Death to Kappa: Birth of quantity disagreement and allocation disagreement for accuracy assessment[J]. International Journal of Remote Sensing, 2011, 32(15): 4407-4429. DOI:10.1080/01431161.2011.552923 |