删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于样本类别确定度的半监督分类*

本站小编 Free考研考试/2021-12-25

遥感技术的快速发展使得相关设备可以提供分辨率更高、信息量更大的遥感图像,遥感技术在大气监测、环境保护以及抢险救灾等领域得到了广泛应用,这些都可以归结为一定条件下的图像分类问题。如何快速准确地对遥感图像进行分类是一项十分艰巨的任务,对相关算法的目标特征提取能力提出了很高的要求,图像分类一直是相关科研人员感兴趣的研究方向。
传统的图像分类技术主要是基于无监督学习[1]和全监督学习[2]。无监督学习通过利用未标记样本的特征分布规律,使得相似的样本聚为一类。由于不需要先验知识辅助和样本标记信息,因此算法简单,实现起来比较容易。然而,这类算法仅仅考虑了不同样本之间的特征差异,缺乏样本类别信息的有效指导,分类效果往往不好。因此,基于标记样本的全监督算法应运而生。全监督算法通过学习样本特征与标签之间的对应关系,能够快速捕捉新样本的类别信息。这类算法在大量标记样本的训练下,分类准确率较好,鲁棒性较高。一些算法,如支持向量机(Support Vector Machine,SVM)[3]、贝叶斯(Bayes)算法[4]、随机森林(random forest)及其扩展算法[5-6]已经广泛应用于遥感图像分类等领域。但是,全监督算法需要对大量的标记样本进行学习,而实际中标记样本数量很少,并且易受噪声的影响,通过人工获取准确训练集是一项十分艰巨的任务[3]。相对而言,未标记样本极易获取、数量巨大,同样蕴含着丰富的有用信息,如果能够对其加以利用,不仅可以解决训练样本数量不足的问题,而且会大大减少前期的资源投入,提高分类效率。半监督学习能够基于标记样本,不依赖外界交互,自动地利用未标记样本提升学习性能。由于现实应用中利用未标记样本提升算法性能的巨大需求,迅速成为了研究热点。
一般认为, 半监督学习的研究始于1994年,Shahshahani和Landgrebe首次提出了半监督学习的概念[7]。依据工作形式,半监督学习大概发展成为以下几种类型:生成式模型[8]、半监督SVM[9]、图半监督学习[10]、自训练模型[11]、协同训练方法[12]。尽管半监督学习的模型较多,但是在进行算法的具体设计时,往往都是通过综合未标记样本的信息来扩充标记样本集,使得分类时相似的样本具有相同的标签或者分类面通过样本较为稀疏的地方[13]。例如:文献[14]提出了直推式支持向量机(Transductive Support Vector Machine,TSVM)算法,通过将每个未标记样本分别作为正例或反例,然后在所有这些结果中,寻找一个在所有样本上间隔最大化的划分超平面,使得泛化误差最小。文献[15]提出了基于SVM的PS3VM-D(the Progressive Semi-Supervised SVM with Diversity)算法,通过迭代查询间隔边界(margin band)附近的样本保证增量样本的信息量,并利用样本间的相似性提取最可靠的增量样本作为半监督样本。文献[16]提出了基于协同训练的tri-training半监督算法,通过初始标记样本训练出3个分类器,然后分类器分别挑选置信度最高的未标记样本赋予标签并提供给另2个分类器作为新增的有标记样本进行训练,迭代进行上述过程直至分类器不再变化,有效地提高了分类性能。文献[3]提出了基于SVM的CS4VM(Context-Sensitive SVM)算法,通过利用标记样本周围的像素背景信息,并将其设计成代价函数添加到SVM的目标函数中,得到性能更好的分类器。文献[13]提出了基于自训练的半监督算法,通过结合主动学习方法迭代查询最有用和信息量最大的样本,并利用分类器对其进行标记之后加入到初始训练集中。证实了其分类性能在标记样本较少时优于传统全监督算法。文献[17]提出了一种合成实例生成(synthetic examples generation)的半监督框架,通过对标记样本和未标记样本过采样和位置调整得到合成标记样本,然后将这些样本加入到自标记(self-labeled)过程,提高了分类性能。
尽管上述半监督算法通过实验都证明了各自的有效性,然而研究发现半监督学习并非一定能有效提升分类器的性能。这主要是由于这种方法对数据分布、未标记样本的筛选方式以及赋予伪标签的方法要求比较严格。事实上,现实中的样本数量众多,分布往往比较复杂。在某些情况下,利用未标记样本甚至是有害的[18-19]。例如对于基于自训练模型和协同训练模型的相关算法,其通过选取未标记样本赋予伪标签来扩充初始训练集,然后对分类器进行重新训练。如果未标记样本的选择不恰当或者赋予的标签不正确,那么分类器的性能不仅不会提升,甚至会严重下降。一些研究正致力于保证未标记样本利用的安全性[20-22]。而对于半监督SVM算法,尽管其可以通过迭代的方式对未标记样本进行各种可能的标签指派,以此使得分类面最佳,但是在未标记样本较多的情况下,算法计算复杂度会非常之高,严重限制了其在现实生活中的应用[23-24]
为了能够安全地利用未标记样本提升分类性能,本文提出了基于样本类别确定度(CCS)的半监督分类算法。不同于大部分半监督算法利用未标记样本时赋予其伪标签的方法,CCS通过赋予未标记样本类别确定度信息并将其巧妙地融合到线性判别分析(LDA)的散度矩阵中,使得新的散度矩阵更能代表真实的特征分布,样本在投影后的子空间中更具有可分性。由于类别确定度能够有效衡量样本的类别可靠性,未标记样本中可靠性较高的样本所起作用大于可靠性较低的样本,算法能够充分地吸收未标记样本的特征信息,保证CCS中未标记样本利用的安全性。此外,针对现实世界中样本分布往往较为复杂的情况,本文对未标记样本的类别确定度进行归一化与阈值处理,保证了半监督过程中利用的类别确定度拥有一定的可靠性,从而提升了算法性能的稳定性。
1 支持向量机与线性判别分析算法 SVM是基于结构风险最小化的机器学习方法,通过提取训练集的支持向量得到最大间隔分类器,对测试样本分类[25]。以二分类SVM为例,假定标记样本集合为L,测试集合为T,学习过程受限于以下优化问题:
(1)

式中:g(w)为优化函数;w为超平面的法向量;b为位移,衡量点到超平面的距离;ξi为松弛变量,表征数据点xi能够容许的偏移量,xi为一个样本特征向量; yi为样本类别;C为惩罚因子,用以衡量最大间隔的范围以及最小误差之间的权重;?(xi)将原来的样本映射到新的高维空间,使样本更具有可分性;n为训练样本个数。
SVM的输出f(xi)=wT? (xi)+b具有一定的物理意义。其绝对值越大,表示离分类面越远,此时样本类别可靠性越高;其绝对值越小,表示离分类面越近,此时样本类别可靠性越低。对于多分类SVM,各个二分类SVM的输出之和能够有效衡量样本到各个分类面的距离,因此同样满足值越大,属于某个类别的概率越大的规律。很多半监督算法利用SVM的这一特点,吸收可靠性较高的样本加入到初始标记样本集中,以此扩充训练样本集[15]
针对SVM的多分类问题,主要有“一对其余法”和“一对一法”。这2种方法都是通过将多分类问题转化成多个2类问题来进行解决。在“一对其余法”的训练中,对于具有k个类别的样本,需要训练k个SVM二分类器。在构造第i个SVM时,第i个类别的样本标记为正类,其他不属于i类别的样本标记为负类。可以看出,当k比较大时,负类样本数量远大于正类样本数量。对于“一对一法”,该方法在每2类样本间训练一个分类器,因此对于一个k分类问题,将有k(k-1)/2个分类器。
LDA算法通过寻找一个子空间使同类样本尽量靠近,异类样本尽量远离,广泛应用于图像降维和分类中[26]。以二分类为例:给定数据集{(x1, y1), (x2, y2), …, (xi, yi), …,(xm, ym)}, yi∈{0, 1}。令uiCi分别为第i∈{0, 1}类的均值向量和协方差矩阵。w为投影向量。欲使同类样本的投影点尽可能接近,可以使同类样本的协方差尽可能小,即wTC0w+wTC1w尽可能小;而欲使异类样本投影点尽可能远离,可以使类中心之间距离尽可能大,即||wTu0wTu1||22||尽可能大。同时考虑二者,则可得到最大化的目标函数:
(2)

定义类内散度矩阵以及类间散度矩阵分别为
(3)

则根据式(3),式(2)可重新表示为
(4)

这被称为广义瑞利商。
接下来将LDA推广到多分类任务中。假定存在k个类,且第i类样本数为ni。定义全局散度矩阵为
(5)

式中:; u为所有样本的均值向量。类内散度矩阵仍然为所有类别样本的协方差矩阵:
(6)

由式(5)和式(6)可以得到类间散度矩阵为
(7)

多分类LDA的J可以有多种实现方法,其中一种常见的构造形式仍如式(4)所示。
由于LDA从高维空间到低维空间的函数映射是线性的,然而,在不少现实任务中,可能需要非线性映射才能找到更可分的低维空间。因此此时需要非线性降维,其中一种常用的方法是基于核技巧对LDA进行“核化”得到核化线性判别分析(KLDA)[27]
2 基于CCS的半监督分类算法 首先对要用到的符号进行定义,根据是否有标签本文将训练数据集X=[L, U]∈Rd×N分为两部分,d为训练样本的维度,N为训练样本的数目。其中标记样本特征矩阵L=[x1, x2, …, xl]∈Rd×l,其对应的标签为[y1, y2, …, yl]。未标记样本特征矩阵则为U=[xl+1, xl+2, …, xl+u]∈Rd×ul+u=N为训练样本总个数。测试样本集则为T。本文算法主要包括3个部分:未标记样本初始类别确定度获取、样本类别确定度安全处理和半监督分类器。图 1所示为本文算法流程。
图 1 本文算法流程 Fig. 1 Flowchart of proposed algorithm
图选项




2.1 未标记样本初始类别确定度获取 在图 1中,作为输入的LU的维度往往较高,为了能够提取样本特征并且方便得到类别确定度,首先对样本进行降维。为了在降维过程中利用到类别信息,使得在降维后的子空间中,异类样本之间更具有可分性,采用KLDA方法。训练样本经过KLDA降维后,得到投影特征L1U1
在样本进行降维之后,根据标记样本训练出SVM,这主要是利用SVM的输出f(xi)=wT(xi)+b能够有效衡量样本的可靠性。由于样本一般为多类,因此要构造多分类SVM。对比“一对其余法”和“一对一法”。前者由于正负类训练样本极不均衡,有可能会造成分类面出现偏差,进而导致样本类别判决出现错误及f(xi)无法有效衡量样本的可靠性。因此本文采用“一对一法”构造多分类SVM。以获取未标记样本属于类别m的初始确定度为例,其流程如图 2所示,L1(m)表示L1降维后属于第m类别的标记样本。
图 2 多分类SVM构造及未标记样本初始类别确定度获取 Fig. 2 Multi-class SVM construction and acquisition of initial class certainty of unlabeled sampless
图选项




首先,将L1(m)作为正类,其余类别的标记样本作为负类,两两训练出二分类SVM。之后将U1输入到每个二分类SVM中,得到对应的输出向量。例如:f(m, m-1)=(wT?(U1)+b)T表示U1输入到L1(m)L1(m-1)训练出的SVM中得到的输出向量。由于输出函数较多,借鉴投票法判决类别的思想,将所有的输出向量相加得到未标记样本属于第m类别的初始确定度f(m)。此时f(m)仍然满足值越大,属于第m类别的确定性越大,值越小,属于m类别的确定性越小的性质。尽管本节只是列出了获取未标记样本U属于第m类确定度的过程,其他类别f(i), imi=1, 2, …, k,可由此推广得到,这里不再赘述。
2.2 样本类别确定度安全处理 对于向量fs(i)里的元素值,当其值大于1时,属于i类的可信度很高,当其值小于-1时,属于i类的可信度很低,为了准确方便地利用f(i),本文对其进行归一化和阈值处理,归一化方法较多,本文采用min-max标准化方法得到:
(8)

式中:pU(i)为未标记样本U经过归一化之后属于类别i的确定度;max和min分别为p(i)U中元素的最大值和最小值。对于阈值处理,设置阈值t,当 p(i)U里面的元素值小于预设的阈值t时,将其设置为0。即:
(9)

其中:pU, j(i)为向量p(i)U的元素值。此时t值越大,表示对利用的未标记样本可靠性要求越高。当t=1时,未标记样本属于各个类别的确定度都为0,在之后的半监督过程中不起作用。此时半监督算法性能退化至全监督性能。当数据分布存在类间重叠等极端情况时,通过增大阈值t,可以防止半监督算法的性能恶化,有效地保证半监督算法稳定性。通过上述处理,加大了可靠样本的权重而减小了不可靠样本权重,保证利用的未标记样本拥有足够的可信度。
之后计算标记样本L的类别确定度,设属于i类别的原始标记样本集为L(i)。显然,对于L(i),其属于i类别确定度为1,属于其他类别则为0。因此,标记样本L=[x1, x2, …, xl]属于i类别的确定度向量可以表示如下:
(10)

式中:pL, j(i)为向量pL(i)的第j个元素值;yj为样本xj的标签。因此对于所有的样本X,其属于i类别的确定度如式(11)所示:
(11)

2.3 半监督分类器 为了充分利用未标记样本的信息,本文接下来对原始训练集数据进行半监督LDA降维,其原理是将上述获得的样本类别确定度融入到散度矩阵中得到新的目标函数,从而使样本在投影后的子空间中更具有可分性。首先重新定义类内均值向量ui和总均值向量u分别为
(12)

全监督LDA中均值向量代表了样本的特征平均值。如果将样本特征映射到空间中,设每个样本的密度为1,那么此时的均值向量就是每个类的质心。借鉴这个思想,本文将样本X属于各个类别的确定度作为密度,样本属于该类别可靠性越高,则密度越大,对该类质心位置影响越大,反之则越小。由于充分融入了未标记样本的特征信息,使得求出的均值向量更加真实可靠,而且对噪声不敏感。
接下来,为了得到“广义瑞利商”优化函数,定义新的散度矩阵如下:
(13)

(14)

(15)

式中:pj(i)为向量p(i)的元素值;hjRN×1中元素的数学表达式如下:
(16)

其中:hj, i为向量hj的元素值。
从式(13)~式(15)可以看出,不同于全监督LDA的是,本文在类间散度矩阵Sb中改变了ni的定义,在类内散度矩阵Sw和全局散度矩阵St中添加了pj(i)作为权重。当样本属于该类别的确定度越小时,pj(i)值越小,对散度矩阵的影响越小,反之则越大。这样做不仅充分融入了未标记样本的信息还减小了错分样本的影响,从而使得散度矩阵能够代表更加真实准确的样本分布信息。
可以证明新的散度矩阵仍然满足St=Sb+Sw,因此在构造新的广义瑞利熵时,可以采用三者中的任意两者。以SwSb为例,表示如下:
(17)

式中:wRd×(N-1)。式(17)可通过如下广义特征值来求解:
(18)

式中:λ为拉格朗日乘子。w的闭式解则是Sw-1SbN-1个特征向量组成的矩阵。可以看出其求解是非常简单的。
由于上述的半监督降维是线性降维,接下来,本文利用核方法将其推广到非线性降维中,得到核化半监督LDA。首先对样本X进行非线性变换XΦ(X),根据式(13)、式(14)、式(17),核化目标函数可表示为
(19)

根据可再生核希尔伯特空间的有关理论可知,式(19)问题的任何解wF都处在所有训练样本张成的子空间中。由于本文样本的类别确定度信息是由SVM得出来的,在标记样本较少时,处于分类面附近的未标记样本属于每个类别的确定度都会比较低。为了减小这部分样本在核化过程中的影响,将w表示如下:
(20)

式中:,其综合衡量了样本的可靠性。当样本Xj处于分类面附近时,p(s)值比较小,这样在核化过程中起到的作用较小,保证了半监督KLDA的算法稳定性。
接下来将式(20)代入到式(19)得到:
(21)

式中:K为核函数矩阵,按照式(18)的方法即可求解出a,最后代入到式(20)求解出w
依照上述算法对测试样本进行半监督降维后,需要对其进行分类,此时采用最近邻分类器(Nearest Neighbor Classifier,NNC)。这是因为训练集样本在降维后,同类样本往往较近,异类样本相距较远。此时投影后的均值向量充分代表了每个类别的特征信息。降维之后的均值向量可表示为
(22)

将其作为最近邻分类器的标记样本,测试样本的类别即为距离其最近的的类别。可以看出,采用最近邻分类器契合了降维后的数据特点,而且算法简单,运行速度快。
3 实验验证 本文设计了相关实验对本文算法性能进行衡量。实验一共分成3个部分:首先是对本文算法进行探讨,验证本文算法有关步骤的有效性;之后对本文算法与全监督算法进行实验,比较两者性能上的差异性;最后将本文算法与其他半监督算法进行实验,对结果进行比较。实验采用数据集包括2部分:训练样本和测试样本。其中训练样本选择了T72系列主战坦克(sn_132)、BMP2系列六轮履带式装甲车(sn_c21)以及BTR70装甲(sn_c71)。3种训练目标的光学图像如图 3所示,SAR图像如图 4所示。虽然3种车辆的光学图像的差异明显,但是对应的SAR图像在视觉上无法分辨:它们的空间和谱特征十分相似,而且由于斑点噪声的影响,加大了识别的难度。实验选用T72(sn_s7)、BMP2(sn_c9566)、BTR70(sn_c70)作为测试样本,可以看出,训练样本与测试样本的同类目标的型号不同,使得目标分类难度增大。表 1展示出了训练样本与测试样本的种类及样本数量。
图 3 3种训练目标的光学图像 Fig. 3 Optical images of three kinds of training objective
图选项




图 4 3种训练目标的SAR图像 Fig. 4 SAR images of three kinds of training objective
图选项




表 1 训练样本与测试样本的种类及样本数量 Table 1 Types and quantities of training samples and testing samples
样本种类训练样本 测试样本
T72
(sn_132)
BMP2
(sn_c21)
BTR70
(sn_c71)
T72
(sn_s7)
BMP2
(sn_c9566)
BTR70
(sn_c70)
样本数/幅 232 232 232 191 191 191


表选项






3.1 算法分析 本文算法在获取未标记样本的类别确定度时,首先使用了KLDA对原始样本数据进行监督降维,为了验证使用KLDA的有效性,将其置换成核化主成分分析(Kernel Principal Component Analysis, KPCA)算法这种被广泛使用的无监督降维算法,并将两者对分类精度的影响进行对比。在训练样本中每类选取相同比例的样本作为初始标记样本集,得到CCS使用上述2种降维算法分类精度走势如图 5所示,KLDA-CCS表示使用KLDA进行原始数据的降维,KPCA-CCS表示使用KPCA进行原始数据的降维。
图 5 不同降维算法对本文算法分类精度影响走势 Fig. 5 Classification accuracy trend of proposed algorithm with different dimension reduction algorithms
图选项




图 5可知,不同降维算法的分类精度的差异十分明显:KLDA-CCS的分类精度明显高于KPCA-CCS,标记样本比例越小,差异越大。标记样本数增加时,差异有所减小。这是因为当标记样本较少时,相比于KPCA,KLDA利用了样本类别差异,吸收了标记样本类别信息,使其具备良好的样本特征表征能力;当标记样本数增加时,KPCA足够表征未标记样本,使得KPCA与KLDA性能接近。上述实验证明了对原始样本数据进行降维时使用KLDA进行降维的有效性。
在获取未标记样本的类别确定度时,为了提高未标记样本的安全性,本文对类别确定度进行了阈值处理,接下来分析阈值t的变化对分类性能的影响进行探讨。通过选取几个典型的t值,得到对应的分类精度走势图(见图 6),来说明在实际中如何取t值。
图 6 不同阈值设置时本文算法的分类精度走势 Fig. 6 Classification accuracy trend of proposed algorithm with different threshold setting
图选项




t=0.2时,分类精度最高,t=0次之。随着标记样本比例的增加,两者的分类性能逐渐靠近。当标记样本的比例达到15%时,t=0的分类精度超越前者。当阈值t设置较大时,如t=0.7,t=1时,分类精度降低。
从上述实验可知,在标记样本很少时,相比于t=0利用所有的未标记样本类别确定度信息,通过设置合理的阈值,使得在半监督过程中利用的未标记样本具有一定的可信度,有效地提高了分类性能。随着标记样本数的增加,利用多分类SVM获取的样本类别确定度的可信度提升,进而可以放宽阈值,调整为t=0,利用所有的未标记样本信息,达到最好的分类效果。因此在实际应用中,只需在标记样本很少时设置较小的t值,标记样本增多设置t=0即可。针对t值较大分类精度较低的现象,是因为此时对利用的未标记样本可靠性要求很高,CCS吸收未标记样本信息较少,导致半监督降维时,样本在投影后的子空间可分性不好。
最后,本文利用可视化图形来验证本文算法中的半监督LDA的有效性,如图 7所示,test-BMP2表示从BMP坦克中挑选的一个测试样本,u-BMP2,u-BTR70,u-T72表示各类均值向量,箭头所指类别表示利用NNC算法对测试样本的判决结果,图中的点均表示投影后的向量。
图 7 3类标记坦克样本在LDA和半监督LDA中的二维特征 Fig. 7 Two-dimensional feature of three kinds of labeled tank samples in LDA and semi-supervised LDA
图选项




可以看出在LDA中,同类样本降维后相距很近,LDA只是借助于标记样本进行分类,因此类均值向量就在标记样本附近,根据NNC算法,test-BMP2样本相距T72的均值向量最近,因此样本被错分为T72类别。与LDA不同,半监督LDA中的类均值向量与标记样本相距较远。这是因为半监督LDA通过充分吸收未标记样本的特征信息,使得降维后的类均值向量更能代表真实的样本特征分布,同时,测试样本更加靠近其所属类别的类均值向量。如图 7(b)所示,此时test-BMP2明显相距u-BMP2最近,样本分类为BMP2,这也是本文算法对原始样本数据进行降维时采用KLDA而不是LDA的原因。
3.2 与全监督算法的比较 为了验证本文算法的有效性,将其与使用LDA进行降维,之后利用NNC进行分类的全监督算法(LDA-NNC)进行性能对比。同时,当本文算法中使用核方法时,称此时算法为核化CCS(KCCS)。因此同样为了验证KCCS的有效性,本文将其与KLDA-NNC算法进行比较。在训练样本中每类选取相同比例的样本作为初始标记样本集,得到不同算法的分类精度走势图,如图 8所示。
图 8可知,在标记样本比例小于20%时,本文算法的分类精度明显高于全监督算法LDA-NNC,KCCS的分类精度明显高于KLDA-NNC。当标记样本比例达到40%时,半监督算法与全监督算法性能差异较小。另外,在标记样本比例达到10%时,此时本文算法以及KCCS的分类精度已比较接近收敛值,相比全监督算法能够更快地收敛。
图 8 全监督算法与本文算法的分类精度走势 Fig. 8 Classification accuracy trend of supervised algorithm and proposed algorithm
图选项




上述实验说明了在标记样本较少时,本文算法以及KCCS有效提高了分类器的泛化性能。当标记样本增多时,此时的标记样本具有足够的特征表达能力,能够训练出一个性能较好的分类器,使得全监督算法的分类精度逐渐接近半监督算法。另外对比图 8各曲线可知,核化之后的KCSS算法分类性能得到了提高,这说明本文遥感数据在原空间中线性可分性不好,通过核化寻找到一个更高维度的线性可分空间。因此针对不同的数据可以选择核化或者非核化的方法进行样本的降维。这也是本文算法采用KLDA而不是LDA对原始数据进行降维的原因。
3.3 与其他半监督算法的比较 为了进一步验证本文半监督算法CCS的有效性,选取其他4种半监督算法进行对比,包括标签传播(Label Propagation,LP)[28]、PS3VM-D[15]、限制K均值聚类(Constrained KMeans,C-KMeans)[29]、SDA(Semi-supervised Discriminant Analysis)算法[30]。其中LP通过建立相似矩阵,将标记样本的标签按相似程度传播给未标记样本;PS3VM-D通过利用样本间的相似性提取可靠的增量样本加入到初始标记样本集;C-KMeans通过添加“勿连”与“必连”约束对分类进行指导;SDA则是通过向LDA中添加正则式进行半监督分类。由于本文算法、SDA建立在LDA的基础上,因此为了保证比较的公平性,LP、PS3VM-D、C-KMeans事先利用LDA对原始数据进行降维,以此能够得到更准确的特征。在训练样本中每类选取相同比例的样本作为初始标记样本集,得到不同算法随标记样本比例变化的分类精度走势图,如图 9所示。
图 9 不同半监督算法的分类精度走势 Fig. 9 Classification accuracy trend of different semi-supervised algorithms
图选项




图 9可以看出,在标记样本较少时,本文算法分类精度最高,相比其他半监督算法始终高出至少8%的分类精度,而SDA次之,说明了基于LDA的半监督算法拥有良好的分类性能。对于LP、PS3VM-D、C-KMeans算法,由于事先利用了LDA进行降维,否则与本文算法的分类精度差异会更加的明显。本文分析可知,LP、PS3VM-D是通过迭代的方式向未标记样本赋予伪标签,样本的标签一旦出错,便会影响后续分类器的训练,导致分类器性能提升不高;C-KMeans算法通过添加约束条件并不能充分利用未标记样本样本的谱信息;SDA重在保持样本之间的邻域关系,但是对数据分布要求较高。而本文算法一方面基于LDA充分地利用了标记样本的类别信息,另一方面通过将未标记样本的类别确定度融入到半监督过程中,可靠地吸收了未标记样本的特征信息,使得在标记样本极少时算法更加稳定和准确。此外,本文算法并不需要像LP、PS3VM-D一样进行迭代,也不需要像SDA建立图模型矩阵,算法较为简单。
4 结论 1) 创新性地利用训练样本降维和一对一SVM,有效地赋予了未标记样本类别确定度信息。
2) 通过对类别确定度预处理,提高了类别确定度利用的安全性。
3) 基于样本类别确定度推导了半监督LDA降维算法,并通过核化方法将其推广到非线性降维领域中,根据降维后的数据特点,采用NNC进行测试样本的分类。
采用MSTAR数据库中的BMP2、T72、BTR70系列样本作为数据集,通过一系列实验验证了本文算法有关步骤的有效性;证实了本文算法相比全监督算法可以得到更高的分类精度以及具有更好的鲁棒性;验证了本文算法相比其他半监督算法可以更好地适应标记样本缺乏时的情况,表现出了良好的精确度和稳定性。

参考文献
[1] SUN H, LIU S, ZHOU S L, et al. Unsupervised cross-view semantic transfer for remote sensing image classification[J].IEEE Geoscience and Remote Sensing Letters, 2016, 13(1): 13–17.DOI:10.1109/LGRS.2015.2491605
[2] CAVALLARO G, MURA M D, BENEDIKTSSON J A, et al. Remote sensing image classification using attribute filters defined over the tree of shapes[J].IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(7): 3899–3911.DOI:10.1109/TGRS.2016.2530690
[3] BOVOLO F, BRUZZONE L, CARLIN L. A novel technique for subpixel image classification based on support vector machine[J].IEEE Transactions on Image Processing, 2010, 19(11): 2983–2999.DOI:10.1109/TIP.2010.2051632
[4] BRUZZONE L. An approach to feature selection and classification of remote sensing images based on the Bayes rule for minimum cost[J].IEEE Transactions on Geoscience and Remote Sensing, 2000, 38(1): 429–438.DOI:10.1109/36.823938
[5] CABEZAS J, GALLEGUILLOS M, PEREZ-QUEZADA J F. Predicting vascular plant richness in a heterogeneous wetland using spectral and textural features and a random forest algorithm[J].IEEE Geoscience and Remote Sensing Letters, 2016, 13(5): 646–650.DOI:10.1109/LGRS.2016.2532743
[6] XIA J S, DU P J, HE X Y, et al. Hyperspectral remote sensing image classification based on rotation forest[J].IEEE Geoscience and Remote Sensing Letters, 2014, 11(1): 239–243.DOI:10.1109/LGRS.2013.2254108
[7] SHAHSHAHANI B M, LANDGREBE D A. The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon[J].IEEE Transactions on Geoscience and Remote Sensing, 1994, 32(5): 1087–1095.DOI:10.1109/36.312897
[8] COZMAN F G, COHEN I.Unlabeled data can degrade classification performance of generative classifiers[C]//Proceedings of 15th International Florida Artificial Intelligence Society Conference.Reston: AIAA, 2002: 327-331.
[9] PASOLLI E, MELGANI F, TUIA D, et al. SVM active learning approach for image classification using spatial information[J].IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(4): 2217–2233.DOI:10.1109/TGRS.2013.2258676
[10] BLUM A, CHAWLA S.Learning from labeled and unlabeled data using graph mincuts[C]//Proceedings of 8th International Conference on Machine Learning.San Francisco: Morgan Kaufmann Publishers Inc., 2001: 19-26.
[11] ROSENBERG C, HEBERT M, SCHNEIDERMAN H.Semi-supervised self-training of object detection models[C]//Proceedings of the 7th IEEE Workshops on Application of Computer Vision.Piscataway, NJ: IEEE Press, 2005: 29-36.
[12] BLUM A.Combining labeled and unlabeled data with co-training[C]//Proceedings of the 7th Annual Conference on Computational Learning Theory.Piscataway, NJ: IEEE Press, 2000: 92-100.
[13] DóPIDO I, LI J, MARPU P R. Semisupervised self-learning for hyperspectral image classification[J].IEEE Transactions on Geoscience and Remote Sensing, 2013, 51(7): 4032–4044.DOI:10.1109/TGRS.2012.2228275
[14] JOACHIMS T.Transductive inference for text classification using support vector machines[C]//Proceedings of the 6th International Conference on Machine Learning.San Francisco: Morgan Kaufmann Publishers Inc., 1999: 200-209.
[15] PERSELLO C, BRUZZONE L. Active and semisupervised learning for the classification of remote sensing images[J].IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(11): 6937–6956.DOI:10.1109/TGRS.2014.2305805
[16] ZHOU Z H, LI M. Tri-training:Exploiting unlabeled data using three classifiers[J].IEEE Transactions on Knowledge and Data Engineering, 2005, 17(11): 1529–1541.DOI:10.1109/TKDE.2005.186
[17] TRIGUERO I, GARCIA S, HERRERA F. SEG-SSC:A framework based on synthetic examples generation for self-labeled semi-supervised classification[J].IEEE Transactions on Cybernetics, 2015, 45(4): 622–634.DOI:10.1109/TCYB.2014.2332003
[18] NIGAM K, MCCALLUM A K, THRUN S, et al. Text classification from labeled and unlabeled documents using EM[J].Machine Learning, 2000, 39(2-3): 103–134.
[19] CHAWLA N, KARAKOULAS G. Learning from labeled and unlabeled data:An empirical study across techniques and domains[J].Journal of Artificial Intelligence Research, 2005, 23(1): 331–366.
[20] LE T B, KIM S W.A hybrid selection method of helpful unlabeled data applicable for semi-supervised learning algorithms[C]//Proceedings of the 18th IEEE International Symposium on Consumer Electronics.Piscataway, NJ: IEEE Press, 2014: 1-2.
[21] LI Y F, ZHOU Z H. Towards making unlabeled data never hurt[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(1): 175–188.DOI:10.1109/TPAMI.2014.2299812
[22] LIU X, SONG M L, TAO D C, et al. Random forest construction with robust semisupervised node splitting[J].IEEE Transactions on Image Processing, 2015, 24(1): 471–483.DOI:10.1109/TIP.2014.2378017
[23] CHAPELLEO, ZIEN A.Semi-supervised classification by low density separation[C]//Proceedings of the 10th International Workshop on Artificial Intelligence & Statistics, 2005: 1-8.
[24] LI Y F, KWOK J T, ZHOU Z H.Semi-supervised learning using label mean[C]//Proceedings of the 16th International Conference on Machine Learning.San Francisco: Morgan Kaufmann Publishers Inc., 2009: 633-640.
[25] ANDREW A M. An introduction to support vector machines and other kernel-based learning methods[J].Kybernetes, 2001, 32(1): 1–28.
[26] MOSKOWITZ L. The LDA-An integrated diagnostics tool[J].IEEE Aerospace & Electronic Systems Magazine, 1986, 1(7): 22–26.
[27] KOCSOR A, TOTH L. Kernel-based feature extraction with a speech technology application[J].IEEE Transactions on Signal Processing, 2004, 52(8): 2250–2263.DOI:10.1109/TSP.2004.830995
[28] ZHU X, GHAHRAMANI Z.Learning from labeled and unlabeled data with label propagation[C]//International Joint Conference on Neural Networks, 2003: 2803-2808.
[29] WAGSTAFF K, CARDIE C, ROGERS S, et al.Constrained K-means clustering with background knowledge[C]//Proceedings of the 8th International Conference on Machine Learning.San Francisco: Morgan Kaufmann Publishers Inc., 2001: 577-584.
[30] CAI D, HE X, HAN J.Semi-supervised discriminant analysis[C]//Proceedings of the IEEE 11th International Conference on Computer Vision.Piscataway, NJ: IEEE Press, 2007: 9848913.


相关话题/信息 样本 数据 测试 图像

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于双特征的丘陵山区耕地低空遥感图像配准算法*
    丘陵山区是中国南方主要的地貌结构[1],其地面崎岖不平、岗拗交错,又常年受多雾、多雨气候条件的影响,导致耕地数量减少,水土流失加重,以及土壤环境污染加剧等现象。严重威胁着丘陵山区的农业生产、粮食安全和可持续发展[2-3]。在此严峻背景下,如何及时提取耕地分布信息,对于改善丘陵山区居民生活水平至关重要 ...
    本站小编 Free考研考试 2021-12-25
  • 一种电磁层析图像快速重建算法*
    电磁层析成像(ElectromagneticTomography,EMT)技术已经有几十年的发展历史,随着研究的深入,在多个领域有所建树,其主要应用于现场状况不好条件下需要长期进行工作的稳定监测系统,在地质勘查、异物检测与定位、化工分离过程的监测等领域有了长足进展。针对EMT逆问题[1-5],现有的 ...
    本站小编 Free考研考试 2021-12-25
  • 面向航天器综合测试系统的Web缓存替换策略*
    随着信息技术的发展,设备的自动化测试也越来越完善和便捷,但随之而来的是测试数据的爆炸式增长。特别是在复杂的安全苛刻系统的综合测试过程中,如在航天器综合测试过程中,产生的测试数据更是复杂和庞大。由于其数据类型的多样性和数据的多维特征,这些测试数据需存放在多个数据表中。对于每个型号,每年的综合测试数据总 ...
    本站小编 Free考研考试 2021-12-25
  • 一种快速测试线缆终端共模阻抗的方法*
    航空电子设备之间的互联线缆是电磁干扰的重要耦合路径。一方面,航电设备的干扰信号可以通过线缆干扰所联的另一台设备;另一方面,线缆环路本身可以作为天线耦合空间的电磁能量,从而产生沿线缆传播的干扰信号。为了准确建立线缆的电磁干扰耦合模型,分析和解决电磁兼容(EMC)问题,需要在较宽频带内获取线缆终端所联航 ...
    本站小编 Free考研考试 2021-12-25
  • 基于仿真的小型数据中心气流组织研究*
    具备高性能计算能力的数据中心在各行业中得到广泛应用,而基于计算需求的不同,数据中心的规模大小也存在差异。对于电信运行商、银行或者市场交易,其数据中心通常由上百个机架中的数千台服务器组成,而对于小的企业或个人用户,仅包含数个服务器的小型数据中心便可满足设计需求。无论何种规模的数据中心,其热管理始终是一 ...
    本站小编 Free考研考试 2021-12-25
  • 基于置信度的TOF与双目系统深度数据融合*
    场景的三维重建技术一直是计算机视觉领域研究的热点和重点。摄像机模型将空间中三维的点映射到二维的平面上,使得深度信息缺失,给三维重建带来了挑战。目前,主流获取深度信息的方法有雷达和声呐等非光学测量方法,以及以激光扫描和红外线测量为代表的主动光测量方法,以多视角立体视觉为代表的被动光测量方法[1]。其中 ...
    本站小编 Free考研考试 2021-12-25
  • 基于Rao-Blackwellized蒙特卡罗数据关联的检测跟踪联合优化*
    “低慢小”目标的探测是一个世界性难题,困难主要源于以下3个方面[1-2]:①飞行高度“低”,一般在1000m以下,地面雷达观测时会有大量杂波进入接收机,尤其在建筑密集的城市环境中,探测难度更大。②飞行速度“慢”,一般小于200km/h,其回波信号处于杂波主瓣区,容易与鸟群等低速杂波混淆。为防止过多虚 ...
    本站小编 Free考研考试 2021-12-25
  • 基于测试性D矩阵的多故障诊断与维修策略*
    随着装备对测试性要求的不断提高,故障诊断技术研究日益深入,其被广泛应用在航空、航天和兵器等高精尖的新武器装备故障诊断上。目前大多数故障诊断是在单故障假设下进行的,然而在实际工程中,并非所有的故障都是单个发生的,有些是随机组合或者耦合出现,单故障假设在实际应用中会遇到许多问题。因此研究人员逐渐开展了多 ...
    本站小编 Free考研考试 2021-12-25
  • 月基平台对地观测数据传输链路方案设计及分析*
    随着中国航天技术和探月工程的不断发展,利用月球作为观测平台开展对地观测的理念,已成为国内外月球开发研究中的前沿思路之一[1-2]。建立良好的对地观测平台有助于更加全面地了解和认识地球,相较于传统的星载平台,月基平台具有更远的观测距离(3.8×105km),能够覆盖更宽的地球表面;具有更大的平台搭建空 ...
    本站小编 Free考研考试 2021-12-25
  • 火星沙尘环境光学图像增强方法*
    火星是人类进行深空探测的热点之一,到目前为止,世界各国对火星的探测任务已超过40次,然而成功率并不高,在着陆任务中只有7次是成功的,其中着陆过程中的技术故障是失败的主要原因[1]。未来探测任务要求探测器能够在环境复杂的高科学价值区域精确着陆,这需要提高探测器着陆精度,美国国家航空航天局(NASA)公 ...
    本站小编 Free考研考试 2021-12-25