沈阳农业大学水利学院,沈阳 110161
Wetland land-cover information extraction of BP neural network based on tolerant rough set in Shuangtaizi estuarine wetland
ZHOULinfei, YAOXue, LUXiaofeng通讯作者:
收稿日期:2015-07-16
修回日期:2015-11-19
网络出版日期:2016-08-25
版权声明:2016《资源科学》编辑部《资源科学》编辑部
基金资助:
作者简介:
-->
展开
摘要
关键词:
Abstract
Keywords:
-->0
PDF (717KB)元数据多维度评价相关文章收藏文章
本文引用格式导出EndNoteRisBibtex收藏本文-->
1 引言
由于湿地兼具水陆两种生态系统特征,具有多种生态功能和经济价值,近年来一直是人类开发利用的对象之一[1]。然而,随着工业的发展和生态环境的加速恶化,湿地资源遭到严重破坏,湿地面积不断减少,生态功能逐渐退化[2,3]。因此,为了保护和恢复湿地资源,及时、准确地获取湿地变化信息是十分必要的。基于卫星遥感影像的湿地覆被信息提取技术具有信息量大、监测范围广、更新时间快且对被调查对象不会产生破坏等特点,因此,目前被广泛应用于湿地调查监测中[4]。目前,较大空间尺度的湿地遥感信息提取主要是通过计算机进行自动解译,这种方法是利用地物的光谱特征,采用数学统计聚类模式进行分类,其缺点是对于湿地内地物多样性造成的同物异谱、异物同谱和混合像元等现象的分类精度较低。由于BP神经网络对数据类型和分布函数没有特殊要求,且具有大规模并行处理、自适应性、自学习性、鲁棒性和容错性等特点[5],已成为遥感影像信息提取的热点分类方法[6-8]。但是遥感数据中的噪声数据容易造成BP网络收敛速度较慢、训练陷入局部极小值等问题,极大地影响了分类的效果[9]。因此,采用何种优化方法对数据进行预处理来提高网络训练的成功率是一个需要解决的问题。
遥感影像在获取过程中受到大气、传感器特性以及其他因素的影响决定了遥感数据本身的不确定性。如何科学地处理其中蕴含的不确定性,获取合理的遥感数据,提高处理效率、精度,一直是遥感信息提取技术的关键问题之一。相容粗糙集是一种处理不确定、不完整数据的有效方法,因其在处理数据时无需离散化,可直接处理实值数据,常与神经网络相结合广泛应用于故障诊断、信息检索等领域,但在遥感影像分类中应用极少。李栩冰等将相容粗糙集应用到神经网络模型设计中,以提高某歼击机故障诊断的准确率[10]。翟俊海等提出一种相容粗糙集的网络结构选择方法,剔除对分类没有贡献的结点,提高网络训练的成功率[11]。许多****通过约简数据属性来提高BP神经网络遥感影像分类的精度[12],但训练样本中的噪声数据会严重影响分类效果,因此,本文从除噪这一目的出发,采用2014年5月26日的Landsat-8卫星遥感数据,以双台子河口湿地为研究对象,拟利用相容粗糙集来剔除训练样本中的噪声数据,建立基于相容粗糙集的BP神经网络分类模型,以期提高BP神经网络湿地覆被信息提取的精度。
2 研究方法
2.1 相容粗糙集理论
粗糙集理论是波兰数学家Pawlak于1982年提出的[13],其主要思想是利用已有知识下精确的概念来刻画不精确或含糊的目标概念。由于其特别适用于可利用的数据存在不充分、不完整、甚至在一定程度上需要容错处理等情况下的分类分析和知识获取,因此在机器学习、模式识别、数据挖掘、人工智能等领域得到广泛应用[14]。也为遥感数据的不确定性处理提供了一种新的方法。2.1.1 相容粗糙集
在粗糙集理论中,知识被认为是一种对对象进行分类的能力,通过这些知识能够将对象划分到不同的类别[15]。若两个元素具有相同的信息,则它们就是不可区分的,不可区分关系是一种等价关系(Equivalence Relation)。经典粗糙集理论可以解决数据中的不完整、不确定性问题,但在进行数据处理时首先要进行离散化[16],而遥感影像数据属性值域却是连续的,且连续属性界限是模糊的,离散化过程必定会造成某种程度的信息损失。相容粗糙集使用相似关系替代了经典粗糙集中的等价关系[17,18],从而避免了一定程度的信息丢失,在应对连续型数据分类中存在的不确定性问题时非常有效[11]。经典的粗糙集理论[19]中等价关系满足自反性、对称性、传递性,但是,在实际应用中,分类数据并不能完全满足上面的所有特性,遥感影像中的混合像元就不满足传递性,而且遥感数据的属性值是连续型的,几乎不能找到等价类,对其进行离散化处理难免造成数据的丢失[20]。为此,采用只满足自反性和对称性的相似关系代替等价关系得到的相容粗糙集[21]来对数据进行分类预处理。
给定一决策表
式中|A|为条件属性的个数;τ
根据相似关系可以得到元素x的容差类(Tolerance Class),即所有与x有容差关系的元素所组成的集合,如公式(3):
2.1.2 相容粗糙集样本数据预处理
相似性阈值τ的选取是相容粗糙集样本数据预处理的关键问题,本文通过粗糙熵[23,24]的定义来进行相似性阈值τ的最优计算。
设样本集合在条件属性集合A下的τ相似划分为U/SIMA,τ={X1,X2,…,Xp},样本集合在决策属性D上的划分为U/IND(D)={Y1,Y2,…,Yq}。相似划分
其中:
式中
粗糙熵的大小直接反映了相似性阈值τ取值的合理性。熵值越小表示相似划分下的样本集合越稳定。基于相似关系的划分就是寻找合适的阈值τ使得粗糙熵最小。
选取合适的相似性阈值τ后,利用所有样本数据的相似度矩阵计算每个样本x的相容粗糙集
由于样本x的相容粗糙集中除x本身外的其他元素的决策属性可能各不相同,因此,引入粗糙隶属度的概念来定量的描述样本x属于各决策类的频率[25],令
求出每个样本的下、上近似集和粗糙隶属度后,对样本数据进行分类步骤如下:
(1)利用样本x的下近似集进行分类。若样本x的下近似集
(2)利用样本x的上近似集进行分类。因第一步已经对下近似集进行分类,所以只需对样本x的边界域BNDA,τ(x)={h1,h2,…,hs}进行分类。首先计算边界域中每个元素hl的粗糙隶属度
将x归为平均粗糙隶属度最大的决策类,若
2.2 遥感影像BP神经网络分类
BP神经网络是由误差反向传播算法训练的多层前馈型神经网络(Back Propagation Neural Network简称BP神经网络),是遥感影像分类中应用最广的一种神经网络分类模型。BP神经网络结构包括输入层、隐含层和输出层,其核心学习过程主要包括数据的正向传播和误差的反向传播两个阶段[27]。遥感影像的BP神经网络分类就是基于样本反复训练后确定BP神经网络的关键参数,然后根据得到的分类模型对未知的影像数据进行分类。BP神经网络分类的关键在于网络的设计,网络设计主要考虑网络的层数、每层神经元的个数、初始权值以及学习速率等因素。
在保证精度、同时缩短网络的收敛时间的前提下,采用只有一个隐含层的简单三层BP网络。
输入层的节点个数为参与分类的遥感影像的波段数目。输出层的节点个数为待分类的湿地覆被类别数目。隐含层的节点个数目前并没有明确的理论指导,本文采用经验公式[28]来确定:
式中A为输出节点的个数;B为输入节点的个数。
BP网络层间节点的传递函数采用Sigmoid 型函数[29]。初始权值和阈值赋予(-1,1)之间的随机数[30]。学习速率范围一般在0.01~0.80之间。一般通过多个误差值的对比训练,综合多种因素考虑来确定合适的期望误差值。
Matlab的神经网络工具箱提供了丰富的网络学习规则、训练仿真函数[31],为神经网络用于遥感影像分类建立了高效的软件平台。本文的BP神经网络遥感影像分类在Matlab平台上完成。
3 研究区概况、数据来源与处理
3.1 研究区概况
双台子河口湿地位于辽宁省辽东湾北部盘锦市境内,辽河入海口处,距盘锦市区35km,区域面积12.8万hm2,由自然湿地类型和水库、养殖塘、稻田等人工湿地类型组成。地理坐标介于40°45′N-41°10′N,121°30′E-122°00′E。地貌为辽河下游冲积平原,地势低洼而平坦,由东北向西南微微倾斜,海拔1.3~4.0m,坡降为1/20 000~1/25 000,海岸地带地势低洼,潮沟发育;地貌可划分为三个单元,即湿地平原、滩涂河口沙洲和水下三角洲。该区属于暖温带大陆性半湿润季风气候,四季分明,年平均气温为8.4°C,年平均降水量约623.2mm[32]。区域内植被类型多样,动植物资源丰富,芦苇和碱蓬是这里主要的植物群落,形成了独特的芦苇荡和红海滩景观,且有世界上珍贵野生动物丹顶鹤、东方白鹳、黑嘴鸥等在此栖息,不仅具有经济价值,而且具有重要的生态和科研价值。3.2 数据来源及预处理
本研究所使用的Landsat-8数据均来自美国地质调查局(USGS)官方网站(http://glovis.usgs.gov/.)。Landsat-8卫星于2013年2月11日发射成功,该卫星携带的主要有效载荷为陆地成像仪(OLI)和热红外传感器(TIRS),地面幅宽185km,重访周期为16d[33]。与Landsat-7 搭载的有效载荷ETM+相比,Landsat-8卫星在波段设计上充分考虑了水、植物、土壤、岩石等不同地物在反射率敏感度上的差异,在波谱范围上做了很大调整,波段数目更多,划分更为精细。OLI陆地成像仪新增了1个海岸带观测波段(Band1)和1个卷云识别波段(Band9),能够发现海岸带的叶绿素,分辨出卷云,并对大气影响进行校正。两者参数对比见表1。Table 1
表1
表1OLI传感器与ETM+传感器主要参数对比
Table 1Comparison of spectral bands between OLI and ETM+ sensors
OLI | ETM+ | ||||||
---|---|---|---|---|---|---|---|
波段名称 | 波长/μm | 空间分辨率/m | 辐射分辨率/bit | 波段名称 | 波长/μm | 空间分辨率/m | 辐射分辨率/bit |
Band1 Coastal | 0.433~0.453 | 30 | 12 | Band 1 Blue | 0.450~0.515 | 30 | 8 |
Band 2 Blue | 0.450~0.515 | 30 | 12 | Band 2 Green | 0.525~0.605 | 30 | 8 |
Band 3 Green | 0.525~0.600 | 30 | 12 | Band 3 Red | 0.630~0.690 | 30 | 8 |
Band 4 Red | 0.630~0.680 | 30 | 12 | Band 4 NIR | 0.775~0.900 | 30 | 8 |
Band 5 NIR | 0.845~0.885 | 30 | 12 | Band 5 SWIR 1 | 1.550~1.750 | 30 | 8 |
Band 6 SWIR 1 | 1.560~1.660 | 30 | 12 | Band 7 SWIR 2 | 2.090~2.350 | 30 | 8 |
Band 7 SWIR 2 | 2.100~2.300 | 30 | 12 | Band 8 Pan | 0.520~0.900 | 15 | 8 |
Band 8 Pan | 0.500~0.680 | 15 | 12 | ||||
Band 9 Cirrus | 1.360~1.390 | 30 | 12 |
新窗口打开
为获取整个双台子河口湿地遥感影像,选取了2014年5月26日的两景Landsat-8 OLI影像数据,轨道号参数分别为120/31和120/32,两景影像云量较少,质量满足实验要求(数据详情见表2)。由于美国USGS发布的Landsat-8数据产品为L1T级别,已经过系统级辐射校正,且使用地面控制点和数字高程模型数据进行了几何校正处理。因此,本文在ENVI5.1软件平台下,分别对单景影像用Gram-Schmidt Pan Sharpening融合方法将30m的多光谱数据和15m的全色数据进行融合处理[34],得到的15m空间分辨率的多光谱影像不仅保持了低空间分辨率的光谱特性,且信息丰富、清晰,适合遥感解译。将两景融合后的影像进行镶嵌裁剪,最后生成整个研究区影像。
Table 2
表2
表2遥感数据基本情况
Table 2Remote sensing data
拍摄日期 | 传感器 | 波段号 | 空间分辨率/m | 时间GMT | 轨道号 | 含云量/% |
---|---|---|---|---|---|---|
2014-5-26 | OLI | 1~7、9 | 多光谱30 | 02:34:06 | 120/031 | 2 |
8 | 全色15 | 02:34:30 | 120/032 | 0 |
新窗口打开
3.3 湿地覆被类型划分与样本点的采集
结合双台子河口湿地覆被现状图和开发利用特点,参考现有分类成果[35,36],将研究区初步分为水域、养殖塘、碱蓬、芦苇、水田、滩地、居民点、混合植被8个类型。为进一步确定湿地覆被类型,利用GPS进行野外调查,共采集594个样点数据,记录每个样点的经纬度信息,以及地貌特征。GPS(Trimble Juno 3B)的实时定位精度可达2~5m,对于15m空间分辨率的遥感影像而言,采集的样点位置精度满足要求。利用394个样点数据建立研究区的人工解译标志,对研究区2014年遥感影像进行人工解译,并用余下的200个点对解译结果进行验证与校核。解译成果一方面可用于人工选取有代表性的训练样本区域;另一方面将研究区湿地覆被信息最后确定为水域、养殖塘、碱蓬、芦苇、水田、滩地、居民点、混合植被8个类型,明确了双台子河口湿地覆被信息的分类研究体系。双台子河口湿地属于芦苇沼泽湿地,芦苇是关键物种,双台子河口湿地是著名的红海滩国家风景区,碱蓬是其特色植被,在利用GPS的实地调查和2014年的解译结果均说明了这两点。其他植被不易细分,混生在一起,因此归为混合植被。利用实地考察结果并结合已有的2014年研究区覆被人工解译结果,在Landsat-8标准假彩色合成图上通过绘制多边形选择感兴趣区进行各类别样本的选取,每一种湿地覆被类型训练样本应均匀分布于整个研究区,共计1154个,并将8个类别依次进行了编号,每类地物的感兴趣区均用不同颜色加以区别。另将实地采集的594个GPS样点数据作为验证数据集,用于进行湿地覆被类型识别及分类精度验证。表3是实验用训练和验证样本点数据集的构成描述。
Table 3
表3
表3训练数据集与验证数据集
Table 3Training data set and the validation data set
覆被类型 | 1水域 | 2养殖塘 | 3碱蓬 | 4芦苇 | 5水田 | 6滩地 | 7居民点 | 8混合植被 | 合计 |
---|---|---|---|---|---|---|---|---|---|
训练样本 | 206 | 138 | 101 | 251 | 124 | 192 | 79 | 63 | 1 154 |
验证样本 | 107 | 76 | 51 | 128 | 63 | 102 | 38 | 29 | 594 |
新窗口打开
4 基于相容粗糙集的BP神经网络分类实现
本研究在Landsat-8 OLI遥感数据的基础上,利用相容粗糙集对训练样本数据进行预处理,剔除训练样本中的噪声数据,然后用预处理后的训练样本在Matlab中进行BP神经网络湿地覆被信息提取,并与直接BP神经网络和粗糙集样本属性约简预处理方法的分类结果进行对比分析。4.1 相容粗糙集预处理
研究区OLI影像为3322×3413个像元(空间分辨率为15m),波段范围为1~7共7个波段的数据,湿地覆被共分为8个类型。因此,训练样本的条件属性为7个,属性值即为波段的灰度值,8个决策类别。相容粗糙集样本数据预处理步骤如下:(1)首先在ArcGIS中提取所有训练样本的各波段灰度值,灰度范围统计见表4,样本数据决策见表5。
Table 4
表4
表4覆被训练样本各波段灰度范围统计
Table 4Gray scale value on the training sample covering each band
类型 波段 | Band1 | Band2 | Band3 | Band4 | Band5 | Band6 | Band7 |
---|---|---|---|---|---|---|---|
水域 | [9 961,11 398] | [8 983,10 872] | [8 135,10 591] | [7 373,10 762] | [5 790,10 032] | [5 024,6 455] | [4 998,6 096] |
养殖塘 | [8 643,13 905] | [8 245,13 206] | [7 801,12 520] | [6 942,12 304] | [5 950,14 849] | [5 351,13 302] | [5 220,11 615] |
碱蓬 | [10 215,11 184] | [9 319,10 244] | [8 068,9 149] | [7 932,9 229] | [10 240,14 512] | [7 707,10 838] | [6 238,8 800] |
芦苇 | [9 738,12 092] | [8 718,11 141] | [7 717,10 719] | [6 917,9 873] | [8 969,24 297] | [6 512,13 209] | [5 727,10 010] |
水田 | [9 755,13 646] | [8 722,13 086] | [7 957,12 721] | [6 761,13 219] | [9 134,22 871] | [6 726,16 147] | [6 157,13 813] |
滩地 | [10 664,11 598] | [9 920,10 919] | [9 429,10 430] | [9 281,10 796] | [9 504,12 046] | [5 026,10 938] | [4 974,8 965] |
居民点 | [8 973,21 410] | [8 588,21 675] | [8 430,22 672] | [7 545,23 690] | [8 574,27 612] | [9 862,28 732] | [8 046,28 084] |
混合植被 | [9 787,19 754] | [9 183,19 137] | [8 659,19 625] | [8 010,19 077] | [7 545,30 382] | [6 389,24 855] | [6 004,20 929] |
新窗口打开
Table 5
表5
表5训练样本数据决策
Table 5The decision table of the training sample
U | A1 | A2 | A3 | A4 | A5 | A6 | A7 | D |
---|---|---|---|---|---|---|---|---|
x1 | 10 426 | 9 498 | 8 594 | 8 474 | 12 005 | 9 209 | 7 395 | 1 |
… | … | … | … | … | … | … | … | 1 |
x206 | 10 334 | 9 373 | 8 985 | 7 665 | 18 062 | 12 172 | 8 090 | 1 |
x207 | 10 095 | 9 127 | 8 832 | 7 515 | 18 157 | 11 868 | 7 947 | 2 |
… | … | … | … | … | … | … | … | 2 |
x344 | 10 184 | 9 180 | 8 752 | 7 446 | 18 708 | 11 055 | 7 565 | 2 |
x345 | 10 092 | 9 039 | 8 171 | 7 140 | 13 448 | 8 457 | 6 615 | 3 |
… | … | … | … | … | … | … | … | 3 |
x455 | 10 379 | 9 394 | 8 923 | 7 695 | 20 100 | 11 741 | 8 250 | 3 |
x456 | 10 217 | 9 209 | 8 429 | 7409 | 16 368 | 10 026 | 7 418 | 4 |
… | … | … | … | … | … | … | … | 4 |
x696 | 11 017 | 10 339 | 9 921 | 10 039 | 7 674 | 5 480 | 5 350 | 4 |
x697 | 11 040 | 10 399 | 10 085 | 9 969 | 6 594 | 5 254 | 5 183 | 5 |
… | … | … | … | … | … | … | … | 5 |
x820 | 10 940 | 10 263 | 9 663 | 8 531 | 6 072 | 5 437 | 5 327 | 5 |
x821 | 10 815 | 10 091 | 9 519 | 8 354 | 5 849 | 5 231 | 5 147 | 6 |
… | … | … | … | … | … | … | … | 6 |
x1012 | 10 937 | 10 237 | 9 736 | 9 765 | 10 241 | 5 691 | 5 294 | 6 |
x1013 | 11 228 | 10 504 | 9 827 | 9 935 | 10 751 | 8 393 | 7 038 | 7 |
… | … | … | … | … | … | … | … | 7 |
x1091 | 10 028 | 9 202 | 8 480 | 7 589 | 6 515 | 6 257 | 6 066 | 7 |
x1092 | 9 611 | 8 952 | 8 384 | 7 784 | 6 681 | 6 569 | 6 333 | 8 |
… | … | … | … | … | … | … | … | 8 |
x1154 | 11 972 | 11 096 | 10 049 | 9 304 | 9 681 | 8 607 | 7 877 | 8 |
新窗口打开
(2)计算该决策表中各样本间的相似度SIMA,并得到关于该决策表的相似度矩阵。
(3)利用该相似度矩阵,依据公式(4)给出的基于相似划分的粗糙熵的定义来进行相似性阈值τ的最优计算,当τ取0.82时粗糙熵达到最小值。
(4)根据公式(3)求得每一样本x的相容粗糙集,式中参数τ=0.82;然后依据公式(6)、公式(7)计算每个样本x的下/上近似集,依据公式(8)计算样本x属于各决策类的隶属度;由于数据量比较大,该步骤所有计算通过在Matlab中编程来实现[37]。
(5)求得所有样本的下/上近似集和粗糙隶属度后,根据2.1.2章节的相容粗糙集数据预处理判别规则对1154个训练样本逐一进行类别属性判断。先利用样本x的下近似集进行分类,下近似集中类别属性过于模糊难以判别的,则利用样本x的上近似集进行类别属性判别,根据上近似集判别规则仍无法判别样本的决策属性时,则将该样本从训练数据集中剔除。样本数据预处理结果见表6。
Table 6
表6
表6训练样本相容粗糙集预处理结果
Table 6Results of training sample dealing with tolerant rough set
覆被类型 | 类别属性 |
---|---|
1 水域 | 11111111111010111111111111000111111111111111111111111111110111011111111111111110111111111111111111111110111111101111111111111112111001111111111111112111111111111111111110111011111111111111101111111111111111 |
2 养殖塘 | 222002022222202222220000222222221121222022220222002022022220222200202002122022222202122222222222022202202222022222221022222002202222220222 |
3 碱蓬 | 33333033333033333330033333330300033333303333333330003333033333333333333333030333333333333333333333333 |
4 芦苇 | 44440444040040404440000044440440044440044440004404444044404404400044404404404404040044440044440440404444000444044000440044404040004440744484447844004844400444400404404400044444440000000048484040444000440440444044484440404404440444044404040040400444444 |
5 水田 | 50500055500000555005005005000550550500505000000000555500505000050550050555000000050005505005050055505055000000505005050000555 |
6 滩地 | 666666000660660060660066616600006666600066006606660660066606660066066000006060660666606066660006660006060660606000666660066600000006600660600666006000066616066166606660006606660066060066060006 |
7 居民点 | 7777777770707777007777777777777777777770777777777777777777777777777777777777777 |
8 混合植被 | 808008000808008080880800080880880080008008808088080088888808888 |
新窗口打开
对每个样本类别属性进行判别,并标出其对应的类别编号。表中0代表类别属性过于模糊,无法判别,其中水域、养殖塘、芦苇、滩地中分别有属于其他类别的,则按其所属类别标出。经过相容粗糙集预处理后,去除属于其他类别的和类别属性无法判别的样本,得到处理后的新样本数据集。如表7所示。
Table 7
表7
表7剔除噪声后的新样本数据集
Table 7New sample data set after eliminating the noise
类型 | 水域 | 养殖塘 | 碱蓬 | 芦苇 | 水田 | 滩地 | 居民点 | 混合植被 | 总计 |
---|---|---|---|---|---|---|---|---|---|
样本数 | 189 | 101 | 86 | 150 | 50 | 105 | 74 | 33 | 788 |
新窗口打开
4.2 BP神经网络遥感影像分类
(1)数据归一化处理。在Matlab环境下利用imread函数读取栅格图像,调用rgb2gray函数将其转换为灰度图像,但这些图像不能直接输入到BP神经网络里面,调用im2double函数将灰度值转换成双精度格式[38]。由于遥感影像训练样本中可能存在奇异样本数据,奇异样本的存在可能导致网络训练时间增加,并引起网络无法收敛,因此本文采用Matlab中的mapminmax函数将训练样本和待分类影像数据灰度值归一在(0,1)之间。(2)BP网络的建立。参与分类的波段数目为7,输入层7个节点;覆被类型共8类,输出层8个节点;根据公式(10)隐含层19个节点。隐含层的神经元采用tansig 双曲正切S型传递函数,输出为(-1,1);输出层的神经元则采用logsig对数S型传递函数,输出为(0,1)。应用函数newff建立BP网络,网络训练采用Levenberg-Marquardt 算法[39],如公式(11):
式中P为训练样本数据组成的矩阵;minmax定义了P的最小值和最大值。trainlm为训练函数。
(3)BP网络的训练。应用函数train进行网络训练,需预先设置训练参数,训练次数设置为2000,次,训练精度设置为0.1,trainlm函数根据Levenberg-Marquardt 算法优化了权重和偏置值的计算,即最低性能梯度为1e-6、学习速率基值为0.001、学习速率减少率为0.1、学习速率增加率为10、最大学习速率为1e10,其余参数使用缺省值。
BP网络的训练是一个不断修正权值和阈值的过程,用train 函数和sim 函数可以训练出特定的输入与输出对应关系的连接权值矩阵,当误差小于期望值时训练成功,满足分类要求。最终确定的网络训练参数为:最大训练次数2000;学习速率:0.06;期望最小误差:0.1。
训练结束,就可利用训练后的BP网络进行湿地覆被分类。使用训练得到的连接权值矩阵,将遥感影像的每个像元的灰度值作为输入向量,计算出输出向量,输出向量的分量为该像元在各类别的概率值,将各像元归并到概率值最大的湿地覆被类型中。最后,将分类结果进行反归一化处理,输出分类结果影像。图1为基于相容粗糙集的BP神经网络分类结果和单纯的BP神经网络分类结果。
显示原图|下载原图ZIP|生成PPT
图12014年5月26日双台子河口湿地BP神经网络分类结果与相容粗糙集-BP神经网络分类结果对比
-->Figure 1Contrast diagram between a BP neural network classification method based on tolerant rough sets and traditional BP neural network classification in Shuangtaizi estuarine wetland on May 26,2014
-->
4.3 实验结果分析
为了对分类结果进行有效的精度评价,利用GPS野外采集的594个样本点分别对两种分类结果进行精度验证,建立混淆矩阵(见表8、表9)。Table 8
表8
表8单纯的BP神经网络分类结果的混淆矩阵
Table 8Traditional BP neural network classification results confusion matrix
类型 | 水域 | 养殖塘 | 碱蓬 | 芦苇 | 水田 | 滩地 | 居民点 | 混合植被 | 合计 | 用户精度/% |
---|---|---|---|---|---|---|---|---|---|---|
水域 | 94 | 11 | 0 | 0 | 0 | 9 | 0 | 0 | 114 | 82.46 |
养殖塘 | 13 | 63 | 0 | 0 | 1 | 1 | 0 | 0 | 78 | 80.77 |
碱蓬 | 0 | 0 | 42 | 0 | 4 | 0 | 2 | 0 | 48 | 87.50 |
芦苇 | 0 | 0 | 0 | 106 | 2 | 7 | 4 | 0 | 119 | 89.08 |
水田 | 0 | 0 | 0 | 6 | 48 | 0 | 0 | 4 | 58 | 82.76 |
滩地 | 0 | 0 | 8 | 0 | 8 | 85 | 0 | 0 | 101 | 84.16 |
居民点 | 0 | 0 | 0 | 12 | 0 | 0 | 32 | 0 | 44 | 72.73 |
混合植被 | 0 | 2 | 1 | 4 | 0 | 0 | 0 | 25 | 32 | 78.13 |
合计 | 107 | 76 | 51 | 128 | 63 | 102 | 38 | 29 | 594 | |
制图精度/% | 87.85 | 82.89 | 82.35 | 82.81 | 76.19 | 83.33 | 84.21 | 86.21 | ||
总体精度:83.33% | Kappa系数:0.804 3 |
新窗口打开
Table 9
表9
表9基于相容粗糙集的BP神经网络分类结果的混淆矩阵
Table 9BP neural network classification results confusion matrix based on tolerant rough set
类型 | 水域 | 养殖塘 | 碱蓬 | 芦苇 | 水田 | 滩地 | 居民点 | 混合植被 | 合计 | 用户精度/% |
---|---|---|---|---|---|---|---|---|---|---|
水域 | 98 | 0 | 0 | 0 | 0 | 9 | 0 | 0 | 107 | 91.59 |
养殖塘 | 9 | 67 | 0 | 0 | 1 | 0 | 0 | 0 | 77 | 87.01 |
碱蓬 | 0 | 0 | 43 | 0 | 0 | 0 | 3 | 0 | 46 | 93.48 |
芦苇 | 0 | 9 | 0 | 126 | 1 | 0 | 0 | 0 | 136 | 92.65 |
水田 | 0 | 0 | 8 | 0 | 57 | 0 | 0 | 0 | 65 | 87.69 |
滩地 | 0 | 0 | 0 | 0 | 2 | 93 | 0 | 2 | 97 | 95.88 |
居民点 | 0 | 0 | 0 | 0 | 0 | 0 | 35 | 4 | 39 | 89.74 |
混合植被 | 0 | 0 | 0 | 2 | 2 | 0 | 0 | 23 | 27 | 85.19 |
合计 | 107 | 76 | 51 | 128 | 63 | 102 | 38 | 29 | 594 | |
制图精度/% | 91.59 | 88.16 | 84.31 | 98.44 | 90.48 | 91.18 | 92.11 | 79.31 | ||
总体精度:91.25% | Kappa系数:0.896 9 |
新窗口打开
从混淆矩阵表中分析得出基于相容粗糙集的BP神经网络分类方法的总体精度91.25%,Kappa系数为0.8969,比单纯的BP神经网络分类分别提高7.92%和0.0926,分类效果较好。主要是由于对训练样本进行了相容粗糙集处理,有效地剔除了数据中的噪声数据,使得BP网络的训练时间减少,提高训练的成功率,从而提高了分类精度。从图1中可以看出,单纯的BP神经网络分类中覆被类别错分、漏分比较严重,导致“椒盐现象”,尤其是养殖塘和水域混淆比较严重,主要是由于遥感影像中这两种地物的光谱特征较相似,且空间分布不规则,造成样本数据中存在噪声数据,导致分类精度较低。
为了多方面验证相容粗糙集预处理的BP神经网络分类结果的精度,在此采用相同的训练样本和验证样本对研究区同一影像数据,按照文献[40]中的利用粗糙集理论约简样本属性的预处理方法进行分类实验,并用混淆矩阵进行精度评估(见表10)。由表10可知,基于粗糙集属性约简的预处理方法的总体分类精度为88.22%,Kappa系数为0.8612,基于相容粗糙集的BP神经网络分类精度比其总体分类精度提高3.03%,Kappa系数提高0.0357,是一种有效的湿地覆被分类方法。
Table 1
表1
表10 粗糙集属性约简的BP神经网络分类结果的混淆矩阵
Table 10 BP neural network classification results confusion matrix based on rough set attribute reduction
类型 | 水域 | 养殖塘 | 碱蓬 | 芦苇 | 水田 | 滩地 | 居民点 | 混合植被 | 合计 | 用户精度/% |
---|---|---|---|---|---|---|---|---|---|---|
水域 | 96 | 10 | 2 | 0 | 1 | 3 | 0 | 0 | 112 | 85.71 |
养殖塘 | 10 | 64 | 0 | 0 | 0 | 0 | 0 | 0 | 74 | 86.49 |
碱蓬 | 0 | 0 | 43 | 1 | 3 | 2 | 0 | 0 | 49 | 87.76 |
芦苇 | 0 | 0 | 0 | 121 | 2 | 5 | 4 | 0 | 132 | 91.67 |
水田 | 1 | 1 | 0 | 0 | 55 | 3 | 1 | 2 | 63 | 87.30 |
滩地 | 0 | 0 | 4 | 0 | 2 | 89 | 0 | 4 | 99 | 89.90 |
居民点 | 0 | 1 | 0 | 3 | 0 | 0 | 33 | 0 | 37 | 89.19 |
混合植被 | 0 | 0 | 2 | 3 | 0 | 0 | 0 | 23 | 28 | 82.14 |
合计 | 107 | 76 | 51 | 128 | 63 | 102 | 38 | 29 | 594 | |
制图精度/% | 89.72 | 84.21 | 84.31 | 94.53 | 87.30 | 87.25 | 86.84 | 79.31 | ||
总体精度:88.22% | Kappa系数:0.8612 |
新窗口打开
5 结论与讨论
本文以Landsat-8遥感影像为数据源,利用相容粗糙集理论对样本数据进行处理,并将得到的样本数据作为输入数据建立BP神经网络分类模型,对双台子河口湿地进行覆被分类研究,并利用混淆矩阵对分类结果进行精度评价,实验表明:(1)将相容粗糙集理论应用于BP神经网络分类中,可以剔除训练样本中的噪声数据,缩短网络的训练时间,提高网络训练的成功率。其总体分类精度、Kappa系数,比单纯的BP神经网络分类分别高7.92%和0.0926,取得了很好的分类效果。同时,将其与基于粗糙集样本属性约简的预处理方法的分类结果进行比较,总体精度和Kappa系数分别高3.03%和0.0357,说明基于相容粗糙集的BP神经网络分类方法是一种有效的湿地覆被分类方法。
(2)在利用相容粗糙集进行数据预处理时,对相似性阈值的选择采用粗糙熵来取得最优值,是一种有效的阈值求解方法。
(3)在相容粗糙集处理的过程中,由于本文数据量非常大,通过Matlab软件编制程序来解决繁琐的数据计算,缩短数据处理时间。同时,面向Matlab 的神经网络工具箱提供了丰富的网络仿真函数,为神经网络用于遥感影像分类建立了有效的处理平台。
(4)本文中的相容粗糙集预处理算法可以剔除样本中的噪声数据,文献[40]中的预处理算法主要是采用粗糙集理论约简样本属性信息,未来可以考虑将两种方法结合起来,从除噪和约简属性两个方面提高BP神经网络的分类精度。
The authors have declared that no competing interests exist.
参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子
[1] | [J]. , [J]. , |
[2] | [J]. , |
[3] | [J]. , |
[4] | [J]. , |
[5] | [J]. , |
[6] | [J]. , [J]. , |
[7] | [J]. , [J]. , |
[8] | [J]. , [J]. , |
[9] | [J]. , |
[10] | [J]. , [J]. , |
[11] | [J]. , [J]. , |
[12] | [J]. , [J]. , |
[13] | [J]. , |
[14] | [J]. , [J]. , |
[15] | [J]. , |
[16] | [J]. , |
[17] | [J]. , |
[18] | [J]. , |
[19] | [J]. , |
[20] | [J]. , [J]. , |
[21] | [J]. , |
[22] | [J]. , |
[23] | [J]. , |
[24] | [J]. , |
[25] | [J]. , |
[26] | [J]. , [J]. , |
[27] | [J]. , [J]. , |
[28] | [J]. , [J]. , |
[29] | [J]. , |
[30] | [J]. , |
[31] | [J]. , |
[32] | [J]. , [J]. , |
[33] | [J]. , [J]. , |
[34] | |
[35] | [J]. , [J]. , |
[36] | [J]. , [J]. , |
[37] | [J]. , [J]. , |
[38] | [J]. , [J]. , |
[39] | [J]. , [J]. , |
[40] | [J]. , [J]. , |