

Accuracy evaluation of the seven land cover data in Qiangtang Plateau
LIUQionghuan

1 引言
本文基于横跨羌塘高原的6851个土地覆被样本点,从总体精度、用户精度和制图精度三个方面,对GlobCover 2009(GlobCover)、University of Maryland(UMD)、和IGBPDIS等七套大尺度土地覆被数据在羌塘高原的精度进行评估,并试图回答:在羌塘高原地区,所选的七套代表性土地覆被数据产品中,数据综合精度如何、哪套数据精度最高?对于主要的土地覆被类型,哪套数据最为合理?影响羌塘高原土地覆被数据精度的原因有哪些,如何改进?
2 研究方法与数据来源
2.1 土地覆被数据产品
已有的20余套全球土地覆被数据产品分别属于11个数据系列[2]。本文选用其中的七套。其中,有5个数据系列——GlobeLand30、CCI-LC、GlobCover、MODIS Land Cover和Global Land Cover 250 m China(GLC250 m_CN)——包含不同年份的数据共22套。有一个数据系列未共享(GLC250 m_CN),故本文选用了其他4个数据系列(表1)中最新年份的数据(截至2016年12月公开发布);文中选用的另外3套数据(表1)分别属于3个数据系列(UMD、IGBP DISCover和GLC 2000),且在长时间序列的土地覆被变化研究中运用广泛。有2个数据系列是同一年份、不同空间分辨率,即Finer Resolution Observation and Monitoring-Global Land Cover(FROM-GLC)和International Satellite Land Surface Climatology Project(ISLSCP II),该系列共12套数据,本文未选用;另1个数据系列(GeoWiki),因其年份不确定,亦未选用。Tab.1
Tab.1Characteristics of seven land cover data sets
数据名称 | 整体精度(%) | 验证方法 | 传感器 | 分类方法 | 分辨率 | 年份 | 分类系统类型数 | 链接 | 参考文献 |
GLC 2000 | 68.6 | Confidence values statistical sampling | SPOT4 VEGETATION | 非监督分类 | 1 km | 1999-2000 | FAO LCCS (23 classes) | http://bioval.jrc.ec.europa.eu/products/glc2000/products.php | Bartholomé等[26] |
IGBPDIS | 66.9 | Statistical sampling of validation working group | AVHRR | 非监督分类 | 1 km | 1992-1993 | USGS IGBP (17 classes) | http://edc2.usgs.gov/glcc/tabgoode_globe.php | Loveland等[27] |
UMD | 65.0 | Evaluated using other digital datasets | AVHRR | 非监督分类、 决策树分类 | 1 km | 1992-1993 | Simplified IGBP (14 classes) | http://www.landcover.org/data/landcover/index.shtml | Hansen等[28] |
MCD12Q1 | 74.8 | Cross-validation | MODIS | 监督分类、决策树分类、神经网络 | 500 m | 2013 | IGBP (17 classes) | http://e4ftl01.cr.usgs.gov/MOTA/MCD12Q1.051/ | Friedl等[29,30] |
GlobCover | 67.5 | Statistical sampling expert's judgement | MERIS FR | 监督分类、 非监督分类 | 300 m | 2009 | UN LCCS (22 classes) | http://due.esrin.esa.int/globcover/ | Bontemps等[31] |
CCI-LC | 74.1 | Sampling-based labeling approach | MERIS Full and Reduced Resolution/ SPOT | 非监督分类 | 300 m | 2008-2012 | UN LCCS (22 classes) | http://maps.elie.ucl.ac.be/CCI/viewer/index.php | Belgium等[32] |
GlobeLand 30 | 80.0 | Knowledge-based interactive verification | Landsat TM, ETM7, HJ-1A/b/ | 基于像元、对象和知识规则分类 | 30 m | 2010 | 11 classes | http://www.globallandcover.com | Chen等[33] |
2.2 样本点数据
本文所用样本数据来自野外实地调查、基于空间采样的湖泊样点调查和冰川样点调查,共计6851个样本点(表2)。其中在2012-2014年羌塘高原土地覆被类型野外调查中,获取2991个样本数据,样本点主要分布在陆面交通条件较好的区域;基于谷歌地球影像和相片标记的湖泊样本点1157个,范围大小为2 km×2 km;冰川样本点数据源自寒区旱区科学数据中心中国第二次冰川编目数据集[25],计2703个,范围为2 km×2 km,样点的空间分布如图1所示。Tab. 2
Tab. 2Class description of the filed sample in Qiangtang Plateau
类型 | 样本点数量 | 类型定义 | 类型 | 样本点数量 | 类型定义 |
高寒草甸 | 777 | 由寒冷中生多年生草本植物为主的植物群落覆盖区域,本研究区主要指藏北嵩草草甸、小嵩草(高山嵩草)草甸覆盖区 | 湖泊 | 1157 | 指自然条件下形成的积水区常年水位以下的土地 |
高寒草原 | 1245 | 具有一定御寒能力的、旱生的多年生草本植物和小半灌木植物占优势的植物群落覆盖区域 | 沼泽湿地 | 80 | 指覆盖着水(淡水、半咸水或咸水)与草本或木本植物的广阔区域,是介于陆地和水体之间的过渡带 |
稀疏植被 | 29 | 分布在连续植物覆盖的植被以上至永久雪线之间的、由适应严寒生境的寒旱生或寒冷中旱生多年生轴根性杂类草或以垫状植物或地衣苔藓等构成的盖度在5%~40%的植被区域。如蚤缀、点地梅垫状植被分布区域 | 居民建设用地 | 35 | 指被建筑物覆盖的土地类型 |
半灌木或矮半灌木荒漠 | 662 | 半灌木、矮半灌木(驼绒藜、木亚菊、蒿)荒漠、垫状驼绒藜荒漠广泛分布区域 | 裸地 | 125 | 指裸地、沙地、岩石、盐碱地,植被覆盖度不超过10 % |
河流 | 38 | 指自然形成的沿着地表长条状槽形洼地 | 雪被与冰川 | 2703 | 指常年由积雪或者冰覆盖的土地类型 |
合计 | 6851 |

-->Fig.1Spatial distribution of the filed investigated sample points in Qiangtang Plateau
2.3 数据处理与方法
2.3.1 土地覆被数据预处理 七套土地覆被数据的投影统一为“Albers_Conic_Equal_Area”。数据的空间分辨率保持不变,具体原因为:通过重采样的方法,如面积占优法、最近邻法等[12],其结果会降低数据本身的质量,且数据产品分辨率范围跨度大(30 m~1 km),难以选择折中且对数据影响小的统一分辨率;其次,由于羌塘高原特殊的地理环境和植被特征,从草地、荒漠、裸地主要土地覆被类型中筛选出的代表性样本点,能保持周围类别单一,成片分布范围大于最大像元的大小(1 km),基本不会影响像元大小造成的数据评价结果精度。因此,在不影响样本点对数据评价结果的条件下,为了尽可能减少对数据本身精度的影响,本文决定只对其进行投影转换处理,不对空间分辨率进行处理。2.3.2 分类系统对应关系 各类土地覆被数据中土地覆被类型的划分及相关标准的制定存在一定差异,这使得不同数据间的比较难以进行[4]。Giri等[34]于2005年、Ran等[35]于2010年和Herold等[4]于2008年的相关研究中通过建立分类系统的衔接关系,实现了不同覆被类型的对应。参照已有的分类系统衔接工作[12,36,37],并结合实地考察和各数据产品类型的具体定义,编制了基于类型样点调查的羌塘高原土地覆被分类系统,包括8个一级类型10个二级类型。八套数据的四套分类系统与该分类系统具体的对应关系如表3所示。
Tab. 3
Tab. 3Corresponding relationships of classes in different classification system between eight land cover data sets and ground data
类型 | IGBP (IGBPDIS、MCD12Q1、UMD) | FAO LCCS (GLC 2000、GlobCover、CCI-LC) | GlobeLand 30 | ||
序号 | 一级 | 二级 | |||
1 | 草地 | 草地 | 草原、草甸 | 草地 | |
2 | 高寒草甸 | - | 草甸 | - | |
3 | 高寒草原 | 草地 | 草原 | 草地 | |
4 | 稀疏植被 | 稀疏植被 | - | 自然植被与农田镶嵌类型、稀疏植被 | - |
5 | 半灌木或矮半灌木荒漠 | 半灌木或矮半灌木荒漠 | 稀疏灌木林地 | 荒漠草地、灌丛、落叶灌丛 | 灌木林地 |
6 | 水体 | 水体 | 水体 | 水体 | |
7 | 河流 | - | - | - | |
8 | 湖泊 | - | - | - | |
9 | 沼泽湿地 | 沼泽湿地 | 湿地 | 稀疏草本或木本湿地 | 湿地 |
10 | 居民建设用地 | 居民建设用地 | 建设用地 | 建设用地 | 人造地表 |
11 | 裸地 | 裸地 | 裸地 | 裸地、砾石裸地、松散裸地 | 裸地 |
12 | 雪被和冰川 | 雪被和冰川 | 雪被与冰川 | 永久雪被与冰川 | 永久雪被与冰川 |
13 | 无 | - | 常绿针叶林、常绿阔叶林、落叶针叶林、落叶阔叶林、混交林、郁闭灌木林地、森林稀疏草原、稀树草原、农田、农田与自然植被镶嵌类型 | 旱地、灌溉或季节性水淹农田、农田与自然植被镶嵌类型、常绿针叶林 | 农田、乔木林地 |
2.3.3 验证方法 本文采用混淆矩阵的方法,以总体精度、制图精度和用户精度为指标衡量土地覆被数据产品的质量,计算公式分别为[38, 39]:
3 结果分析
3.1 一致性特征
3.1.1 空间一致性 根据野外调查和相关资料记载[40,41],草地、荒漠和裸地是羌塘高原地区主要的一级土地覆被类型,又以草地类型占比最大。草地主要分布在中部和南部,荒漠主要分布在北部,裸地主要分布在西北部的草地与荒漠过渡带。羌塘高原主要的3种土地覆被一级类型在不同的数据产品中差异明显(图2)。CCI-LC、GlobeLand 30和GLC 2000数据主要覆被类型是草地,面积比例分别为70.10%、67.69%、62.92%、64.42%,能较好地描述羌塘高原中部和东南部的草地空间分布。MCD12Q1数据中裸地和草地面积比例接近,分别为40.91%和44.96%,但其他三套数据的空间分布与调查结果有明显偏差。

图2七套数据产品在羌塘高原地区一级类型的空间分布特征 注:图中及下文各图中的不一致类别均指研究区现实中不存在的土地覆被类型,而各对应的数据产品在本区域中出现的土地覆被类型。
-->Fig. 2Distribution of eight data sets at Level I of the classification on the Qiangtang Plateau
从七套数据草地二级类型的空间分布中可以发现(图3),高寒草甸比例非常少,高寒草原空间分布特征和数据精度与一级类型中草地分布一致,CCI-LC、GlobeLand 30、GLC 2000数据相对能较好得识别草地类型。而各数据湖泊类型的空间分布特征基本类似,识别度较高。但与Zhang等[42]2015年目视解译的羌塘高原地区面积大于10 km2的湖泊数据对比,七套土地覆被数据的湖泊面积明显偏小。本文土地覆被数据(1992-2010年)湖泊的面积范围在14712.00~28039.18 km2之间,Zhang等(1991-2013年)获取的湖泊数据面积范围为24502.47~30737.67 km2。

-->Fig. 3Distribution of seven data sets at Level II of the classification on the Qiangtang Plateau
3.1.2 点位一致性 综合数据一致性和样本点验证的结果来看,一致性程度低,则实际土地覆被类型准确率低;一致性程度高,与实际土地覆被类型之间的关系并不明显(图4a)。总体上,在6851个样本点中,七套数据一致性程度低,主要集中在3和4之间,占54.9%(图4b)。数据间一致性低、数据与样本点间准确度也低(LL)的像元比例最大,占63.86%。即在大部分验证点上,各数据产品对类型判断不一致且判断准确的比例低。数据间一致性在空间上,未呈现明显区域差异特征。具体类型中(图4c),一致性和准确度高(HH)的类型主要集中在高寒草地和雪被冰川类型上。

-->Fig. 4Agreement and accuracy of land cover data sets
3.2 总体精度
七套数据一级土地覆被类型在羌塘高原地区总体精度均低于56%,可划分为4个等级,由高到低分别为:50%以上,40%~50%,20%~40%以及20%以下。从表4可以看出各数据总体精度情况具体情况,第Ⅰ级:GlobeLand 30(55.09%)和CCI-LC(53.92%);第Ⅱ级:GLC 2000(49.97%)和CASLU(40.48%);第Ⅲ级:GlobCover(31.88%)和MCD12Q1(24.61%);第Ⅳ级:UMD(5.98%)和IGBPDIS(11.76%)。七套数据产品二级类型总体精度为6%~47%,精度等级与一级类型一致。Table 4
Table 4Area proportion and overall accuracy of different land cover types of the seven data products (%)
类型 | CCI-LC | GLC 2000 | GlobCover | GlobeLand30 | IGBPDIS | MCD12Q1 | UMD | |
本文 研究区 | 稀疏植被 | 2.00 | 0.00 | 2.51 | 0.00 | 0.00 | 0.00 | 0.00 |
湿地 | 0.07 | 0.00 | 0.00 | 0.31 | 0.31 | 0.06 | 0.00 | |
建设用地 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | |
雪被与冰川 | 2.25 | 2.49 | 1.64 | 1.19 | 1.19 | 1.25 | 0.00 | |
草地 | 70.51 | 67.69 | 68.84 | 86.12 | 40.47 | 3.53 | 19.75 | |
高寒荒漠 | 1.10 | 16.62 | 0.00 | 2.34 | 2.34 | 9.49 | 68.50 | |
水体 | 4.00 | 2.77 | 4.07 | 4.40 | 4.40 | 3.32 | 4.09 | |
裸地 | 20.06 | 9.28 | 51.31 | 24.07 | 24.07 | 40.91 | 23.88 | |
一级类型 总体精度 | 53.92 | 49.97 | 31.88 | 55.09 | 11.76 | 24.61 | 5.98 | |
二级类型 总体精度 | 46.23 | 39.41 | 26.23 | 46.55 | 10.61 | 21.46 | 6.00 | |
等级 | Ⅰ | Ⅱ | Ⅲ | Ⅰ | Ⅳ | Ⅲ | Ⅳ | |
国际报道 | 总体精度 | 74.40 | 68.60 | 67.50 | 80.03 | 66.90 | 74.80 | 65.00 |
参考文献 | 文献[32] | 文献[26] | 文献[31] | 文献[33] | 文献[27] | 文献[29, 30] | 文献[28] |
3.3 不同类型精度
3.3.1 生产者精度 七套数据产品的生产者精度普遍偏低。草地类型中,GLC 2000数据精度为46.19%,CCI-LC数据精度为43.57%,其他数据的制图精度均小于40%。在荒漠类型中,IGBPDIS数据制图精度为84.44%,但其总体精度仅为11.76%。裸地类型识别中,七套数据制图精度均小于50%,最高的仅为39.20%(MCD12Q1)。CCI-LC数据在雪被与冰川类型识别上制图精度为80.01%,且错分概率为7.2%,优于其他数据产品。而各数据在稀疏植被、湿地、水体类型中的制图精度均低于40%(图5a)。
-->Fig. 5Producer's accuracy and user's accuracy of seven land cover data sets at Level I of the classification
3.3.2 用户精度 三大主要类型用户精度均低于50%,精度相对较高的类型主要是水体和冰川。在水体类型上,GlobeLand 30准确度为92.10%,漏分概率为64.74%。GlobCover准确度虽然为93.33%,漏分概率为93.95%。可见,GlobeLand 30在水体识别上整体精度更高。在冰川雪被类型上,CCI-LC数据精度更高。GlobeLand 30虽然识别准确率达到97.35%,但其漏分概率(27.89%),高于CCI-LC数据(图5b)。
3.3.3 面积估算精度 面积估算精度表示生产者精度与用户精度差值,在生产者精度和用户精度均较高的条件下,其值越接近表明该类型面积估算精度越高。经计算,制图精度和用户精度均较高的有GLC 2000、CCI-LC和GlobeLand 30四套数据的草地类型(图5)。其中,面积精度最高的为GlobeLand 30数据。其他类型中,无同时满足制图精度、用户精度和面积精度高的数据(表5)。
Tab. 5
Tab. 5Accuracy of area estimation of different land cover types of the seven data products (%)
数据 | 稀疏植被 | 湿地 | 建设用地 | 雪被与冰川 | 草地 | 高寒荒漠 | 水体 | 裸地 |
CCI-LC | 0.00 | 0.00 | 0.00 | 12.70 | 12.32 | 7.79 | 73.25 | 14.48 |
GlobalLand 30 | 0.00 | 8.75 | 26.83 | 25.24 | 4.41 | 0.00 | 57.96 | 34.43 |
GLC 2000 | 0.00 | 0.00 | 0.00 | 36.46 | 15.00 | 19.17 | 40.85 | 0.68 |
GlobCover | 0.00 | 0.00 | 0.00 | 42.87 | 1.74 | 0.00 | 87.48 | 21.40 |
MCD12Q1 | 0.00 | 64.17 | 0.00 | 55.69 | 1.18 | 3.55 | 81.24 | 37.59 |
IGBPDIS | 0.00 | 0.00 | 0.00 | 0.00 | 21.53 | 73.82 | 30.03 | 0.70 |
UMD | 0.00 | 0.00 | 0.00 | 0.00 | 4.88 | 42.86 | 42.54 | 9.90 |
3.4 不同类型混淆
利用混淆矩阵,获得数据和样本点在相同位置土地覆被类型对应关系,选取六套总体精度高于20%的数据产品进行统计分析,地类混淆情况如图6所示,各类型与草地和裸地类型混淆严重。草地类型中,CCI-LC数据9.20%混分为裸地,少部分混分为其他类型。GlobeLand 30中,37.83%混分为裸地。GLC 2000数据18.23%混分为荒漠。裸地类型中,GlobeLand 30中24.59%混分为草地。MCD12Q1中,13.11%混分为荒漠。雪被与冰川类型中,CCI-LC中混分为草地和裸地比例分别为10.69%和8.77%。GlobeLand 30雪被与冰川主要混分为裸地(20.35%),另有少部分混分为其他类型。GLC 2000数据的雪被与冰川有44.98%混分为其他类型。此外,荒漠、稀疏植被、建设用地、湿地、水体主要混分为草地、裸地类型。
-->Fig. 6Confusion of Level I of the classification between the six land cover datasets
4 讨论
本文评估的七套数据采用了三套分类系统,即FAO LCCS、IGBP和GlobeLand30。在分析系统对应的过程中,主要问题表现为以下几方面:① UMD分类系统虽然采用了IGBP的分类方案,但UMD土地覆盖数据的分类系统是为SIB模型设计的,SIB的分类方案没有湿地和冰雪类,而是将永久性冰雪类包括在裸地里,而没有湿地类型,这可能会降低UMD数据的精度评价结果。② 羌塘高原的主题范围内基本无林地和耕地类型[23],但七套数据产品中均有林地和耕地类型,尤其IGBPDIS 和UMD数据在羌塘高原的核心区出现了大片林地和耕地类型(图2),偏离了真实情况。以上问题说明,不仅数据集分类系统的转换过程会影响数据精度[43],分类原则和类型内涵的不同,也是造成本文区的遥感分类解译结果差异因素之一。而出现偏离真实类别的分类系统的原因很大程度是由于缺乏野外实测资料。因此,这些数据的分类系统需要进一步考察修正,以减少分类系统制定过程中的模糊概念。羌塘高原植被类型和高原环境特征对土地覆被数据分类有重要影响。羌塘高原特殊的植被类型,如草地、裸地、荒漠类型波谱曲线、影像色调、纹理等标识差异小,易造成类型混淆。其次,羌塘高原典型的高原环境对土地覆被提取具有重要的影响。羌塘高原的植被生长季远短于其他低海拔地区[44,45],主要集中在夏季,其他月份难以监测植被类型信息,但土地覆被数据使用的各幅影像的月份可能不一致,如使用非生长季期间的遥感影像数据,则会降低植被类型解译结果。
5 结论
在羌塘高原地区,七套数据产品(GLC 2000、IGBPDIS、UMD、MCD12Q1、GlobCover、CCI-LC和GlobeLand 30)中,精度最高的一级类型仅为55.09%左右,未达到可广泛应用的精度要求[1,2]。从具体类型来看,雪被与冰川数据类型制图精度和用户精度整体上高于其他数据,其中最高的是CCI-LC数据,用户精度为92.80%,制图精度为80.10%。GlobeLand 30数据的草地类型面积估算精度最高。本文评估的七套大尺度土地覆被数据产品在高海拔的羌塘高原寒旱地区精度低,无论从现状分析,还是作为区域土地覆被变化及其生态和环境影响研究的基础数据而言,高原地区土地覆被数据质量都亟待提高。建议如下:① 加强野外实地土地覆被类型的光谱测定、植被样地调查、土壤与土地利用调查及环境要素调查,确定类型解译标志和标准,及梳理类型内涵与定义,调整并完善分类系统,修订和完善遥感解译流程和方法以提升解译能力;② 采用最新的高分辨率影像、包含物候信息的时序数据(SPOT VGT、HJ CCD以及MODIS),尤其是结合2000年以来MODIS的年内与年际间多期连续的时序数据,并结合野外实际观测分析结果,针对某土地覆被类型在进行深化和创新性研究。
The authors have declared that no competing interests exist.
