摘要&关键词
摘要:本数据集基于Landsat地表反射率数据,采用基于多指数和先验知识驱动的全球尺度遥感水体智能提取方法进行陆表水体信息提取得到。首先进行数据预处理,进行NDWI、NDVI、NDBI和地形指数等指数计算;然后将已有的陆表水体产品作为先验知识,选取水体和非水体样本,并进行样本优化;最后利用决策树模型进行样本训练自适应确定相应指数的阈值,从而生成高精度的陆表水体信息专题图,精度达98%以上,最终结果以GeoTIFF格式保存。本数据集可为澜湄流域水资源安全和管理、气候变化、生态环境等方面提供重要的数据支撑和保障。
关键词:澜湄流域;陆表水体;多指数;先验知识;自适应阈值
Abstract & Keywords
Abstract:?The land surface water products with a spatial resolution of 30 m in Lanmei Watershed were produced by using the water intelligent extraction method driven by multi-indexes and prior knowledge on a global scale based on the Landsat 8 surface reflectance data. Data was first preprocessed, and then NDWI, NDVI, NDBI and terrain indexes were calculated. After that, the existing land surface water products were used as prior knowledge to select water and non-water samples and perfect samples . Finally, the decision tree model was used to train samples to determine the adaptive threshold of its corresponding index. Consequently, the high-precision inland surface water thematic map with the accuracy of above 98% was generated. The result is stored in GeoTiff format. This dataset can provide significant data support and guarantee for water resources security and management, climate change, and ecological environment in Lanmei Watershed.
Keywords:?Lanmei watershed;?inland surface water;?multi-indexes;?prior knowledge;?adaptive threshold
数据库(集)基本信息简介
数据库(集)名称 | 澜湄流域30 m分辨率陆表水体产品 |
数据作者 | 彭燕,何国金,王桂周,尹然宇 |
数据通信作者 | 何国金(hegj@radi.ac.cn) |
数据时间范围 | 2018年1月至2018年12月 |
地理区域 | 澜湄流域(91°42′E–109°58′E,5°7′N–29°45′N) |
空间分辨率 | 30 m |
数据量 | 1GB |
数据格式 | *.tiff (GeoTIFF, Byte) |
数据服务系统网址 | ftp://bigrs-info.com/WaterProducts/lanmei/ http://www.sciencedb.cn/dataSet/handle/987 |
基金项目 | 中国科学院A类战略性先导科技专项(XDA19090300);国家自然科学基金(61731022); 中国科学院STS重点项目(No. KFZD-SW-316)。 |
数据库(集)组成 | 数据集包括1个水体提取结果和1个对应的影像成像时间文件。 |
Dataset Profile
Title | Inland surface water products with 30 m spatial resolution in Lanmei Watershed of 2018 |
Data corresponding author | He Guojin (hegj@radi.ac.cn) |
Data authors | Peng Yan, He Guojin, Zhang Zhaoming, Yin Ranyu |
Time range | January, 2018 to December, 2018 |
Geographical scope | Lanmei watershed (91°42′E–109°58′E,5°7′N–29°45′N) |
Spatial resolution | 30 m |
Data volume | 1GB |
Data format | *.tiff (GeoTIFF, Byte) |
Data service system | <ftp://bigrs-info.com/WaterProducts/lanmei/> <http://www.sciencedb.cn/dataSet/handle/987> |
Sources of funding | Strategic Priority Research Program of the Chinese Academy of Sciences (XDA19090300); National Natural Science Foundation of China (61731022); STS project of Chinese Academy of Sciences (Grant No. KFZD-SW-316). |
Dataset composition | The dataset provides a water extraction result and the corresponding imaging date file. |
引 言
2016年3月23日,澜沧江–湄公河区域六国(中国、缅甸、老挝、柬埔寨、越南、泰国)领导人在三亚举行“六水合一”仪式,正式启动澜湄合作,该合作是因水而生,水资源对于澜湄流域的重要性不言而喻。澜湄流域属于西南季风气候区,6月至11月为湿季,12月至次年5月为干季,年降水量较高,但时空分布
不均,上游与下游间的气候及水资源分布特征存在较大差异,澜沧江流域降水集中在6月至8月,而湄公河流域降水峰值集中在9月和10月[1]。近期以来,受强厄尔尼诺现象的影响,越南南部、柬埔寨等湄公河流域遭受了严重的干旱袭击。因此,澜湄流域30 m分辨率的陆表水体产品能反映澜湄流域陆表水体空间分布情况以及变化轨迹,在澜湄流域水资源安全和管理、气候变化、生态环境等方面具有重要的应用价值。清华大学、国家基础地理信息中心、美国马里兰大学、欧盟联合研究中心等均发布了全球陆表水体产品,时间从1985年到2015年,空间分辨率从25 km到30 m不等,所采用的方法大多为决策树、指数阈值法等方法。而目前尚缺少2018年澜湄流域的陆表水体产品。
本文提供2018年30 m分辨率的澜湄流域年度陆表水体产品,给出了澜湄流域30 m陆表水体产品生产的方法与技术流程。采用基于多指数和先验知识驱动的全球尺度遥感水体智能提取方法,首先对所需要的Landsat 8地表反射率数据集、GDEM(ASTER Global Digital Elevation)数据集以及GLCF-GIW(2000)(the Global Land Cover Facility Global Inland Water)水体产品数据集进行数据预处理,随后根据GLCF-GIW(2000)水体产品进行水体样本与非水体样本选择与优化,最后采用决策树分类法进行自适应阈值确定,从而得到初步的水体提取结果,最后再进行空间过滤等后处理得到最终的陆表水体产品。
1 ? 数据采集和处理方法
1.1 ? 数据采集方法
本文所生产的澜湄流域季度陆表水体产品主要是在Landsat 8地表反射率的基础上进行生产的,地表反射率数据主要来自于中国科学院空天信息创新研究院何国金研究员团队所生产的中国Landsat系列卫星遥感数据地表反射率产品数据集[2]。所需要的DEM数据来自于GDEM Version 2.0 dataset [3];并采用2000年GLCF-GIW version 1.0水体产品[4]作为样本库,该数据集可从http://www.landcover.org/data/watercover/免费获取。
1.2 ? 数据处理方法
采用基于多指数和先验知识驱动的全球尺度遥感水体智能提取方法来提取澜湄流域季度陆表水体专题信息,其技术路线如图1所示,主要分为数据预处理、样本选择与优化、自适应确定阈值、连通像元合并及空间过滤后处理4个步骤。
图1 ? 澜湄流域陆表水体生产技术路线图
1.2.1 ? 数据预处理
需要对Landsat 8地表反射率、DEM数据集以及已有的30 m水体产品进行数据预处理。首先,对于2018年的所有地表反射率产品根据质量评估文件(QA)进行去云处理,将所有Landsat 8地表反射进行中值合成,得到2018年澜湄流域的中值合成影像,最终为了便于计算,将澜湄流域的年度中值合成影像按5120×5120 pixels的大小分块,共计约179块。图2为澜湄流域Landsat 8地表反射率中值合成影像的分块示意图。然后,将全球范围内的DEM 数据集镶嵌成VRT格式。由于2000年GLCF-GIW的水体产品是以景为单位存储的,坐标系投影为WGS84 UTM(Universal Transverse Mercator Projection,通用横轴墨卡托投影),为了能适应于澜湄流域甚至是全球区域的陆表水体信息提取,需要将该水体产品处理成VRT格式的镶嵌结果。
(a)
(b)
图2 ? 澜湄流域Landsat 8地表反射率中值合成影像分块示意图(a)分块示意图 (b) 对应的Path/Row示意图
1.2.2 ? 样本选择与优化
根据2000年的GLCF-GIW水体产品对每一分块影像分别分层随机选取水体与非水体样本各150个。由于所利用的训练样本数据为2000年的水体产品,然而水体会随着时间和季节的变化而变化,难免会出现样本数据为水体,而待提取的数据为非水体(如植被)的现象。因此为了避免出现这种因样本不准确而导致误分的问题出现,需要对样本进行进一步优化。利用坡度(Slope)和山体阴影(Hillshade)两种地形指数以及NDVI(Normalized Difference Vegetation Index,归一化差值植被指数)、NDWI(Normalized Difference Water Index,归一化差值水体指数)对所选取的样本进行基于先验知识驱动的样本优化。NDVI指数用于建立植被掩膜,为避免因时相变化引起的训练样本不完全正确时,将植被误认为水体的问题。NDWI主要用于优化非水体样本中存在的水体样本的问题。并将Hillshade<150且Slope>20的区域认为是山体阴影[2],建立山体阴影掩膜,优化水体样本中存在山体阴影的问题。
1.2.3 ? 自适应确定阈值
采用了马里兰大学发布的2000年的水体产品(GLCF-GIW)作为先验知识选取水体与非水体样本,并将slope和hillshade等地形指数、NDVI、NDWI、NDBI(Normalized Difference Build Index,归一化差值建筑指数)作为输入,采用决策树方法对优化后的样本进行了样本训练,自适应确定分类规则,该分类规则便是所选择指数的一个阈值组合,从而根据该分类规则得到一个初步的陆表水体专题信息提取结果。
1.2.4 ? 后处理
由于基于像元的分类方法所得到的结果往往会出现独立像元或者一两个像元的孔洞现象,因此需要将得到的初步的陆表水体专题信息提取结果进行联通像元合并及空间过滤。初始结果是分块的,因此需要将分块结果进行镶嵌,从而得到最终的澜湄流域30 m空间分辨率陆表水体专题信息产品。
2 ? 数据样本描述
2018年澜湄流域30 m陆表水体产品数据集包括1个结果文件和1个相应的影像成像时间文件。陆表水体产品文件的命名规则为:water-lanmei-yyyy.TIF(如:water-lanmei-2018.TIF)。影像的空间分辨率为0.00025°(约30 m),投影坐标系是WGS84经纬度。陆表水体产品结果为灰度二值图,其中1表示水体,0表示非水体。为了降低存储空间,对栅格结果进行了“LZW”的无损压缩。图3为2018年澜湄流域陆表水体产品示意图,底图采用的是2018年Landsat地表反射率合成图,波段组合为R(6)G(5)B(4)。对应的影像成像时间文件的命名规则为waterdate-lanmei-yyyy.TIF(如waterdate-lanmei-2018.TIF),为16位整型灰度图像,对应的灰度值表示该年的儒略日,如18表示为该像元采用2018年1月18日的Landsat 8影像进行制图而成。
图3 ? 2018年澜湄流域陆表水体产品示意图
3 ? 数据质量控制和评估
图4给出了本数据集水体提取精度验证的抽样分布情况。为了对本方法的水体提取结果进行验证,在澜湄流域进行分层随机选取样本点,水体和非水体各约2000个。以原始影像结合GoogleEarth、GF-1/2等高空间分辨率遥感影像作为参考影像,进行精度验证。表1为水体提取结果精度验证混淆矩阵,水体的制图精度达99.34%,用户精度达98.25%,总体精度达98%以上。
图4 ? 澜湄流域季度陆表水体产品精度验证样本分布情况
表1 ? 水体提取结果精度验证混淆矩阵
非水体 | 水体 | 用户精度 | 制图精度 | |
非水体 | 1988 | 13 | 99.35% | 98.27% |
水体 | 35 | 1964 | 98.25% | 99.34% |
总体精度 | 98.8% | |||
Kappa | 0.976 |
陆表水体信息提取的难点在于高建筑物以及山体阴影的影响,因此为了验证本数据集在此方面的表现,将本数据集与国际上已有的陆表水体产品进行交叉验证。由于目前国际上尚无2018年澜湄流域的陆表水体产品,因此将本数据集分别与清华大学发布的2010年30 m全球土地覆盖产品中的水体类别(FROM-GLC water mask)[5]以及美国马里兰大学发布的2000年30 m全球陆表水体产品(GLCF-GIW)[6]进行对比分析,如图5所示。分别选取了城区和山区两处的陆表水体结果进行对比,具体位置如图5中澜湄流域示意图上标识的1处和2处。位置1处各产品的局部放大图如图5(a-f)所示,位置2处各产品的局部放大图如图5(g-h)所示。为了避免由于时相引起的水体变化,图5分别将各产品所对应的Landsat数据也展示出来。从图5可以看出,位置1处,FROM-GLC water mask产品和GLCF-GIW产品均存在将城区误分成水体的现象,本数据集较好地区分了建筑物阴影与水体(如图5(f)所示);位置2处,FROM-GLC water mask产品和GLCF-GIW产品均存在将山体阴影误分成水体的现象,本数据集较好地区分了山体阴影与水体(如图5(l)所示)。以上结果均表明本数据集水体提取精度较高。
图5 ? 本数据集与国际上已有陆表水体产品的对比验证图(a)位置1处FROM-GLC water mask产品所采用的2000年11月2日Landsat7 R(5)G(4)B(3)组合图像;(b)位置1处的FROM-GLC water mask水体产品;(c)位置1处GLCF-GIW产品所采用的2009年11月3日Landsat 5 R(5)G(4)B(3)组合图像;(d)位置1处的GLCF-GIW水体产品;(e)位置1处本数据集所采用的2018年度Landsat 8中值合成R(5)G(4)B(3)组合图像;(f)位置1处的本数据集水体产品;(g)位置2处FROM-GLC water mask产品所采用的2002年1月3日Landsat7 R(5)G(4)B(3)组合图像;(h)位置2处的FROM-GLC water mask水体产品;(i)位置2处GLCF-GIW产品所采用的2009年11月8日Landsat 5 R(5)G(4)B(3)组合图像;(g)位置2处的GLCF-GIW水体产品;(k)位置2处本数据集所采用的2018年度Landsat 8中值合成R(5)G(4)B(3)组合图像;(l)位置2处的本数据集水体产品。
4 ? 数据价值
本文推出2018年澜湄流域30 m分辨率陆表水体产品,采用基于多指数和先验知识驱动的全球尺度遥感水体智能提取方法,精度较高,后续本数据集将会补充其他年份的季度产品。本数据集在澜湄流域水资源管理与灾害应急、生态环境监测等方面具有重大的应用价值。
致 谢
衷心感谢刘慧婵和江威在产品质量检验时给予的建设性意见。
[1]
运晓博, 汤秋鸿, 徐锡蒙, 等. 气候变化对澜湄流域上下游水资源合作潜力的影响[J]. 气候变化研究进展, 2020, 16(5): 555-563.
+?CSCD?·?Baidu Scholar
[2]
彭燕, 何国金, 张兆明, 等. 中国区域Landsat地表反射率产品[DB/OL]. Science Data Bank, 2020, 5(4). (2020-04-29). DOI: 10.11922/sciencedb.984.
+?CSCD?·?Baidu Scholar
[3]
NASA/METI/AIST/Japan Spacesystems, and U.S./Japan ASTER Science Team (2009). ASTER Global Digital Elevation Model[DB]. NASA EOSDIS Land Processes DAAC. DOI: 10.5067/ASTER/ASTGTM.002.
+?CSCD?·?Baidu Scholar
[4]
FENG M, JOSEPH O S, SAURABH C, et al. A Global, High-Resolution (30-M) Inland Water Body Dataset for 2000: First Results of a Topographic-Spectral Classification Algorithm[J]. International Journal of Digital Earth, 2015, 9(2): 113-133. doi:10.1080/17538947.2015.1026420.
+?CSCD?·?Baidu Scholar
[5]
JI L Y, GENG X R, SUN K, et al. Target detection method for water mapping using landsat 8 oli/tirs imagery[J].Water,2015, 7 (2): 794-817.
+?CSCD?·?Baidu Scholar
[6]
FENG M, SEXTON J O, CHANNAN S, et al. A global, high-resolution (30-m) inland water body dataset for 2000: First results of a topographic-spectral classification algorithm[J]. International Journal of Digital Earth, 2016, 9 (2): 113-133.
+?CSCD?·?Baidu Scholar
数据引用格式
彭燕, 何国金, 王桂周, 等. 澜湄流域30 m分辨率陆表水体产品[DB/OL]. Science Data Bank, 2020. (2020-04-30). DOI: 10.11922/sciencedb.987.
稿件与作者信息
论文引用格式
彭燕, 何国金, 王桂周, 等. 澜湄流域30 m分辨率陆表水体产品[J/OL]. 中国科学数据, 2020, 5(4). (2020-05-25). DOI: 10.11922/csdata.2020.0029.zh.
彭燕Peng Yan
主要承担工作:算法集成程序编写,数据生产流程设计,论文撰写。
(1988—),女,湖南郴州市人,在读博士,工程师,研究方向为遥感图像智能处理。
何国金He Guojin
主要承担工作:总体思路与方案设计,论文修改。
hegj@radi.ac.cn
(1968—),男,福建龙岩人,博士,研究员,研究方向为遥感数据智能处理与信息挖掘。
王桂周Wang Guizhou
主要承担工作:技术指导。
(1984—),男,山东省济宁市人,博士,高级工程师,研究方向为遥感图像智能处理。
尹然宇Yin Ranyu
主要承担工作:数据挑选、整合与预处理。
(1996—),男,山东省临沂人,在读博士,研究方向为遥感图像智能处理。