删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

中国典型城市建筑物实例数据集

本站小编 Free考研考试/2022-01-02


摘要&关键词
摘要:建筑物轮廓信息是国家基础地理信息的重要组成部分。高精度建筑物轮廓自动提取往往依赖于大规模的建筑物标注样本。为了丰富中国地区建筑物提取数据集,本文研究以高分辨率遥感影像为数据源,采用人工标注与交互式标注相结合的方式构建形成中国典型城市建筑物实例数据集。本数据集包含7260个影像区域样本,共63886栋建筑物,分布在北京、上海、深圳及武汉4个城市。数据集由MS COCO 2017格式的标注文件及相应的建筑物掩膜二值图构成,可为研究高分辨率遥感影像的建筑物检测和提取提供基础数据。
关键词:建筑物提取;实例分割;高分辨率遥感影像

Abstract & Keywords
Abstract:?Building contour information is an important part of the national basic geographic information. The performance of building automatic extraction is usually driven by a large number of training samples. To enrich the building extraction datasets of cities in China, we compiled a building instance dataset sourced from high-resolution remote sensing images through the combination of manual annotation and interactive annotation. This dataset consists of the samples in 7,260 regions, with 63,886 building instances in four China’s cities: Beijing, Shanghai, Shenzhen and Wuhan. The annotations of the dataset consist of MS COCO 2017 format files and the corresponding building mask binary maps. This dataset provides fundamental data for the research on building detection of and extraction from high-resolution remote sensing images.
Keywords:?building extraction;?instance segmentation;?high-resolution remote sensing images

数据库(集)基本信息简介
数据库(集)名称中国典型城市建筑物实例数据集
数据作者吴开顺,郑道远,陈妍伶,曾林芸,张嘉辉,柴生华,徐文杰,杨永亮,李圣文,刘袁缘,方芳
数据通信作者方芳(fangfang@cug.edu.cn)
数据时间范围2017–2019年
地理区域中国
空间分辨率0.29 m
数据量约5000 MB
数据格式*.tif, *.json, *.png
数据服务系统网址https://doi.org/10.11922/sciencedb.00620
基金项目国家对地观测科学数据中心开放基金项目(NODAOP2020015)
数据库(集)组成数据集包括7260个区域样本,由3部分信息构成:(1) *.tif存储了遥感影像瓦片;(2) *.json描述了建筑物标注,包含训练集和测试集两个文件,可用于实例分割任务;(3) *.png存储了建筑物区域的像素级语义标签,可用于语义分割任务。

Dataset Profile
TitleA dataset of building instances of typical cities in China
Data corresponding authorFANG Fang (fangfang@cug.edu.cn)
Data authorsWU Kaishun, ZHENG Daoyuan, CHEN Yanling, ZENG Linyun, ZHAN Jiahuig, CHAI Shenghuai, XU Wenjie, YANG Yongliang, LI Shengwen, LIU YuanYuan, FANG Fang
Time range2017–2019
Geographical scopeChina
Spatial resolution0.29 m
Data volumeabout 5,000 MB
Data format*.tif, *.json, *.png
Data service system<https://doi.org/10.11922/sciencedb.00620>
Source of fundingOpen Research Fund of National Earth Observation Data Center (NODAOP2020015)
Dataset compositionThe dataset consists of samples in 7,260 regions, with three types of files: (1) *.tif files, storing the information about high-resolution remote sensing images; (2) *.json files, used for instance segmentation tasks, and describing building annotation data, including the training set and the test set; (3) *.png flies, the pixel-level semantic label of building area, used for semantic classification tasks.



引 言
建筑物轮廓信息是最重要的基础地理信息之一,在日常生活、经济建设和**建设中发挥着重要的作用。遥感影像建筑物检测和提取在城市规划、人口估计、地形图制作和更新等应用中都具有极为重要的意义[1]。相比人工遥感解译与矢量化,自动化的遥感影像建筑物轮廓提取方法,不仅节省人力物力,而且效率高、信息提取周期短。
近年来,随着深度学习技术的不断发展,出现了基于深度学习的高精度建筑物轮廓信息自动提取方法,识别精度获得显著提升。大量的数据样本是训练深度学习模型、提升建筑物自动提取性能的关键。在计算机视觉领域,ImageNet[2]、MS COCO[3]等开放数据集极大地促进了深度学习方法的发展。然而,可供开放使用的建筑物提取数据集相对缺乏[1]。目前常用的建筑物提取数据集主要有AIRS 数据集[4]、WHU建筑物数据集[1]和Inria遥感影像数据集[5]。此外,马萨诸塞数据集[6]由于影像质量和分辨率较低,较少应用于建筑物提取的相关研究;ISPRS[7]及竞赛数据集[8]覆盖区域过小,很难反映出建筑物的多样性。需要指出的是,遥感影像中的建筑物影像在时空分布、形态、背景环境上存在较大差异,模型精度和泛化能力与训练时采用的数据集密切相关。但是目前尚未见发表中国地区的建筑物提取公开数据集,这在一定程度上制约着适应中国地区建筑物自动提取方法及应用的研究。
笔者基于高分辨率遥感影像构建了中国地区面向城市建筑物检测和提取的建筑物实例分割数据集。本数据集覆盖了国内4个具有代表性的城市,反映国内城市建筑物自身和背景环境的特点,为中国基础数据的构建提供数据支撑,以期推进相关学术的深入研究。

1 ? 数据采集和处理方法
本数据集选取北京、上海、深圳、武汉等4个具有代表性的城市中心城区作为数据采集目标区域,具体位置如表1所示。原始数据源自由谷歌提供的19级卫星影像,地面分辨率为0.29 m。为了提高数据集的通用性,数据区域的选取包括正射影像和非正射影像区域、建筑物稀疏分布和密集分布区域,同时考虑建筑物轮廓形状多样性等因素。数据集样本覆盖区域共计约120平方公里。
表1 ? 数据采集目标区域信息
城市名数据所在经纬度范围样本区域面积(km2区域建筑物数(栋)
北京116.1605°–116.4111°E,39.8701°–40.0974°N25.4815205
上海121.3288°–121.6262°E,30.8819°–31.5582°N20.8513487
深圳113.7552°–114.0738°E,22.5432°–22.7815°N42.6627018
武汉114.1418°–114.3718°E,30.4768°–30.6800°N35.338176

数据处理及标注的流程如图1所示,处理流程主要包含数据预处理阶段、人工标注阶段和人机交互标注阶段。




图1 ? 数据处理流程图
首先,在数据预处理阶段,针对4个城市的原始卫星影像,人工筛选并截取无重叠的82块5000×5000像素大小的影像区域。同时,参考现有标准实例分割数据集格式,将每幅影像统一切割为100幅500×500像素大小的瓦片。本数据集从以上瓦片数据中随机选取7260个区域作为样本进行标注,其中北京2237个,深圳2344个,上海1231个,武汉1448个。
在人工标注阶段,首先采用数据标注软件(labelme[9])对20%的遥感影像数据建筑物轮廓进行标注,形成初始样本集;随后,基于初始样本集训练神经网络模型,使模型具有初步处理的能力。
在交互式标注阶段,借鉴反向传播修正机制(Backpropagating Refinement Scheme,BRS)[10]对其余80%的数据进行交互式数据标注。最终获得全部数据的建筑物实例标签,完成数据集的制作。

2 ? 数据样本描述
本数据集以“遥感影像+数据标注文件”的形式组织存储,分别存储原始遥感影像和所对应的建筑物轮廓标注信息。数据集样本包括训练集和测试集两个文件夹,每个文件夹包含一个遥感影像数据文件夹和一个json格式标注文件。数据集的文件组织形式如表2所示。
表2 ? 数据集文件组织形式
文件夹文件内容文件说明
trainImages/*.tif训练集影像目录
PNG/*.png训练集像素标签
Annotations.json训练集标注文件
testImages/*.tif测试集影像目录
PNG/*.png测试集像素标签
Annotations.json测试集标注文件

其中,tif格式文件为500×500像素的包含位置信息的原始遥感影像;json格式文件则描述了该遥感影像所对应的建筑物轮廓标注信息,主要包括4个方面的信息:info、images、categories和annotations。其中,info记录的是数据集的制作年份、版本、描述等基本信息;images记录了数据集中影像的大小等信息;categories将类别从名称映射到类别编号;annotations则记录了标注编号、标注对应的影像编号、建筑物轮廓点坐标等标注信息。数据标注文件的组织形式如图2所示。




图2 ? 数据标注文件的组织形式
图3展示了在4个城市中选取的具有代表性的遥感影像及相应的建筑物轮廓。




图3 ? 数据集样例展示(a)北京 (b)上海 (c)深圳 (d)武汉


3 ? 数据质量控制和评估
为保证数据集质量,我们在影像整理和检查、人工标注和交互式标注阶段均采用了完整的质量控制过程(如图4所示),通过多重检查保证标注数据的可靠性、完整性和统一性。




图4 ? 数据集质量控制过程
在影像整理和检查阶段,人工剔除了失真、畸变、模糊等影像,以减少原始影像引入的噪声。在人工标注阶段采用人工交叉检验方法检查标注结果并修正发现的问题,检查内容包括标注轮廓不完整、建筑物标注遗漏以及非建筑物误标注为建筑物等。交互式标注阶段则重点检查标签文件的准确性、一致性,确保标注质量。为避免影像标签缺失、标签与影像匹配错误等问题,我们采用循环遍历算法进行检验,并对错误数据逐一确认和修改。
此外,在制作最终的标注文件之前,为了确保数据组织按照既定的规则进行,所有的遥感影像及其所对应的标注信息均通过程序自动从原始数据中读取得到,并按照规则批量化自动命名,最后采取人工方式进行复核。通过以上步骤,本数据集的质量能够得到良好的保证。

4 ? 数据价值
本数据集是首个公开的取材于国内城市的高分辨率遥感影像城市建筑物轮廓的实例分割数据集,从一定程度上反映了国内的建筑物特征和遥感影像的关系,丰富了遥感领域建筑物数据集,有望更好地支撑国内遥感影像建筑物提取的研究和生产。本数据集的组织和标注方式与常用实例分割数据集一致,可以很方便地服务于影像分割任务。

5 ? 数据使用方法和建议
本数据集可用于实例分割任务和基于像素级别的语义分割任务。数据集的使用方法与常用于上述两种分割任务的标准数据集使用方法一致,总体步骤如图5所示。




图5 ? 数据使用流程
对于实例分割任务,本数据集采用的标注格式与实例分割数据集MS COCO相同,使用方式相同。实例分割任务可通过解析json文件,从annotations字段中批量读取建筑物轮廓标注;从images字段中获取影像存储路径,进而获取实例标注所对应的建筑物影像。实例分割模型可将获取的标注和影像两类信息作为输入,进行模型的训练和预测。
语义分割的类别标签是像素级的,其中建筑物区域对应的像素值为1,非建筑物区域对应的像素值为0。每个样本的标签存储在一个png文件中,其原始影像文件存储在与标签相同文件名的tif文件中。语义分割任务依次读取每个样本的标注和影像文件,输入到语义分割模型中进行训练和预测。
后续过程需根据实际任务进行设计,主要包括模型训练、预测和精度验证等。两种任务使用中的模型也在不断发展,现有经典模型如Mask R-CNN[11],DeepLabv3[12]等,此文不再赘述。


[1]
JI S P, WEI S Q, LU M. Fully Convolutional Networks for Multisource Building Extraction from an Open Aerial and Satellite Imagery Data Set[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 57(1): 574-586.

+?CSCD?·?Baidu Scholar

[2]
DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA, 2009.

+?CSCD?·?Baidu Scholar

[3]
LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common Objects in Context[C]. Proceedings of the European Conference on Computer Vision, Springer, Cham, 2014.

+?CSCD?·?Baidu Scholar

[4]
CHEN Q, WANG L, WU Y, et al. Aerial imagery for roof segmentation: A large-scale dataset towards automatic mapping of buildings[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 147: 42-55.

+?CSCD?·?Baidu Scholar

[5]
MAGGIORI E, TARABALKA Y, CHARPIAT G, et al. Can semantic labeling methods generalize to any city? The INRIA aerial image labeling benchmark[C]. Proceedings of the IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Fort Worth, TX, USA, 2017.

+?CSCD?·?Baidu Scholar

[6]
MNIH V. Machine learning for aerial image labeling[M]. Canada: University of Toronto, 2013.

+?CSCD?·?Baidu Scholar

[7]
GERKE M, ROTTENSTEINER F, WEGNER J D, et al. ISPRS Semantic Labeling Contest[EB/OL].(2014) [2021–02–03]. http://www2.isprs.org/semantic-labeling.html.

+?CSCD?·?Baidu Scholar

[8]
LE S B, YOKOYA N , HANSCH R, et al. 2018 IEEE GRSS Data Fusion Contest: Multimodal Land Use Classification [Technical Committees][J]. IEEE Geoscience and Remote Sensing Magazine, 2018, 6(1): 52-54.

+?CSCD?·?Baidu Scholar

[9]
RUSSELL B C, TORRALBA A, MURPHY K P, et al. A Database and Web-Based Tool for Image Annotation[J]. International Journal of Computer Vision, 2008, 77(1-3):157-173.

+?CSCD?·?Baidu Scholar

[10]
KONSTANTIN S, ILIA P, OLGA B, et al. F-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA,USA,2020.

+?CSCD?·?Baidu Scholar

[11]
HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]. Proceedings of the IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017.

+?CSCD?·?Baidu Scholar

[12]
Liang-Chieh Chen, Yukun Zhu, George Papandreou, et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation[C]. Proceedings of the European Conference on Computer Vision(ECCV), Munich, Germany, 2018.

+?CSCD?·?Baidu Scholar


数据引用格式
方芳, 吴开顺, 郑道远, 等. 中国典型城市建筑物实例数据集[DB/OL]. Science Data Bank, 2021. (2021-03-19). DOI: 10.11922/sciencedb.00620.

稿件与作者信息

论文引用格式
方芳, 吴开顺, 郑道远, 等.中国典型城市建筑物实例数据集[J/OL]. 中国科学数据, 2021, 6(1). (2021-03-19). DOI: 10.11922/noda.2021.0013.zh.
吴开顺WU Kaishun

主要承担工作:数据集整体结构设计,交互式标注算法研究与实现。
(1995—),男,四川省彭州市人,在读硕士研究生,研究方向为图像智能处理及遥感应用。

郑道远ZHENG Daoyuan

主要承担工作:数据集人工及交互式标注,论文初稿撰写。
(1999—),男,湖北省荆州市人,在读硕士研究生,研究方向为目标检测、图像分割及遥感应用。

陈妍伶CHEN Yanling

主要承担工作:数据集人工及交互式标注。
(1997—),女,四川省射洪市人,在读硕士研究生,研究方向为大数据城市意向分析。

曾林芸ZENG Linyun

主要承担工作:数据集人工及交互式标注。
(1996—),女,四川省成都市人,在读硕士研究生,研究方向为图卷积神经网络及应用。

张嘉辉ZHANG Jiahui

主要承担工作:数据集人工及交互式标注。
(1998—),女,山东省潍坊市人,在读硕士研究生,研究方向为多模态图像数据融合及应用。

柴生华CHAI Shenghua

主要承担工作:数据集人工标注。
(2000—),男,河北省承德市人,在读本科生。

徐文杰WU Wenjie

主要承担工作:数据集人工标注。
(2000—),男,湖北省武汉市人,在读本科生。

杨永亮YANG Yongliang

主要承担工作:数据集人工标注。
(1999—),男,甘肃省武威市人,在读本科生。

李圣文LI Shengwen

主要承担工作:论文方向指导与质量把关。
(1978—),男,山东省济宁市人,博士,副教授,研究方向为时空大数据挖掘与机器学习。

刘袁缘LIU YuanYuan

主要承担工作:算法指导。
(1984—),女,江西省景德镇人,博士,副教授,研究方向为计算机视觉。

方芳FANG Fang

主要承担工作:项目规划与论文质量把关。
fangfang@cug.edu.cn
(1976—)女,湖北省黄冈市人,博士,副教授,研究方向为智能信息处理。


相关话题/数据 遥感 信息 城市 工作

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 2000–2017年联合国各成员国的SDGs指标对相关性系数数据集
    摘要&关键词摘要:可持续发展目标(SustainableDevelopmentGoals,SDGs)是联合国用于指导全球可持续性发展工作的新议程。各项目标之间的关联性,尤其是3级指标数据的相关性分析和研究,对于有效推动可持续发展目标的具体实施具有重要意义。本文基于《可持续发展报告2020》中联合国全 ...
    本站小编 Free考研考试 2022-01-02
  • 1987–2017年青海湖水体边界数据集
    摘要&关键词摘要:本研究基于地理空间数据分析云平台GoogleEarthEngine(GEE),使用Landsat影像进行像元级融合,重构目标年份最小云量影像集。基于水体指数方法,经过人工修正和精度验证,获得了1987–2017年11期青海湖水体边界数据集。数据集时间序列较长且包含湖泊面积等属性信息 ...
    本站小编 Free考研考试 2022-01-02
  • 华南板块古生代维管植物数据集
    摘要&关键词摘要:陆生维管植物在古生代中期的起源和辐射演化对地球环境产生了深远的影响。古生代期间,华南板块位于低纬度地区,与其他古大陆相对隔离,维管植物的多样性高,且面貌独特。本数据集共享了华南古生代维管植物的分类单元名录、大植物–孢粉化石产出的地理和地层分布信息,以及421种植物的营养或繁殖器官形 ...
    本站小编 Free考研考试 2022-01-02
  • 青藏高原东部典型林灌交错带地被物和土壤持水量数据集
    摘要&关键词摘要:森林地被物层(枯落物和苔藓)和土壤对森林生态系统水源涵养和水文调节等服务功能的发挥起着关键性作用。位于青藏高原东部的岷江源头区森林水源涵养功能变化对整个岷江流域,乃至长江上游的生态环境建设与水资源安全保障都有重要意义。通过野外调查和室内分析实验,本数据集整合了岷江源头区一个典型的针 ...
    本站小编 Free考研考试 2022-01-02
  • 2004–2010年当雄高寒草甸碳水通量观测数据集
    摘要&关键词摘要:青藏高原地理环境独特,为研究高海拔、高寒生态系统碳水循环提供了良好的实验平台。但由于自然条件的限制,青藏高原腹地碳水通量的研究还比较欠缺,迫切需要对其进行长期的数据监测及整理。本数据集为高寒草原化草甸生态系统2004–2010年通量观测数据,数据采集地位于青藏高原腹地的中国科学院当 ...
    本站小编 Free考研考试 2022-01-02
  • 2009–2013年哀牢山亚热带常绿阔叶林碳水通量观测数据集
    摘要&关键词摘要:本研究以哀牢山亚热带常绿阔叶林生态系统为研究对象,利用涡度相关技术,开展亚热带常绿阔叶林生态系统碳水通量长期定位观测。哀牢山生态站作为国家野外台站和中国生态系统研究网络的基础观测站点,基于中国通量观测研究网络(ChinaFLUX)数据处理体系,整理了2009–2013年哀牢山亚热带 ...
    本站小编 Free考研考试 2022-01-02
  • 2013–2015年元江干热河谷生态站碳水通量观测数据集
    摘要&关键词摘要:本研究以元江干热河谷稀树草原生态系统为研究对象。采用涡动相关(EC)系统,开展稀树草原生态系统碳水通量长期定位观测。元江站作为我国第一个干热河谷生态系统研究站,基于中国通量观测研究网络(ChinaFLUX)数据处理体系,整理了2013年5月到2015年12月元江稀树草原生态系统通量 ...
    本站小编 Free考研考试 2022-01-02
  • 2010–2014年西双版纳橡胶林碳水通量观测数据集
    摘要&关键词摘要:在气候变化的背景下,人工林的碳汇能力和固碳潜力受到越来越多的关注。由于社会和经济发展的需要,橡胶林在我国的种植面积不断扩大,已然成为我国热带地区最重要的人工森林生态系统。这种土地利用方式的变化必然会影响区域水文、气侯和碳–水循环。涡度相关技术是当今世界上最先进、最广泛而精确的研究物 ...
    本站小编 Free考研考试 2022-01-02
  • 2003–2010年西双版纳热带季节雨林碳水和能量通量观测数据集
    摘要&关键词摘要:碳水通量是生态系统与大气间碳水交换量,是量化生态系统功能及其对全球气候变化的重要参数。热带季节雨林是我国重要的生态系统类型,在区域气候调节、碳汇吸收中具有重要作用。西双版纳生态站是中国生态系统观测网(CERN)和中国通量观测研究网络(ChinaFLUX)的基础观测站点,基于涡度相关 ...
    本站小编 Free考研考试 2022-01-02
  • 2003–2010年内蒙古锡林浩特典型草原碳水通量观测数据集
    摘要&关键词摘要:涡度相关技术使精确测定生态系统尺度上的水热通量和CO2通量成为可能,其观测数据是有关碳水循环模型开发和验证、精确估算生态系统碳源/汇和水分平衡所需数据的重要来源。本数据集为中国通量观测联盟(ChinaFLUX)首批观测站点内蒙古站(位于中国科学院内蒙古草原生态系统定位研究站1979 ...
    本站小编 Free考研考试 2022-01-02