裴韬1,2,, 刘亚溪1,2, 郭思慧1,2, 舒华1,2, 杜云艳1,2, 马廷1,2, 周成虎1,2
1. 中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101
2. 中国科学院大学,北京 100049

Principle of big geodata mining

PEITao1,2,, LIUYaxi1,2, GUOSihui1,2, SHUHua1,2, DUYunyan1,2, MATing1,2, ZHOUChenghu1,2
1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101, China
2. University of Chinese Academy of Sciences, Beijing 100049, China
国家自然科学基金项目(41525004, 41421001)
裴韬(1972-), 男, 研究员, 博士生导师, 主要从事地理大数据挖掘研究。E-mail: peit@lreis.ac.cn



This paper reveals the principle of geographic big data mining and its significance to geographic research. In this paper, big geodata are first categorized into two domains: earth observation big data and human behavior big data. Then, another five attributes except for "5V", including granularity, scope, density, skewness and precision, are summarized regarding big geodata. Based on this, the essence and effect of big geodata mining are uncovered by the following four aspects. First, as the burst of human behavior big data, flow space, where the OD flow is the basic unit instead of the point in traditional space, will become a new presentation form for big geodata. Second, the target of big geodata mining is defined as revealing the spatial pattern and the spatial relationship. Third, spatio-temporal distributions of big geodata can be seen as the overlay of multiple geographic patterns and the patterns may be changed with scale. Fourth, big geodata mining can be viewed as a tool for discovering geographic patterns while the revealed patterns are finally attributed to the outcome of human-land relationship. Big geodata mining methods are categorized into two types in light of mining target, i.e. classification mining and relationship mining. The future research will be facing the following challenges, namely, the aggregation and connection of big geodata, the effective evaluation of mining result and mining "true and useful" knowledge.

Keywords:spatial pattern;spatial relationship;spatial distribution;flow space;spatio-temporal heterogeneity;knowledge discovery

裴韬, 刘亚溪, 郭思慧, 舒华, 杜云艳, 马廷, 周成虎. 地理大数据挖掘的本质[J]. 地理学报, 2019, 74(3): 586-598
PEI Tao, LIU Yaxi, GUO Sihui, SHU Hua, DU Yunyan, MA Ting, ZHOU Chenghu. Principle of big geodata mining[J]. Acta Geographica Sinica, 2019, 74(3): 586-598

1 引言

早在30年前,计算机领域的研究者就已经预见到海量数据将会给计算机科学及其他学科的发展带来的挑战与机遇,提出了“数据挖掘”一词。1995年,李德仁院士率先倡导从GIS数据库中发现知识[1]。之后,Harvey等提出“地理数据挖掘与知识发现”(Geographic Data Mining and Knowledge Discovery)[2],标志着地理学与数据挖掘技术的实质性交叉,地理数据挖掘作为发现地理学规律的重要手段,已被地理****所承认。然而,之后的10多年里,地理数据挖掘虽在方法研究中取得了显著的进展,但对地理学领域新知识的揭示仍未取得令人信服的成就。随着大数据时代到来,一系列重量级的研究相继涌现:基于手机数据的人类行为预测[3]、利用搜索引擎对流感的预测[4]以及深度学习算法对于人类思维能力的挑战[5,6]等。这些发现不仅颠覆了传统的认识,更为重要的是,它们证明了大数据对于科学发现的潜在推动力。

2 地理大数据的内涵及外延

大数据虽已成为当前学界的热词,但关于大数据内涵以及外延的界定一直未有定论。实际上,给大数据以确切定义其意义并非在于明确地圈定哪些数据属于大数据,而是在于指导如何进行大数据分析以及如何在应用中避免大数据的局限性。Mayer-Schonberger等曾经在《Big Data: A Revolution That Will Transform How We Live, Work, and Think》中给出了大数据的价值(Value)定义[7],Marr总结出大数据的“5V”特征[8],即:Volume(大量)、Velocity(更新快)、Variety(多样)、Value(价值)、Veracity(真实性)。大数据的产生主要源于传感器、网络和计算技术的突破,因而体现出数据量大、更新快以及种类多(前3个“V”)的特征;而另一方面,大数据的获取多为传感器用户的自发性上传(如微博和微信数据的获取)或非目的性记录(如手机信令、公交刷卡记录等),如以数据产生的主体为研究对象,则此大数据当属非目的性的观测数据,故通常含有大量噪声,最终导致价值密度低、真实性差(后2个“V”)的特征。其实,“5V”的刻画也仅仅是大数据的表象,并非大数据真正的定义。
本文中,大数据的本质被认为是针对研究对象的样本“超”覆盖,当然,此处并非指完全没有遗漏的样本覆盖,而是指超出目的性采样(也可称为“小数据”)范畴的、趋向于全集的信息获取(只有在极端情况下,“超“覆盖才可能是全集样本)。大数据的本质所导致的这种信息覆盖,突破了目的性和局部性的传统采样的局限,必然带来思维方式和认识上的变革。由此可以推论,地理大数据就是针对地理对象的“超”覆盖样本集,此处的“超”覆盖涉及时间、空间与属性维度。同样地,地理大数据也具备“5V”特征,但地理大数据同时还具有自己独特的性质,这将在后面的章节进一步论述。地理大数据的内涵至少表明,其辨识度集中体现在以下两点:① 地理大数据与其他大数据之间的差别在于是否具有时空属性;② 地理大数据与小数据的区别在于样本的覆盖度。

3 地理大数据的特征


3.1 时空粒度

如果将地理信息承载单元的大小称为粒度,那么地理大数据的出现,则让地理信息的承载粒度由大变小。由于不同类型大数据的获取方式不同,因此粒度对于不同数据的含义也不一样。在对地观测大数据中,粒度是指数据所代表的(地表)范围大小,粒度的变化体现在由对地观测大数据反演得到的地物单元不断地细化。例如,城市影像分辨率的提升使得由其反演得到的地物单元从粗粒度的地块细化到具体的建筑。而在人类行为大数据中,粒度是指记录和统计单元的大小[9],粒度的变细表现为用以记录和统计的单元的缩小。以人口统计为例,中国实施的人口普查方案中,普查小区为人口统计的最小粒度。普查小区在城市中多为街道的尺度,而在农村中则为乡镇的级别。普查小区的大小范围从几平方千米到几十平方千米,某些区域甚至更大。而手机数据的应用,为人口的精细化估计提供了可能。图1即为利用北京市手机用户数据进行精细人口估计的结果[10]图1中人口信息的基本单元为基站小区(可近似为以手机基站位置划分的泰森多边形)。在城市人口的密集区,基站小区的尺度约为200 m左右。同样,利用浮动车轨迹数据针对城市道路拥堵状况的评估可以精细到任意时刻和任意路 段[11,12,13];融合微信请求数据、出租车定位数据、兴趣点(Point of Interest, POI)数据以及Quickbird高分影像可以将城市功能区的识别粒度细化至建筑物[14];利用住户智能水电表信息可以对年龄、工作状态和收入的估计细化到家庭[15]。地理大数据粒度的精细化可以使我们从微观的角度观察地理现象,为研究其细部特征和机理提供了新的可能性。
-->Fig. 1Fine-grained population estimation using mobile phone data

3.2 时空广度

传统的地理小数据因受到信息获取手段和成本的限制,往往只能集中于局部的区域,或者需要在研究粒度与范围之间进行权衡,即在选择较大范围的同时不得不采用较粗的粒度。而在大数据时代,部分IT公司借助互联网的优势,可获取较大范围,甚至全国直至全球范围内的数据及其衍生的产品,同时又保持较小的时空粒度,从而使其研究范围在“豁然开朗”的同时又保持着“高清晰度”。对地观测大数据中全球性的数据产品已涉及多个研究领域,如全球夜光遥感数据产品[16],国产30 m分辨率的全球土地利用数据[17],全球长时间序列叶面积指数产品[18]等。而在人类行为大数据中,数据覆盖范围之广也是前所未有:百度发布的全国(不含港澳台地区)春运人口迁徙图(http://qianxi.baidu.com),滴滴发布的全国出租车(不含港澳台地区)运营状态图(https://www.didiglobal.com/)、Facebook发布的全球用户网络(http://fbmap.bitaesthetics.com/)等。地理大数据提供了观察大尺度下地理现象和规律的可能性,为研究全球变化、宏观社会行为提供了宝贵的素材。

3.3 时空密度

由于成本的原因,传统的地理学研究对于地理现象的观测除了受限于范围的局部性,样本的密度也相对稀疏。因此,在有限样本基础上进行地理现象的刻画通常需要借助空间估计和推断的方法,如克立格插值[19,20]、地理加权回归[21,22]、环境因子模型[23,24]等。由空间统计方法获得的分布特征,虽然可通过空间相关性在一定程度上弥补样本稀疏的缺憾,但估计的结果毕竟无法取代属性的真实分布。与此相反,地理大数据的基本特征之一就是面向地理对象的高密度样本。在对地观测大数据中,数据的密度是随着粒度的变细而不断增加的。随着传感器分辨率的提升以及无人机等技术的广泛应用,影像像素分辨率不断提高,使得像素密度相应增加,混合像元信息不断裂解细化,导致像元所代表的信息更加精细;随着全球对地观测台网的逐步升级,对地监测的台站数目也不断增加,其中,气象台站从20世纪60年代的8000多个[25]增加到现在的超过100000个[26],平均密度已达每1490 km2就有1个观测站;对海洋观测的Argo浮标从2000年开始布设,数目已增加到2018年7月的3762个[27]。相比于人类行为大数据,以问卷调查得到的传统“小数据”虽然粒度也小,但密度很低,而以手机通话和信令为代表的大数据,用户已覆盖了城市的大部分人口,与此类似的还有腾讯的QQ及微信用户。随着智能卡和互联网应用的普及,人类行为大数据中样本的密度也越来越高。地理大数据样本密度的提升使得对地理现象的观测更加细致与逼真。

3.4 时空偏度


3.5 时空精度

地理大数据另一个不容忽视的缺陷是其精度较差。精度问题在空间数据中普遍存在,而地理大数据的精度问题尤为突出,有时甚至会影响到计算结果的可信度。对地观测数据中的精度问题已经为众多研究所揭示[31,32,33],在此不再赘述。对于人类行为大数据,由于其在获取过程中的被动性(例如,用于估计城市精细人口的手机信令数据并非为估计人口而设计收集)和自发性(例如,用于度量城市心情的微博数据由用户自发上传),数据中往往充斥着各种类型的误差,这种误差同样会存在于空间、时间以及属性中。以手机信令数据为例,由于城市建筑物的遮挡以及基站容量的限制,手机在通话时并不一定与其最近的基站发生通信,此时若将用户位置归于最近基站的小区内,则会产生空间误差。同样,在社交媒体数据中,用户所上传的事件位置、时间和文本内容,往往并不能代表事件发生的真实状况。因此,与目的性采样的小数据不同,地理大数据中的误差除了技术原因之外,很多源于数据产生主体的不可控因素,有时甚至是一些主观故意造成的时空位置信息的改变[34]。地理大数据中误差的存在,往往会引发认识的偏差,甚至导致谬误的发生,谷歌公司对于流感预测的成功与失败就是例证[4, 35]

4 地理大数据挖掘的核心问题

数据的价值在于隐匿其中的规律[36,37,38],而数据挖掘的主要目的就是发现其中的知识。对于地理大数据所蕴藏的地理特征,数据挖掘方法如何应对?本文认为以下4个方面需要重点关注。① 对地观测大数据的获取是以对客体的观测为主要方式,故数据易于结构化,而人类行为大数据以主体记录为主,由记录产生的数据结构复杂、特征多变、类型多样,因此,如何进行表达成为地理大数据挖掘的前提。② 地理大数据繁冗复杂,需要确定挖掘的目标及其本质,唯此,地理大数据挖掘方有可能发展成为地理信息科学的分支乃至独立的学科。③ 由于地理大数据所具有的粒度、广度和密度等特征,地理现象从微观到宏观诸多尺度特征贯穿于地理大数据中,这是传统小数据所无法比拟的,因此,需要阐述清楚在挖掘过程中如何处理地理大数据内含的尺度性。④ 面对当前地理学研究的重要素材——地理大数据,有必要弄清地理大数据挖掘与地理学之间的关系,尤其是地理大数据挖掘在地理学的发展中能够起到何种作用。

4.1 地理大数据的表达:位空间和流空间


4.2 地理大数据挖掘的内容:模式与关系

本文将地理数据挖掘的目标定义为寻找地理对象之间、地理对象与环境之间存在的规则和异常。据此,地理大数据挖掘的内容也分为两个部分:① 地理时空模式的挖掘,其本质是发现地理对象的分布规则与时空分布;② 地理时空关系的挖掘,其本质是发现地理对象与不同环境因子之间的关系。由于地理大数据的特点,挖掘内容较之“小数据”也有所改变。
4.2.1 地理时空模式 地理学中目前公认的定理是空间相关性与空间异质性定理[44,45]。两个定理表述的意义看似相向,但实际是从两个侧面共同描述了地理现象:相近者相似,但彼此相异。在位空间中,地理学第一定律表现为属性相似度与距离的关系,而异质性则表现为空间上的非平稳性。在流空间中,空间相关性表现为空间网络结构的存在,即具有相近起点和终点的流构成了位置之间的联系,且联系的强度与距离等变量相关;而异质性则表现为不同单元之间流的差异性。地理大数据时空模式挖掘的本质是揭示地理对象因时空相关与异质性而形成的“异—同”规则及由此产生的时空分布。所谓“异”,是指地理对象之间的差别,而“同”则是指不同对象的共性。以地震数据的模式挖掘为例,一方面,需要确定提取丛集地震的“异—同”规则,从而将其与背景地震区分开来,并判别它们各自的统计分布类型(如泊松分布或威布尔分布等);另一方面,在找出“异—同”规则的基础上,还要确定丛集地震和背景地震的空间分布范围和特征。前者属于“异—同”规则的推断,“同”类地震属于相同的统计分布,相“异”的地震分属不同的统计分布;后者属于时空分布的提取,而实际上,丛集地震和背景地震的时空分布可视为时空相关和异质性定律综合、直观的反映。针对时空模式,传统地理数据挖掘的主要任务包括:时空异质性的判别、地理时空异常模式的提取、空间分布模式的识别、地理时空演化趋势提取等。地理大数据所带来的改变集中体现在模式的类型及尺度两个方面:对于模式的类型,除了传统的栅格、要素、场的异质性与分布之外,地理大数据挖掘将更加关注序列、流与网络的结构与异质性等复杂模式;对于模式的尺度,由于具有的粒度、广度与密度的特征,地理大数据的挖掘将会产生更宏观、更综合、更精细的模式。
4.2.2 地理时空关系 地理对象与环境因子之间通常表现为相关或关联关系。相关关系通常用以刻画地理对象属性与环境因子之间的定量关系,例如:铅污染的程度与高速公路的远近[46];而关联通常描述地理对象同时出现或存在的某种依赖关系,例如:盗窃与入室抢劫案件之间的关系[47]。地理时空关系中通常蕴藏着两方面的因素,以铅污染与高速公路之间的关系为例,一方面是变量之间的作用机制,即高速公路上汽车的尾气排放导致周围土壤中铅含量增加;而另一方面是这种土壤铅含量的变化与污染源远近之间的关系,即距离高速公路越近,铅的含量越高。针对时空关系的挖掘,地理大数据所带来的改变主要体现在关系的类型以及关系的转换上。一方面,变量之间关系的类型更加多样和复杂,非线性、不确定性及多元的时空关系成为大数据挖掘的重点之一[48];另一方面,除了同类型空间下的时空关系挖掘,不同类型空间(如:社交空间、现实空间、情感空间)之间信息的反演与延伸成为大数据挖掘的主要特点之一,由此而导致的关系的转换也成为大数据思维的核心体现,例如:通过遥感数据反演经济状况[49]、利用搜索热词预测流感趋势[4]、应用手机数据反演城市土地利用[50]等。

4.3 地理模式的内在结构:尺度与叠加

-->Fig. 2Transformation between homogeneity and heterogeneity of geographical point processes at difference scales (a. heterogeneity at large scale; b. homogeneity at small scale)


4.4 地理大数据挖掘的知识—地理模式背后的人地关系


5 地理大数据的挖掘方法


6 结论

The authors have declared that no competing interests exist.

