区域性、综合性、复杂性是新时代地理学的三大特征,其中复杂性研究是地理学飞跃的新路径。熵作为系统复杂性的核心指标,其研究、推广和应用对新时代的地理学有着重要意义。近年来地理学中熵的研究热点为玻尔兹曼熵(玻熵)。玻熵的概念最早提出于1872年,是著名的热力学第二定律的核心,但玻熵在地学的应用长期停滞在探讨层面。其瓶颈在于缺乏针对空间数据计算玻熵的模型和方法,但该瓶颈在近5年得以突破。本文从玻熵的热力学概念与地理学推广难题、空间数据的玻熵计算模型、计算方法、实际应用4个方面进行及时且系统地综述。主要结论有:① 目前的研究热点集中在空间栅格数据的玻熵,已研发出针对定性和定量型栅格数据的计算模型;② 算法百家齐放,已呈现出基于边缘总长度、基于Wasserstein距离、基于多尺度层次的三大类算法;③ 已形成景观生态学和遥感图像处理两类应用;④ 未来研究需重视针对更多类型的空间数据的算法、使用玻熵替代香农熵验证先前研究中的结论、拓展玻熵应用等。
关键词: 空间数据;玻尔兹曼熵;香农熵;空间信息论;景观生态学;区域可持续性

The field of geography has three unique characteristics, namely, regionality, integration, and complexity. Among them, complexity has become increasingly crucial to geography in the current era. Entropy is a key concept and an indicator of the complexity of a system; thus, the research and application of entropy play a fundamental role in the development of geography. During recent years, Boltzmann entropy (i.e., thermodynamic entropy) has emerged as a research hotspot in the entropy for geography. Proposed as early as the year 1872, it is the core of the well-known Second Law of Thermodynamics. However, its application in geography had remained at a conceptual level for lack of computational methods with spatial data. Fortunately, much progress has been made globally towards computing and applying spatial Boltzmann entropy (i.e., the Boltzmann entropy of spatial data). This paper aims to perform a comprehensive review of such progress, in terms of the thermodynamic origination of Boltzmann entropy, the difficulties in applying it to geography, computational models and algorithms of spatial Boltzmann entropy, and all the applications up to now. Four major conclusions can be drawn as follows: (1) The current focus of research is placed on the Boltzmann entropy of spatial raster data. Models have been developed for computing Boltzmann entropy with both qualitative and quantitative raster data. (2) Many algorithms have been developed and can be classified into three categories, namely total edge-based, Wasserstein distance-based, and multiscale hierarchy-based. (3) It has witnessed two groups of applications of spatial Boltzmann entropy to geography, namely landscape ecology and remote sensing image processing. (4) Future research is recommended to develop algorithms for more types of spatial data, validating previous conclusions drawn using Shannon entropy, and extending the applications of spatial Boltzmann entropy.
Keywords:spatial data;Boltzmann entropy;Shannon entropy;spatial information theory;landscape ecology;reginal sustainability

空间玻尔兹曼熵的研究进展与应用. 地理学报[J], 2021, 76(7): 1579-1590
GAO Peichao, CHENG Changxiu, YE Sijing, SHEN Shi, ZHANG Hong. The review and applications of spatial Boltzmann entropy. Acta Geographica Sinice[J], 2021, 76(7): 1579-1590 doi:10.11821/dlxb202107001

1 引言

地理学通常被称为是研究世界的学科(The World Discipline/Subject)[1,2],旨在通过综合普适的或多个专门的定律、模型、指标等途径来刻画和理解地球关键带[3](陆地表层、河流湖泊、海岸带及近海海域等)的地理要素(包括自然与人文)及其综合体(即区域系统)的时空格局、演变过程、动力机制[4,5,6,7]。这些途径有著名的地理学三大定律、地理加权回归、地理探测器[8]等。熵作为热力学中解译世界变化的工具,也长期在地理学中扮演着重要角色。熵是复杂系统的核心指标,而地理学的新时代特征是复杂性[9,10],因此熵的研究愈发得到重视,对新时代地理学意义重大。



然而,香农熵的使用带来了难以解决的困境。首先,通过香农熵而获得的热力学解译在近年来被严重质疑。例如,Vranken等****[11]发现:基于香农熵测定的空间异质性与热力学毫无关联、香农熵尺度依赖性的热力学解释与复杂理论相悖、基于香农熵的不可预测性只在特定条件下与热力学有关。美国地理学家Cushman将这些发现评论为“令人震惊”的,并呼吁重返玻熵[26]。其次,香农熵无法完整地刻画空间数据的信息量(或无序)。香农熵的设计初衷为刻画通讯信号(例如电报)的信息量,仅考虑了信号中不同成分的占比(或称为信源产生该成分的概率),因此也被广泛地称为统计信息量。在仅考虑统计信息时,香农熵和玻熵存在数值转换的可能性。而空间数据的信息量不仅在于成分的占比,更在于组分和配置。尽管学术界对香农熵算法做出了多种改进[27],但依然效果欠佳。因此,越来越多的****认为2种熵具有本质的不同。景观生态学界认为,2种熵仅是形式相似[11, 28],生物学界[29]和物理学界[30]均有类似观点。实际上,Shannon本人也曾明确其熵并非推导自玻熵[31],2种熵仅在特定条件下才可互转[32]


2 玻熵的概念模型与计算难题




Fig. 1A closed container and its 8 microstates (macrostate: it contains three gas molecules)


式中:S即系统的玻熵;W是宏观态所对应微观态的个数;kB是玻尔兹曼常数取值为1.3807×10-23 J/K。图1中所示的密闭容器具有8种微观态,因此玻熵为kB log8。

玻尔兹曼公式简洁,但其在地理学中的应用长期停留在探讨层面[11, 26]。应用瓶颈在于计算困难,具体原因有:① 缺少通用、普适的宏观态定义方法,如美国社会学家Bailey所言“玻熵尽管重要,但物理学领域外的****缺少宏观态的定义方法,例如,如何定义一块景观格局的宏观态?”[34]② 即便宏观态有了良好的定义,微观态数的实验测定亦难实现,理论推导缺少方法[35]

3 空间玻熵的计算模型



3.1 针对定性型栅格数据的计算模型

空间玻熵的计算思想最早是针对定性型栅格数据提出的。2016年Cushman通过类比热力学中的算例,首次提出了针对景观镶嵌体的玻熵计算思想——基于边缘总长度(景观格局指数Total Edge, TE)的计算模型[37]。该模型使用了5项(组)宏观参数,分别是几何范围、细胞(景观镶嵌体的基本单元)的类型数、各类型的占比、分辨率(或细胞总数)、TE。微观态定义为细胞的空间配置,个数通过穷举法获得。

图2a中的景观镶嵌体为例,其几何范围为绿色和粉红色区域,共有2类、5个细胞。其中类型1的细胞有2个、类型2有3个,边缘总长度为2。微观态的穷举过程如下:首先,在保持除TE外的所有宏观参数不变的条件下,穷举细胞的空间配置方式,如图2b~2k所示。然后,统计与原景观镶嵌体具有相同TE的穷举结果个数,此处为3。此个数即微观态数,可代入玻尔兹曼公式求解玻熵,得到 kBlog3



Fig. 2A landscape mosaic (a), possible configurations (b-k), and the corresponding total edges (TE)

该计算模型的优点是宏观态的定义对所有定性型栅格数据具有普适性,宏观参数均可快捷地计算。其缺点是,微观态数的计算方法缺乏可操性。在栅格数据的尺寸较大时,穷举结果数可能是天文数字。例如,设栅格数据的大小仅为100行100列,且仅包括2类、每类个数相同的细胞,则穷举结果的理论个数高达 C100005000,实际实现难度大。





该修正版在本文中被命名为基于斑块的计算模型,其优点是具有解析形式,缺点有:① 修正之后的计算模型所对应的宏观态定义不明确;② 在实际计算中容易因数值较大的阶乘运算产生数值溢出的问题,如假设栅格数据的大小仅为10行10列,公式(4)中首项中包括的阶乘数值高达9.3326×10157

3.2 针对定量型栅格数据的计算模型




Fig. 3The multiscale hierarchy of a quantitative spatial raster data

具体而言,定量型栅格数据的宏观态定义为其多尺度层次表达结构中与原表达最相似的层次。多尺度层次表达结构通过制图综合中的升尺度(Up-scaling)操作获得。为了使层次尽可能得丰富,升尺度操作中采用大小为 2×2的窗口对栅格数据进行滑动均值化。宏观参数定义为窗口中所有细胞(针对定量型数据也称像素)的最大值、最小值、平均值(或和值)。微观态的求取方法是对综合的过程求逆,即在宏观参数限定的情况下将宏观态降尺度(Down-scaling)至原分辨率(图4),结果的个数即为微观态数。可见,该模型实际上是通过刻画尺度变换中的不确定性反映无序程度,统一了熵、无序、不确定性等概念。



Fig. 4The core idea in computing the Boltzmann entropy of a quantitative spatial raster data




Fig. 5Relative (SR) and absolute (SA) Boltzmann entropies

4 空间玻熵的算法

以上述3种模型为蓝本,学术界分别发展了3类具体的计算途径:基于TE的算法[37, 40]、基于Wasserstein距离的算法[38, 41]、基于多尺度层次的算法[39, 41-45]。在实现过程中,由于技术考虑,有些算法甚至已经脱离了原模型的核心思想。

4.1 基于TE的算法

实现TE计算模型困难的关键在于穷举数据趋近于无穷大,难以获得穷举结果的集合(即统计学中的整体)。因此,Cushman[40]提出使用样本集代替整体:不再测定整体中具有给定TE的个体数(W),而是通过测定样本集中具有给定TE的个体占比来估算 W。在此基础上,提出2种算法及基于随机排序的样本集生成方法[40]

假设栅格数据的行列数分别为 NrNc,方法原理可表述为:① 设立一定的映射关系,将栅格数据转换为长度为 Nr×Nc的单维序列;② 随机地重排该序列中的元素;③ 将此序列按照原映射关系还原为栅格形式,形成新的栅格数据;④ 将前述过程重复足够多的次数( Nmax),形成 Nmax个新的栅格数据作为样本集。

在获得上述样本集后,需统计与原栅格数据拥有相同TE的样本个数,并最终将个数转换为占比( PTE')。基本算法如下式所示:

注意 S'是负数,因此 S'并非严格意义上的 S估算。由于 PTE'的数值取决于样本集的大小( Nmax),因此Cushman也将 S'命名为相对熵。

基本算法中采用样本集代替了整体,降低了穷举的难度,但在栅格数据尺寸较大时穷举依然困难。Cushman在处理尺寸为 16×16的栅格数据时,采用的 Nmax数值高达10万,并建议在栅格数据尺寸增大时持续地增加 Nmax的数值。然而,栅格数据尺寸的增长所带来的穷举结果将呈现指数型增加。因此,Cushman提出了改进算法:

式中: te表示原栅格数据的TE; μσ分别表示所有样本的TE之均值和标准差;e表示自然数。从式(6)可见,改进算法的原理是假设所有样本的TE服从正态分布,然后基于正态分布预测样本集中TE与原栅格数据相同的个体占比。需要说明是,虽然改进算法能避免无限制地增加 Nmax,但依然需要数量相当的样本用于估计均值和标准差。

4.2 基于Wasserstein距离的算法



由于 a1,a2,?,ax均为整数,故可视为对数项 log1,log2,?,logx的频率分布。

对于任何栅格数据,公式(4)中的第2项、第2项均能转换为如公式(8)所示的频率分布(分别记为分布 C和分布 S)。但频率分布并非指标,无法进行方便的对比。于是,Zhao等引入了Wasserstein距离(又称为Wasserstein metric、Earth-Mover距离)。该距离是最优传输理论中的核心概念[46],用于表征将原概率分布转换为新概率分布所需的最小传输质量,通俗地理解为2个分布间的距离。为了利用Wasserstein距离,Zhao等首先将分布 CS均转换为概率分布(记为 φcφs),具体方法为将 a1,a2,?,ax均除以它们之和。然后,分别计算 φc和类狄拉克分布( δ)的Wasserstein距离 dφc,δφsδ的Wasserstein距离 dφs,δ。最后,玻熵计算如下:

需要说明的是,首先,Wdis与玻尔兹曼公式已无关。此外,在Zhao等的原文中,斑块仅基于四邻域系统(von Neumann邻域)定义。实际上,斑块也可基于八邻域系统(Moore邻域)定义[47,48],并在后续研究中被证明效果更好[41]

4.3 基于多尺度层次的算法

针对定量型栅格数据,学术界开发了2种基于多尺度层次的算法:重采样(Resampling-based)[39]和聚合(Aggregation-based)[44],分别是原计算模型(3.2节)的直接实现和改进实现。2种算法的核心原理相同,均基于大小为 2×2的滑动窗口完成多尺度层次结构的创建,区别在于滑动窗口的步长。在重采样算法中,步长为单个细胞的边长(图6);而在聚合算法中,步长为滑动窗口的宽度。2种算法各有优劣,总结如下:



Fig. 6Resampling-based algorithm for computing Boltzmann entropy

(1)重采样算法适用于计算任意大小栅格数据的相对熵和绝对熵。但在计算相对熵时,计算量较大(由重采样法生成的多尺度表达层次较多),且计算结果不具有完全的热力学一致性(Thermodynamic Consistency)[44]


为解决上述2种算法存在的问题,学术界做出了诸多努力。例如,为提高算法效率,后续研究中推导了微观态数的解析解,并提供了并行算法[42]。也有****基于头尾分割法(Head/tail Breaks)发展了一种快速估算绝对玻熵的算法[49,50,51]。此外,Nowosad提出了滑动窗口中包括空值时的微观态数求解法[45],使得上述2种算法可适用于不规则的栅格数据、点格局(Point Patterns),例如空气质量监控站点的分布等。

5 空间玻熵的应用


5.1 在图像处理中的应用

从理论上而言,玻熵在刻画空间信息时比香农熵具有绝对优势。该优势在图像处理中已得到证明。例如,2019年的研究基于玻熵刻画灰度图像的相似性,进而将玻熵应用于高光谱遥感图像的高效降维(波段选择)[52]。该研究获得以下结论:① 基于玻熵的指标能够完整地刻画图像相似性(同时刻画组分和配置),且效果优于目前所有基于香农熵的指标;② 基于玻熵的波段选择算法优于所有基于香农熵的算法。使用基于玻熵选择的波段进行图像分类实验时,分类精度比基于香农熵的算法最高可优化27%。


5.2 在景观生态学的应用

空间玻熵的计算突破后,地理****迅速讨论了玻熵的景观生态学应用[40, 55-57]。中日两国****认为玻熵可用于日本里山(Satoyama)景观的生物多样性与生态系统服务评价[57]


6 讨论


玻熵作为通往热力学的桥梁,应广泛地用于区域景观变化动力学的机理探究和土地利用可持续性的评价。例如,在中国2017年启动的第二次青藏高原综合科学考察研究中,重点目标包括研究青藏高原环境演变背后的机理、探究人类活动对青藏高原的影响等。通过长时间序列地理数据的玻熵变化趋势计算,可为这些目标的实现提供不同的视角和新颖的观点。读者或许会疑惑:热力学的经典适用范围是与外界无能量交换的、独立封闭的系统,但青藏高原是非封闭系统、与外界存在着明显的能量交换,如何使用玻熵建立对青藏高原的热力学认知?实际上,诺贝尔奖获得者Prigogine[62]的耗散理论(Dissipative Theory)已将热力学的适应范围扩展至与外界存在频繁能量交换开放系统。从开放系统和熵的角度来看,实现可持续发展的青藏高原是指系统内部玻熵较低、能且持续保持的热力学系统,而实现高质量发展的青藏高原是指有能力接纳外部输入玻熵的热力学系统。


7 结语

最近5年地理学界在空间玻熵研究方面取得了系列进展,实现了自1872年玻熵的概念提出后、针对空间数据的首次计算,并形成实际应用。本文对这些进展进行了及时且系统综述。主要结论:① 目前的研究热点集中在空间栅格数据的玻熵,已研发出针对定性和定量型栅格数据的计算模型;② 算法百家齐放,已呈现出基于TE、Wasserstein距离、多尺度层次的3大类算法;③ 已形成景观生态学和遥感图像处理2类应用。


