中国地质大学(武汉)公共管理学院,武汉430074
Application of random forest algorithm in suitability evaluation of rural residential land
XUFeng, WANGZhanqi, ZHANGHongwei, CHAIJi通讯作者:
收稿日期:2018-04-27
修回日期:2018-08-28
网络出版日期:2018-10-25
版权声明:2018《资源科学》编辑部《资源科学》编辑部
基金资助:
作者简介:
-->
展开
摘要
关键词:
Abstract
Keywords:
-->0
PDF (16191KB)元数据多维度评价相关文章收藏文章
本文引用格式导出EndNoteRisBibtex收藏本文-->
1 引言
农村居民点用地是农村土地系统的重要组成部分,担负着承载农民居住与生活的主要功能,其布局既是农村各类活动共同作用的外部表现,又对农村各项事业的发展产生激励或制约[1]。近年来,随着中国新型城镇化的深入发展,农村人口非农化导致农业劳动力流失,引发居民点闲置、废弃,对农村人居环境产生广泛的负面影响[2],农村土地资源配置、尤其是居民点利用问题成为政府和学界的关注重点[3]。以提升农村土地利用效益为目标的土地综合整治工程中,部分地区过于追求居民点整理的形式与规模,忽视其再利用的适宜性问题,造成复垦后土地的二次抛荒[4]。如何促进居民点的合理、有序利用转型,减少农村土地资源与工程投资的浪费,成为新时期乡村振兴战略实施需要讨论的重要课题之一。农村居民点适宜性评价是指导农村居民点布局优化的前期工作之一,它通过定性分析与数学计算相结合的方式对居民点利用的适宜性程度进行评判和标记,为居民点用地的利用转型提供判断依据[5]。不断丰富和完善评价方法与手段,提高评价结果的科学合理性,实现对优化农村居民点布局方法的“优化”,有助于后续农村土地利用规划等工作的高质量开展,推动前述问题的解决。
近年来,鉴于乡村转型发展的迫切性和土地利用问题的复杂性,农村居民点适宜性评价研究积累了大量成果,已有研究主要从两方面不断深入:一是对评价指标体系的优化与丰富。在反映各类用地适宜性的传统指标(例如代表自然条件的高程、坡度等,代表区位条件的距道路、城镇最小距离等)基础上,针对研究区的特殊性或评价目标的偏向性,加入反映经济社会状态[6]、土壤质量[7]、特殊区位关系[8]、生态特性[9,10]、个人因素[11,12]、生活水平[13,14]、资源效率[15]等方面的指标因子;二是开展评价理论与方法的创新或改良。除土地利用评价领域常见的多因素综合法、综合指数法以外,新引入了灰色系统理论[8]、AVC理论[13]、生态位理论[9,14]、压力论[15]和物元模型[10]、聚类[11]、最小阻力模型[16,17]等方法。
综合已有成果,尚有一些问题未得到妥善解决:首先,在构建指标体系和设置指标权重的环节中尚无法避免人为主观干扰的介入,前者受到评价人员界定评价目标差异的影响,导致构建的指标体系不具普适性,后者则受制于参与人员的专业背景差异,引发权重赋值的偏差;其次,绝大多数已有方法忽略评价因子之间可能存在的复杂线性关系,未对此进行验证,造成评价结果中相关因子权重占比的隐性叠加。综合这两类问题,农村居民点适宜性评价研究亟待从方法上取得新的突破。
近年来,信息科学领域兴起的机器学习理论与方法为解决上述问题带来宝贵机遇。机器学习是基于计算机资源、利用统计学理论方法在大型数据集中发现少量已知样本所形成的模式或规律(模型训练),运用该模式或规律构造的模型来预测大量未知数据集(模型应用)的自动化或半自动化过程[18]。事实上,机器学习方法已在土地科学领域进行了广泛运用,包括土地覆盖分类[19]、土壤特征分析[20,21]、农业地力评估与抛荒地识别[22,23]、城市扩张[24]、资源与生态安全评价[25,26]等等。它们在评估、验证并预测土地利用及其变化等方面展现出相较于传统方法的巨大优势。鉴于机器学习在农村居民点适宜性评价领域的应用尚属空白,本研究运用一种经典机器学习方法——随机森林算法,以湖北省房县为实证研究区,探讨机器学习方法在居民点适宜性评价领域应用的可行性,为该领域的理论与技术发展提供新思路。
2 研究方法
2.1 理论分析
如前文所述,传统的土地利用适宜性评价受到指标体系规模、权重分布和指标间相关程度等因素的影响,可能发生评价结果的“过拟合”。机器学习方法能够克服这类缺陷:首先,它基于“数据挖掘”思维,由小样本统计分析理论发展而来[27],通过非线性拟合建立已知样本的类别与对应特征值之间的关系,用以计算未知样本对应可能性最高的分类,将其作为预测结果。该方式减少对指标体系完备程度的过分要求,避开权重设置、数据量纲和指标间存在的复杂线性关系等干扰因素,提升结果的可靠性;其次,该方法具有一系列关于数据、模型和过程的优化策略,例如加入数据划分与交叉验证等环节,避免模型过拟合[28],并实现阶段性的精度自检验,又例如加入惩罚因子平衡训练模型复杂度,使得特征维度(即评价因子规模)发生剧烈变化时仍能保证结果的稳定性;再者,学习采样环节对样本状态实施标记、分类,使得后续分类预测“有据可依”,属于“绝对分类”,而传统评价方法下的分级结果或基于综合数值的区间划分、或基于与“最优解”的对比划分,多为“相对分类”,缺乏科学客观的参照标准。综合土地利用适宜性评价的目标与机器学习方法的特征,本研究认为:①机器学习基于相对较小规模的已知样本预测较大规模未知数据,这与基于抽样调查手段评估土地利用适宜程度、特定地类土地质量等土地评价研究的思路具有相似性,两者的结合在理论上具有可行性;②机器学习过程中的模型训练基于已知样本特性展开,基于评价目标合理定义、选取已知样本将对评价结果产生重要影响;③机器学习具备动态调整评价因子维度以寻求最适宜模型的能力,这将有助于评估相对最佳准确度,分析各因子对建模产生的影响。这是本研究需要关注和验证的主要内容。
2.2 随机森林算法
随机森林算法(Random Forest,简称 RF)是一种典型的机器学习方法[29],它是由多棵分类树 (Classification and Regression Tree,简称CART)组合形成的、非线性建模的学习机制,该机制运算效率、分类精度均较高,模型优化涉及参数少,具有极强的泛化性、稳健性。其基本原理为[30]:通过bootstrap抽样法从训练数据集则有Gini指数G为变异函数g(S1)和g(S2)的加权和:
在k个分类树构建出完整森林后,可用于对新的已知或未知数据进行验证或预测,它综合k个树各自的预测结果并采用投票方式决定该数据所属的类别,其数学表达式为[25]:
式中Cx为特征集合x对应的分类结果;k为分类树的数量;I()为示性函数(indicator function);
式中H(x)为森林分类模型;hi为第i棵分类树。另外,每次抽样会有部分数据未被选中,利用这些剩余的袋外数据(Out-of-bag,简称OOB)可进行内部误差估计,即每棵分类树可以得到一个OOB误差估计,取其平均值为模型的泛化误差,当树的数量达到一定程度时则认为模型的OOB误差近似于优化后模型的误差[31],主要数学过程包括:
定义样本数据集(x, y)的经验间隔函数(empirical margin function)为:
则分类器集合h的泛化误差(generalization error)为:
式中x, y表示由x, y组成的特征-响应空间。随着k的增大,即CART数量的增加,有:
式中PQ为
2.3 基于对象分析法的数据关系映射
机器学习中的训练模型与土地利用评价指标体系相结合,需建立一套关系映射框架,其基础是基于对象分析法。基于对象分析法(object-based method)是一种起源于图像处理的数据分析方法,由于图像切片相比单个像元包含更多额外的光谱信息,因此依据该特点建立的“图像切片对象”概念被逐渐推广[34]。而广义的基于对象分析法是将研究对象看作所有与其相关联的特征因子的集合,即对象的集合。虽然该方法在土地科学领域研究已有所积 累[35,36],但此处因结合对象的变换进行重新定义:一般来说,基于对象分析法是将所有与对象的输出(响应)变量相关联的“外在”影响因子“内化”为对象的输入(特征)变量。相应地,土地利用的适宜性程度(评价结果)即为响应变量,所有对土地利用适宜性产生影响的因素(评价因子)即为预测变量。在此基础上,对象的状态/响应变量resp(即适宜性程度)映射为数据样本的响应变量,即已知样本的标签label或未知数据的待分类别集合class;对象的影响因子/预测变量pred(评价因子)则映射为已知样本和未知数据的特征变量char。本研究建立两种数据间的映射框架(图1),实现评价因子与结 果从基于对象法数据结构到机器学习数据结构的对应。
显示原图|下载原图ZIP|生成PPT
图1对象分析法到机器学习的数据结构映射关系
-->Figure 1Data mapping relationship from object-based analysis method to machine learning
-->
2.4 优化策略
各种机器学习方法均具备通用或专用的优化策略,以达到提升预测性能和结果精度的目的。根据随机森林算法的特征,主要用到以下策略。2.4.1 特征变量选取
尽管随机森林算法能克服特征变量间可能存在的复杂线性关系的干扰,但仍需考虑特征变量规模对模型性能的影响,基于变量重要性程度的差异调整其维度(规模),比较不同特征集合下的模型性能差异,找出相对最适宜的变量规模。
前文提到,随机森林算法能够度量特征变量的重要性程度,变量重要性(Variable Importance)分析函数里的“平均下降精度”指数(Mean Decrease Accuracy Index)表示将随机选择的某一特征变量移出模型后造成模型精度下降的程度,其值越大,意味着该特征对分类结果的影响程度越高,这能间接反映其对模型训练的重要性程度。基于此,依次移出该指数为最低的特征变量并重新构建特征集合,重复此过程直到保留的特征变量即将出现因素层缺失(即某一准则层因子仅剩最后一项指标因子)时为止,以确保理论和分析两方面都具有显著意义。
2.4.2 模型主要参数优化
机器学习模型的参数优化有助于提升模型性能,随机森林方法中最常进行调优的两个主要参数“ntree”和“mtry”分别表示CART的数目和特征的数量。前者用来装载训练样本及它们的特征因子,后者对应每个节点分裂操作时随机选取的特征数目[21]。本研究通过设置一系列的参数取值组合,通过试错法不断缩小参数的可选择范围,并忽略计算复杂度和耗时等问题,测试并找出相对最适宜模型。
2.4.3 交叉验证与测试精度
十折交叉验证法是常用的算法精度测试方法,它将数据集合平均分成10份,其中9份作为训练数据,另外1份用作测试数据,整个验证过程会重复10次,使得每1份数据都能成为1次测试数据,取10次结果的平均值为测试精度[37]。本研究拟在每轮数据分析中均实施3次十折交叉验证,取3次验证得出的训练精度再求均值作为最终测试精度。
测试精度是指预测结果与数据标签一致的样本占总体样本数据的比例。本研究主要关注两处测试精度:一是通过交叉验证和参数调整等过程训练得出的最适宜模型的测试精度,此时的总体样本指训练样本;二是比较不同特征规模下的模型性能时得到的测试精度,此处的总体样本指测试样本。相应地,根据实证研究的需要,将所有已知样本按照7∶3的比例随机分成两个固定部分,分别为训练样本和测试样本。
3 实证分析
3.1 研究区简介
湖北省十堰市房县境内国土总面积约为5110km2,海拔落差约2200m。从地理条件上看,房县地势西高东低,坡度表现为南边陡峭而北部稍缓,具有典型的山区特征。房县共下辖20个乡镇及林场,截至2015年年末全县人口约47.76万,近些年人口总量呈现轻微波动趋势[38]。房县土地利用受到地理环境约束,具备鲜明的中国山区农村土地利用转型特征[39],农村居民点在域内城乡建设用地总面积中占比高,城市发展使得城乡用地转换的外生动力较强;因农民换址建屋、外出务工或永久迁移造成旧居民点空置等现象较为普遍,居民点整理的内生动力可观。房县的农村居民点具有“大散居小聚局”、“一户一田”等分布特征,导致复垦后新增耕地的再利用效率低下。同时,房县地处国家重点生态功能区与限制开发区范围内,以生态修复为目标的土地生态型整理需求逐渐加强[4]。
3.2 评价内涵、标准界定与样本标签
鉴于研究以提高房县农村土地综合利用效率、促进居民点合理有序的利用转型为主要目的,居民点适宜性评价应以评估居民点的可持续利用潜力为主要目标,以独立的农村居民点地块为基本评价单元,以居民点地块的利用是否具有可持续性、即居住于该居民点的农户是否具有长期用地预期作为主要的评价内容,则具有长期使用预期的居民点被认为适宜性较强,具有闲置、弃用预期的居民点则适宜性较差,相应地,适宜性较差的居民点用地将成为后续开展利用转型的主要对象。本研究以居民点土地附着房屋的使用状态表征该土地的使用状态,并假设房屋的使用状态与使用预期具有一致性,构建已知样本的二分类标签:适宜型居民点主要指具有长期使用预期的居民点地块,相应的采样标准为:处于房屋完好且持续使用状态中的居民点用地;非适宜型居民点指已处于荒废、弃用状态下的居民点地块,采样标准为:长期空置、破损或完全垮塌房屋所在的居民点用地。基于房县城乡建设用地增减挂钩项目的踏勘与规划成果,本研究共收集居民点地块样本共计1104个,其中适宜型样本556块,非适宜型样本548块。
3.3 因子选择与数据获取
农村居民点及其附着房屋的持续利用状态主要取决于农民的居住意愿,它受到多方面因素的影响与制约,涉及居民点土地的自身禀赋、生产和生活条件、山区特有的社会、地理特征等等,为尽可能地涵盖相关因素,并借鉴构建居民点适宜性评价指标体系的已有经验与案例[6,7,9,11,14],本研究设定土地区位条件、农业生产条件、发展与生活条件、地理条件共四个目标层,兼顾数据的可获取性,在指标层选取共计18项评价因子(变量)作为开展机器学习的备选因子集合,对因子的选取做简要说明:(1)居民点地块所处的相对位置决定其到达其他类型用地或特殊区域的便利程度,对农民的生活和生产均产生影响,而地块规模则反映居住模式。本研究考虑土地区位条件,选取居民点距最近道路、最近其他居民点、最近耕地和乡镇中心的距离以及地块面积大小共5项指标。
(2)农业生产条件影响着农民的耕作条件、土地的产出,直接关系到农民的生产投入、耕作收入,而耕作意愿的变化又影响着农户在当地的居住意愿。由于耕地产权数据获取难度大,本研究选取距居民点地块最近的耕地地块,假设其为该居民点住户的生产场所,选取涉及耕地质量的灌溉能力、亩产能力、土壤pH、有机质含量和表层质地共计5项指标。
(3)发展与生活条件从经济社会层面、农民个人层面共同影响着农村居住的可持续性,综合考虑进城意愿、生产活跃程度、非农收入与政策补贴、生活水平共4方面情况,选取城镇化率、播种面积、劳务收入、政策性补贴、用电量与牲畜存栏量共6项指标。
(4)鉴于研究区处于山区环境下,居民点之间所处地理条件差别显著,可能影响原地居住的可持续性,因此,选取地理因素相关的坡度与海拔2项指标。
各因子与对应变量、数据描述与单位、数据来源如表1所示。
Table 1
表1
表1居民点利用适宜性评价影响因素与特征
Table 1Influencing factors and their characteristics for evaluating the suitability of residential land use
准则层 | 指标层因子(变量) | 描述/单位 | 数据来源 |
---|---|---|---|
土地区位条件 | 距最近道路距离(Dis_Rod) | 地块中心到邻近道路网络的最小图上距离/m | 房县2016年土地利用现状数据[38],遥感数 据[40]解译补充,空间分析处理后采集 |
距最近居民点距离(Dis_Rld) | 地块中心到邻近居民点中心的最小图上距离/m | 房县2016年土地利用现状数据[38]空间分析处理后采集 | |
距最近耕地距离(Dis_Cld) | 地块中心到邻近耕地地块中心的最小图上距离/m | 同上 | |
距乡镇中心距离(Dis_Tct) | 地块中心到所属乡镇政府大院中心的图上距离/m | 同上 | |
地块面积(Lnd_Are) | 地块图上面积/m2 | 同上 | |
农业生产条件 | 灌溉保证率(Pro_Irr) | 距地块最近耕地的全年灌溉率/无灌溉条件=1,一般满足=2,基本满足=3,充分满足=4 | 房县2016年耕地质量评价数据[41]空间分析处理后采集 |
土壤pH值(Ph_Vlu) | 土壤酸碱度 | 同上 | |
土壤有机质含量(Org_Mat) | 每千克土壤中所有有机质重量和/g | 同上 | |
表层土壤质地(Sur_Soi) | 土壤表面成分的物理特性/砾质土=1,砂土=2,黏土=3,壤土=4 | 同上 | |
亩产能力(Ann_Yld) | 年均粮食亩产量/kg | 2016房县统计年鉴[42]数据二次计算采集 | |
发展与生活条件 | 城镇化率(Urb_Rat) | 非农村居民人数占总人口比例 | 同上 |
播种面积(Swn_Are) | 人均农作物播种土地面积/hm2 | 同上 | |
劳务收入(Lab_Inc) | 人均劳务性收入/元 | 同上 | |
政策性补贴(Plc_Sub) | 人均政策性补贴/元 | 同上 | |
用电量(Ele_Cns) | 人均用电量/kW·h | 同上 | |
牲畜存栏量(Liv_Slg) | 人均主要牲畜(包括耕牛、牲猪、家禽等)年末存栏量/头 | 同上 | |
地理条件 | 坡度(Lnd_Slp) | 地块中心的坡度值/度 | SRTM数字高程数据[43]采集 |
海拔(Lnd_Elv) | 地块中心的海拔高度/m | 同上 |
新窗口打开
3.4 变量重要性分析
为分析各特征变量的重要性,并衡量不同特征维度下训练模型的性能表现,根据2.4.1章节的特征变量选取策略对特征集合实施降维。当特征集合由18维降至7维时,农业生产条件准则层的指标因子仅剩一项,降维过程终止。各特征集合与剩余变量的重要性如图2(见第2091页)所示,各特征集合中重要性排名末位的变量即是下一个被移出的变量,按照移出顺序的先后,其重要性逐渐升高,对其形成的原因展开定性分析:显示原图|下载原图ZIP|生成PPT
图2逐步降维过程中不同特征集合的因子重要性排序
-->Figure 2Ranking of factors importance in different feature sets during gradual dimensionality reduction
-->
(1)首先依次被移出的前6项影响因素及可能原因分别是:①地块所在位置坡度,土地平整工程与技术使得山区小规模的分散居住受坡度的影响很小;②距最近耕地距离,其影响在山区环境下被显著削弱,主要归结于“一户一田”的生活、生产方式与文化;③表层土壤质地,这可能与当地土壤类型的差异性较小有关;④灌溉保证率,可能与当地依赖“望天田”开展耕作的模式有关;⑤距最近居民点距离,它的较小影响力可能与山区“大散居、小聚居”格局的常态化有关;⑥牲畜存栏量,它对居住意愿影响较小可能与山区不适合开展规模化的牲畜养殖产业有关。
(2)第7到第11位依次被移出的特征因素,即对居民点适宜性影响逐渐增强的因子以及可能的原因分别是:① 城镇化率,它表征当地人口外迁的驱动力强度,因而会对居民点利用产生适中的影响;② 政策性补贴,它事关农民的生产意愿和收入,同样对农民利用居民点产生适度影响;③ 土壤有机质含量,它与农业生产的支出相关,会对农民的耕作意愿产生影响;④ 亩产能力,它与农民的耕作收入高度相关,进而影响农民的居住意愿;⑤ 距乡镇中心距离,乡镇中心是生活物资、农业技术、基层智慧的聚集地,到达该地的通达便利度对居民点的可持续利用产生较强影响。
(3)仍被保留、影响最大的前7项变量及可能的原因分别是:① 地块距最近道路距离,它反映出交通便利性对居住具有决定性影响;② 海拔高度,它的重要性源于研究区的山区地理环境,一般来说,海拔越高的地方则居住条件及相关配套越差,影响居住的可持续性;③ 地块面积,在山区环境下,独门独户居住更易造成居民点的弃用,而面积较大的地块可能意味着更舒适、更集中的居住环境,利于居民点的持续利用;④ 播种面积,它反映出当地的农业生产活跃程度,对农村居住意愿产生间接影响;⑤ 居民用电量,它能直接反映农村居住的生活水平;⑥ 劳务收入,劳务收入高的居民可能具备更强的外迁意愿,从而负面地影响居民点的可持续利用;⑦ 土壤pH值,它与农业生产条件、尤其是土地的易耕作性相关,影响农民的耕作意愿,进而影响农民对居民点的利用。
3.5 模型参数调优分析
对3.4章节中得出的12组特征集合开展不同ntree和mtry参数组合下的模型训练与验证,考虑训练样本数量与特征规模情况,使ntree的取值在500~1500之间,使mtry的取值在以维度开方值为中心数的左右邻近整数范围内,即16~18维的特征集中mtry取值为3~6,9~15维的特征集mtry取值为2~5,7~8维的特征集mtry取值为1~4。测试精度如图3所示。显示原图|下载原图ZIP|生成PPT
图3多种ntree与mtry参数组合下的7~18维度特征集合构成的模型测试精度
-->Figure 3Prediction accuracy of the model with feature sets from 7 to 18 dimensions under the combinations of multiple ‘ntree’ and ‘mtry’ parameters
-->
图3显示,不同特征集合对应的模型在不同参数组合下的性能表现无共性趋势,且各自的测试精度区间略有差异,不同特征规模的模型性能差异较小。从单一模型自身来看,同一ntree或者同一mtry下仅改变另一参数并未使得测试精度发生规律性变化,且参数调整对测试精度的影响大约在1%~2%的范围内波动。因此,选取每个特征集合中测试精度最高时的参数组合为最优参数,认为此时的模型为该特征集合对应的最适宜模型。
3.6 测试精度比较
基于前述参数调优结果,将测试样本数据集带入不同特征集合对应的最适宜模型,开展精度分析,结果如图4所示。显示原图|下载原图ZIP|生成PPT
图4基于测试数据与不同维度特征集合的居民点利用适宜性预测结果
-->Figure 4Prediction results of suitability of residential land use with different feature sets but the same testing data
-->
测试结果分为正确的预测和错误的预测,前者实现了适宜或非适宜型居民点测试样本的预测结果与实际标签的正确对应;后者则将标记为适宜或非适宜型居民点测试样本分别预测为错误且相反的结果。从不同模型测试精度的横向对比来看,对非适宜型居民点地块的正确预测占比排名前三的依次是7维(45.73%)、16维(44.51%)、13维(44.21%)特征集合;对适宜型居民点的正确预测最多的三个方案是15维、11维和10维特征集合,它们的数量占比均为39.33%。综合两类正确预测结果,则精度最高的分别是16维、7维、13维特征集合构成的预测模型,其预测正确率分别为83.54%、83.54%和83.23%。
3.7 预测结果分析
以测试精度最高的7维、13维和16维特征集合对应的模型开展房县境内全部农村居民点的适宜性评价,其结果如图5所示。显示原图|下载原图ZIP|生成PPT
图53种不同维度特征集合下的房县居民点利用适宜性评价预测结果
-->Figure 5Prediction results of suitability of residential land use with three different feature sets in Fang County
-->
可以看到,基于3种特征维度对应模型的居民点适宜性评价结果在空间上具有高度相似性,基于随机森林算法的预测结果具有较强稳定性,根据已知样本地块开展同质性分类筛选的能力较强、结果可靠。
具体来说,房县适宜型居民点主要分布在海拔相对较低的区域,以房县主城区所在的中部地区、地形较为缓和的北偏西地区和南部的九道乡为主;非适宜型居民点绝大多数集中于房县的东北部与中部偏北、偏西地区,其中以土城、白鹤、青峰、万峪河、沙河和中坝等乡镇居多。从统计角度看,前期采集的地块样本在空间分布上并不均匀(如图5d所示),但鉴于非适宜型居民点采样样本的形成在微观上具有空间随机性,形成过程自然且自发,且已有研究证实农村居民点的利用转型会存在次级行政区间的冷热点差异[44],因此,本研究认为基于已知样本特性的预测结果更能反映出居民点、尤其是非适宜型居民点在乡镇内部的同质性和乡镇间的异质性特征。
从地理环境与发展现状来看,土城、白鹤、青峰的地理条件相对较好,地处房县北大门,与外界资源信息交换能力更强,居民外出务工经商的动力强,居民点空置的动能显著;万峪河、沙河和中坝不在同一区域,但均属于房县境内“老、边、穷”型乡镇,地理条件相对恶劣,生活、生产条件较为落后,居民点续用意愿较弱,居民点利用转型的内生动力很强,它们作为非适宜型居民点的聚集区域符合客观实际。此外,门古寺的非适宜型居民点采样样本虽少,但预测结果显示该乡镇具备一定规模的非适宜型居民点预期,可能是由于重要性较高的特征因子在这些居民点和已知样本之间具有较强相似性,例如居民点的可通达度、海拔高度等等,其余乡镇均有不同规模的少量非适宜型居民点分布。
总的来说,房县的适宜型居民点分布与山区特殊地理环境下的地势、交通条件显著相关;同时,非适宜型居民点分布较为广泛,且数量可观,未来以居民点用地为主开展农村土地利用转型的预期较为强烈。
4 结论与讨论
4.1 结论
本研究从促进农村居民点合理、有序利用转型的立意出发,实现了对优化手段的“优化”,即机器学习方法在农村居民点适宜性评价中的应用研究,克服了传统土地利用评价中指标选取、权重设置、指标间的复杂线性关系等干扰因素,机器学习利用小规模已知样本实现对大规模未知数据的预测,其特征符合土地调查与评价的工作实际。此外,它还具备数模优化、性能自检等内在机制,理论上满足应用可行性的同时,较传统评价方法体现出一定 优势。进一步地,基于土地为对象的概念分析法,实现了居民点适宜性评价因子与结果从传统评价体系到机器学习数据模型中的关系映射。利用随机森林算法对湖北省房县农村居民点的适宜性问题展开实证研究,经过特征集合筛选、模型优化、测试分析与结果预测等步骤,得到主要结论:
(1)特征集合选取和变量重要性分析过程指出,影响当地农村居民点利用的最主要因子包括居民点可通达能力、海拔高度、地块面积及农业生产活跃程度,此外,涉及农民生活、收入水平的因子也具有重要影响,这符合当地的地理环境特征与发展实际。
(2)优化后模型的测试精度最高能达到83.54%,可认为应用随机森林算法进行房县全境居民点适宜性评价的结果具备良好预期。
(3)从空间和数量上来看,房县适宜型居民点分布符合山区发展特征,非适宜型居民点分布广泛,需加以应对。基于三种特征集合对应模型的预测结果具有高度空间相似性,说明随机森林算法面对评价体系的伸缩具有极强的鲁棒性,评价结果稳定可靠。
综上所述,以随机森林为代表的机器学习方法在农村居民点适宜性评价领域的应用具备较强的理论支撑,并通过实证验证其良好的应用表现。
4.2 讨论
4.2.1 应用价值基于机器学习方法的农村居民点适宜性评价结果为优化农村土地利用提供数据基础。可根据农村土地综合整治、扶贫搬迁、生态改造等工作的需要,将非适宜型居民点土地作为关注重点,制定对其实施优先利用转型的工作方案,考虑不同再利用方向,统筹实施居民点整理;为促进适宜型居民点土地的长效利用,可结合其所处地理环境,作为未来农村居住中心化的备选、优选地点,此外,当地的基础设施升级改造和其他公共资源的普及工作也应适当倾斜于适宜型居民点所在区域。
基于机器学习方法的农村居民点适宜性评价结果能为农村的基层治理工作提供更多数据参考。根据变量重要性分析结果,促进居民点的可持续利用的主要政策目标方向应着眼于:
(1)提高农村基础设施和公共资源普及的空间位置合理性。
(2)不断丰富农民的创收手段、提高农民的总体收入水平。
(3)对不具备持续利用预期的居民点,需进行重点追踪,弄清可能发生住房与土地弃用的缘由,对确实因经济、生活困难需异地安置的农户进行扶持。
(4)现有以城乡土地置换为核心的土地政策方针亟待调整,应夯实城乡各级土地利用规划的基础性地位,落实“乡村振兴,规划先行”的指导思想,抑制不合理的居民点整理冲动。
总的来说,该评价结果能为域内土地利用规划提供参考“底图”,为调整农村土地布局、优化乡村治理等工作提供数据支撑,有利于乡村振兴战略的实施。
4.2.2 未来展望
本研究实现了机器学习方法在土地利用评价领域应用的初步尝试,但尚存一些有待提升之处:
(1)评价内涵与样本标签定义方式还需继续完善。本研究利用房屋的使用状态表征土地的使用状态,并假设使用状态与使用预期具有一致性,这是一种“理想”状态,在实践中,农民在非主动退出宅基地之前对其利用具有持续的权益,也存在着农户之间对同一块土地的权益让渡,这会使得房屋使用状态中止或结束的居民点土地存在被重新利用的可能性。这就要求以居民点合理利用转型为主要目的的适宜性评价扩展其内涵,在未来的评价内容中融合居民点的利用历史状态、现阶段的农户利用意愿和未来维持原用途的潜力等方面,相应地实现对样本标签的精准、多样化定义,同时,还需谋求以更细致的调研设计与数据处理作为支撑。
(2)在数据使用上存在一定局限性。一方面,尚不能排除“异常”采样样本的存在,例如,在采样时点的短期闲置可能导致该居民点被误标记为“非适宜型”,这种情况特殊却无法筛出的样本会对模型训练造成干扰;另一方面,指标体系构建受到数据可得性约束,部分指标数据无法精确到地块级别,改用地块所在乡镇的人均值近似表示,这也会对评价结果产生一定的负面影响。另有一些有益的影响指标对应的数据尚无法获取,例如涉及环境安全因素的居民点地质条件、房屋使用年限、污染排放情况等等,需在未来研究中优化样本的特征变量(评价因子)结构、改善数据质量,以进一步提升评价可靠性。
(3)对农村居民点利用机制的探讨有待深入。对影响农村居民点可持续利用相关因素的分析还需加强,本文基于已选、可选的影响因子进行重要性分析,实现的是它们之间相对影响程度的探讨。尚无法获取数据或难以量化的因子对居民点利用的作用不可忽视,例如,政策、管理层面上对居民点利用、农民居住行为的激励和约束尚无法在本研究中得到全面的论述,未来还需在分析建模的过程中或评价结果的探讨中加以考虑,更深入、全面地挖掘各影响因素之间的关系。
(4)机器学习方法谱系在土地利用评价领域的扩展还有很大空间。多种机器学习方法间的对比研究尚未涉及,其在其他类别土地利用评价中的应用研究有待开发。同时,基于评价结果开展后续的土地利用布局优化研究也是未来研究方向之一。
The authors have declared that no competing interests exist.
参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子
[1] | [J]. , [J]. , |
[2] | |
[3] | [J]. , [J]. , |
[4] | [J]. , [J]. , |
[5] | [J]. , [J]. , |
[6] | [J]. , [J]. , |
[7] | [J]. , [J]. , |
[8] | [J]. , [J]. , |
[9] | [J]. , [J]. , |
[10] | [J]. , [J]. , |
[11] | [J]. , [J]. , |
[12] | [J]. , [J]. , |
[13] | [J]. , [J]. , |
[14] | [J]. , [J]., |
[15] | [J]. , [J]. , |
[16] | [J]. , [J]. , |
[17] | [J]. , [J]. , |
[18] | [M]. , |
[19] | [J]. , |
[20] | [J]. , |
[21] | [J]. , [J]. , |
[22] | [J]. , [J]. , |
[23] | [J]. , |
[24] | [J]. , |
[25] | [J]. , [J]. , |
[26] | [J]. , [J]. , |
[27] | [M]. , |
[28] | [J]. , |
[29] | [J]. , |
[30] | [J]. , |
[31] | [J]. , |
[32] | [M]. , |
[33] | [J]. , |
[34] | [J]. , |
[35] | [J]. , |
[36] | [J]. , |
[37] | [J]. , |
[38] | [R]. , [R]. , |
[39] | [J]. , [J]. , |
[40] | [EB/OL]. ( |
[41] | [R]. , [R]. , |
[42] | [M]. , [M]. , |
[43] | [EB/OL]. ( [EB/OL]. ( |
[44] | [J]. , [J]. , |