

Application of GWR model in hyperspectral prediction of soil heavy metals
JIANGZhenlan

1 引言
土壤是农业生产最重要的自然资源。随着农业集约化生产的发展以及城市化进程的加快,重金属通过污水灌溉、大气干湿沉降、污泥农用等途径进入土壤,重金属污染已成为当今土壤污染中污染面积最广、危害最大的环境问题之一[1-4]。解决土壤重金属污染问题首先需要摸清污染情况,2016年5月31日国务院印发关于《土壤污染防治行动计划》提出在2018年底前查明土壤污染的面积、分布[5]。高光谱遥感技术由于能同时获得精细的几乎连续的光谱,从而能够根据地物的光谱特征对地物进行反演和识别,为快速获取土壤重金属元素信息提供了新的途径[6-8]。土壤重金属高光谱预测的机理在于,高光谱遥感以其获取的连续、精细的反射光谱有可能捕捉到土壤重金属的光谱吸收特征,通过分析土壤重金属的光谱特征,筛选出土壤重金属响应的敏感波段,从而构建模型对重金属进行定量预测[9]。目前应用于高光谱土壤重金属的预测方法主要有多元线性回归[10-11]、偏最小二乘回 归[10, 12-13]、支持向量机[14]、人工神经网络[11, 15]、小波分析[16-17]、遗传算法[18]、随机森林[19]等,这些方法在特定的研究区均取得了较好的效果。但这些方法假定研究区内土壤重金属含量在不同空间位置上对光谱反射率的影响是相同的,即系数是不变的,忽视了土壤重金属含量与反射光谱之间关系的空间异质性。然而,土壤重金属元素含量由于受区域成土母质、土壤类型、地形、水文、小气候等自然因素以及城市建设、工业、农业、采矿等人为因素的影响,这些影响具有区域性和连续性,使重金属的分布表现出一定的空间变异特征[20-26]。而且,土壤光谱特征是土壤有关性质的综合反映,除重金属外,还受到土壤结构和成分、植被等环境变量影响,故在不同的研究区域,不同的位置,由于土壤类型、组分和污染水平不同,土壤重金属含量与光谱特征的关系也将发生变化[27-30],在前人研究中,关于研究区内土壤重金属含量对光谱反射率的影响是相同的假设条件与实际情况不相吻合,模型的预测精度也将受到影响。
由英国New Castle大学地理学家Fortheringham等[31]于1996年提出的地理权重回归(Geographically Weighted Regression, GWR)模型,是一种对不同空间子区域自变量和因变量之间关系随空间变化进行建模的非参数局部空间回归分析方法,被广泛应用于空间非平稳性关系探讨,已在土壤属性的空间预测中取得较好效果[32-34],但有关这类模型在土壤重金属高光谱预测研究中的应用尚未见文献报道。本文选择福建省福州市为研究区域,以土壤重金属镉(Cd)、铜(Cu)、铅(Pb)、铬(Cr)、锌(Zn)、镍(Ni)为对象,构建土壤重金属预测的GWR模型,并探讨GWR模型在区域土壤重金属高光谱研究中的适用性及局限性,为模型推广提供理论和技术支持。
2 研究区概况
研究区选择在福建省福州市。福州市地处中国东南沿海,背山面海,位于118°08′E~120°31′E、25°15′N~26°29′N之间,属于亚热带海洋性季风气候,年均温在16~20 ℃,年降水量为900~1200 mm。福州市所在地属于典型的河口盆地,盆地四周被群山峻岭包围,地貌以山地、丘陵为主,海拔多在600~1000 m之间,地势自西向东倾斜,盆地周边海拔较高处的地带性土壤为红壤。作为福建省的省会城市,福州市区内人口密度大、工农业较发达,土壤污染问题日渐突出,由于区内地形复杂破碎,使得土壤重金属在空间分布上呈现出异质性大的特点。3 数据来源及其处理
3.1 土壤样品采集和分析
在研究区范围(除平潭县外),共采集132个0~20 cm土壤表层土样,样点分布较为均匀(图1)。采样的同时,利用手持GPS定位样点的经纬度坐标及高程。每个采样点混合后取500 g土样,经实验室风干,去除沙砾及动植物残体后研磨,过100目尼龙筛。每个样品分成两份(每份各约250 g),一份用来进行化学分析,另一份用来进行光谱分析。土壤重金属含量采用电感耦合等离子质谱(ICP-MS,美国Thermo Electron)进行测定。
Fig. 1Study area and sample sites
3.2 土壤光谱测定及其预处理
土壤样品光谱测定采用美国ASD(Analytical Spectral Device)公司生产的地物光谱仪FieldSpec 3在室内测量,波段范围为350~2500 nm,在350~1100 nm和1000~2500 nm范围内的光谱采样间隔分别为1.4 nm和2 nm,光谱重采样后的间隔为1 nm,输出2151个波段。将经过预处理后的土样放在直径大于10 cm,深度大于5 cm的盛样器皿内,轻轻震动器皿使得土壤表面呈自然状态,以1000 W的卤光灯作为光源,采用15°的光源照射角度、15 cm的探头距离及30 cm的光源距离,从垂直于土壤表面的方向进行土壤反射光谱测量,并利用40 cm×40 cm的白板进行定标,获取绝对反射率。为消除测量的不稳定性,每个土样采集10条光谱曲线,利用ViewSpec Pro软件剔除异常曲线后取光谱反射率平均值作为样本的原始反射率光谱值[35]。光谱预处理主要包括:① 利用Savitzky-Golay平滑对曲线进行处理,以消除光谱曲线上存在的“毛刺”噪声;② 对平滑后的数据以10 nm为间隔进行算术平均运算进行重采样,得到10 nm光谱分辨率的土壤光谱反射率,以达到压缩波段,消除相邻波段间冗余信息的目的。3.3 土壤光谱变换与特征波段选取
为消除背景噪声,突出光谱的特征值,本文对土壤反射率(Reflectance, R)进行以下变换:一阶微分(First Derivative, FD)、二阶微分(Second Derivative, SD)、倒数变换(Reciprocal Transformation, RT)、倒数的一阶微分(RTFD)、倒数的二阶微分(RTSD)、倒数对数变换(吸光率,Absorbance Transform, AT)、倒数对数的一阶微分(ATFD)、倒数对数的二阶微分(ATSD)及连续统去除(Continuum Removal, CR)等。将土壤重金属含量与变换后的光谱数据进行相关分析,筛选出相关系数最大的光谱特征波段。在此基础上,以土壤重金属含量为因变量,各光谱特征值为自变量,通过逐步回归分析方法,筛选出共线性小的变量参与模型的构建。4 研究方法
GWR是由Fotheringham等[31]提出的一个空间变参数模型,是对普通最小二乘法回归(Ordinary Least Squares Regression, OLS)模型(式(1))的空间扩展,将数据的地理位置嵌入到回归参数之中,使得参数可以进行局部估计,扩展后的模型如式(2)。式中:yi为样点i的因变量;xik为第i个样点上第k个变量的观测值;
式中:Wij为由已知点j估计待测点i时的权重;dij为估算点i与样点j间的欧氏距离;h为带宽。其中带宽h由最小AIC信息准则(Akaike Information Criterion)确定。本文的GWR回归过程在Fotheringham等开发的GWR 4.0软件支持下完成,模型精度评价采用AIC准则、调节决定系数(Adj-R2)、残差平方和(RSS)等指标进行评价。此外,重金属的预测值与实测值间的相关系数、回归的调节决定系数(R2)和均方根误差也被用来比较GWR与OLS的预测效果。
5 结果分析
5.1 土壤重金属含量的统计分析
表1为福州市土壤采样实测的重金属统计特征值。从重金属的含量看,Cd均值为0.74 mg·kg-1,高于国家土壤环境质量二级标准;重金属Pb、Zn均值介于国家土壤环境质量标准的一级和二级之间;而重金属Cu、Cr和Ni则低于国家土壤环境质量一级标准[36]。说明研究区受重金属Cd的污染较为严重,受Pb、Zn元素轻度污染,受其他元素的影响则不大。从重金属的空间分布看,6种重金属的变异系数在50%~75%之间,属中等变异,说明这几种重金属在土壤中的分布不均匀,空间异质性较为显著。Tab. 1
Tab. 1Statistical values for measured content of soil heavy metals in Fuzhou City
重金属 | 最小值 (mg·kg-1) | 最大值 (mg·kg-1) | 平均值 (mg·kg-1) | 标准差 (mg·kg-1) | 偏度 (mg·kg-1) | 峰度 (mg·kg-1) | 变异系数 (%) |
Cd | 0.01 | 2.94 | 0.74 | 0.38 | 1.49 | 8.21 | 51.35 |
Cu | 5.68 | 94.60 | 23.54 | 14.89 | 1.93 | 5.32 | 63.25 |
Pb | 8.78 | 155.96 | 44.85 | 24.37 | 1.76 | 3.97 | 54.34 |
Cr | 0.75 | 111.55 | 26.13 | 17.85 | 1.69 | 4.53 | 68.31 |
Zn | 1.15 | 383.13 | 101.19 | 54.73 | 1.63 | 5.54 | 54.09 |
Ni | 0.23 | 50.96 | 12.25 | 8.73 | 1.79 | 4.86 | 71.27 |
5.2 土壤重金属含量与光谱变量的相关分析
经变换后的土壤光谱值与土壤重金属含量进行Pearson相关分析,筛选出最大相关系数及其对应的光谱特征波段如表2所示。从表2中可以看出:① 除了Pb元素与原始反射率及倒数对数变换值之间相关性不显著外,其他重金属含量与光谱变量间的最大相关系数均达到0.01的极显著性水平或0.05的显著性水平;② 不同重金属的光谱敏感特征波段是不同的,Cd、Pb、Zn元素的敏感特征波段主要在近红外波段,而Cu、Ni元素的敏感特征波段则主要在可见光波段;③ 不同光谱变换对重金属光谱特征的增强作用不尽相同,其中,倒数变换和倒数对数变换对土壤重金属光谱特征的增强作用最明显,表现为这两种变换与重金属的最大相关系数(除Cr元素外)均大于原始反射率与重金属含量间的最大相关系数;④ 对于不同重金属来说,光谱变换对Cd和Pb元素的光谱特征的增强作用最大,变换后的光谱特征值与Cd和Pb之间的最大相关系数均大于原始反射率与它们的最大相关系数。Tab. 2
Tab. 2Maximum correlation coefficients between soil heavy metal content and spectral variables in Fuzhou City
重金属 | R | FD | SD | RT | RTFD | RTSD | AT | ATFD | ATSD | CR | |
Cd | 特征波段 相关系数 | 1040 -0.211* | 2420 0.347** | 1990 0.329** | 1040 0.230** | 2420 -0.327** | 1990 -0.352** | 1040 0.220** | 2420 -0.345** | 1250 0.354** | 2170,2190 0.251** |
Cu | 特征波段 相关系数 | 420 -0.478** | 470 -0.426** | 940 0.330** | 380,390,400 0.519** | 510 -0.534** | 450 0.480** | 410 0.511** | 1150 -0.371** | 410 -0.353** | 410 -0.337** |
Pb | 特征波段 相关系数 | 2500 -0.164 | 2490 -0.212* | 1940 -0.240** | 2500 0.182* | 2500 0.234** | 2490 0.237** | 2500 0.171 | 2500 0.222** | 2490 0.218** | 1630 0.190* |
Cr | 特征波段 相关系数 | 520 0.415** | 2230 -0.434** | 1440 0.351** | 360 0.357** | 410 -0.337** | 430 0.319** | 2010 0.411** | 1440 -0.327** | 1440 -0.327** | 2210 0.310** |
Zn | 特征波段 相关系数 | 2240 -0.469** | 390 -0.437** | 440 0.332** | 2150,2160 0.497** | 1050 -0.359** | 2100 0.335** | 2150,2160 0.483** | 2170 -0.313** | 2080 -0.322** | 1480 0.212* |
Ni | 特征波段 相关系数 | 2410 -0.430** | 390 -0.374** | 560 0.300** | 2470 0.438** | 480 -0.399** | 780 0.410** | 2470 0.436** | 600 0.325** | 780 0.294** | 450 -0.293** |
5.3 土壤重金属预测模型的最佳光谱因子组合
为消除光谱变量间的多重共线性,以土壤重金属含量为因变量,特征波段的光谱值为自变量,利用逐步线性回归分析筛选因子的最佳组合,标准为回归结果的调节R2最大,自变量间的方差膨胀因子(Variance inflation factor, VIF)小于7.5,结果如表3所示。Tab. 3
Tab. 3Results of stepwise linear regression between soil heavy metals and spectral variances in Fuzhou City
重金属 | 模型变量 | 调节R2 | 估计误差 | F | 显著性水平 |
Cd | 常量, SD_1990, RT_1040 | 0.179 | 0.343 | 15.413 | 0.000 |
Cu | 常量, FD_470, RT_380, RTSD_450 | 0.300 | 12.442 | 19.658 | 0.000 |
Pb | 常量, FD_2490, SD_1940, RTSD_2490, CR_1630 | 0.141 | 22.430 | 7.781 | 0.000 |
Cr | 常量, SD_1440, RTSD_430 | 0.226 | 15.685 | 20.170 | 0.000 |
Zn | 常量, RT_2150, RTFD_1050 | 0.312 | 45.235 | 30.706 | 0.000 |
Ni | 常量, RT_2470, RTFD_480 | 0.180 | 7.874 | 15.427 | 0.000 |
5.4 土壤重金属的OLS与GWR分析
为尽量保证建模样本与验证样本范围一致,将样本数据按土壤重金属含量从大到小排列,每隔两个样品取一个作为验证样本,共44个(33%),其余的88个(67%)作为建模样本。逐步回归筛选后的光谱因子作为自变量,分别利用OLS和GWR模型对重金属进行回归分析,回归的AIC、调节R2及残差平方和以及验证样本预测值与实测值回归的调节R2、均方根误差(RMSE)等统计量如表4所示。Tab. 4
Tab. 4Prediction accuracy of OLS and GWR regression models in Fuzhou City
重金属 | 建模样本 | 验证样本 | |||||||||
AIC | 调节R2 | 残差平方和 | 调节R2 | 均方根误差 | |||||||
OLS | GWR | OLS | GWR | OLS | GWR | OLS | GWR | OLS | GWR | ||
Cd | 75.807 | 78.544 | 0.181 | 0.196 | 10.986 | 10.330 | 0.167 | 0.192 | 0.302 | 0.294 | |
Cu | 730.248 | 698.162 | 0.323 | 0.649 | 13758.666 | 4141.423 | 0.217 | 0.613 | 11.658 | 8.192 | |
Pb | 1204.227 | 1199.618 | 0.141 | 0.216 | 64334.784 | 55866.254 | 0.083 | 0.213 | 24.700 | 22.884 | |
Cr | 742.016 | 720.703 | 0.266 | 0.716 | 21484.197 | 5441.275 | 0.090 | 0.396 | 15.487 | 12.463 | |
Zn | 925.785 | 916.964 | 0.281 | 0.525 | 194869.446 | 92018.520 | 0.247 | 0.456 | 39.781 | 31.934 | |
Ni | 602.693 | 605.455 | 0.212 | 0.219 | 5406.102 | 5179.912 | 0.094 | 0.117 | 7.392 | 7.292 |
GWR方法对不同重金属预测精度的提高作用是不同的。对于Cu、Pb、Cr、Zn 4种重金属来说,GWR预测精度提高显著,表现为:Cu、Pb、Cr、Zn 4种重金属的GWR预测AIC值分别减少了32.09、4.61、21.31和8.82,均大于3(不同模型中的AIC值若能减少3个单位,认为模型有显著改善[37]),说明该4种元素的GWR方法对重金属预测的效果改善明显。其中,Cr元素的GWR预测精度提高的效果最为显著,调节R2从OLS模型的0.266提高到GWR的0.716,即利用GWR模型对Cr预测的解释程度比OLS提高了45%,为OLS模型的2.69倍,而残差平方和减少了16042.92,仅为OLS的25.33%;其次为Cu元素,GWR模型的调节R2从OLS模型的0.323提到0.649,提高了32.6%,为OLS模型的2.01倍,而残差平方和减少了9617.24,仅为OLS的30.09%。其后依次为Zn元素和Pb元素,GWR模型的解释程度比OLS分别提高了24.4%和7.5%,而残差平方和分别减少了52.78%和13.16%。对于Cd和Ni元素来说,GWR回归的调节R2较OLS模型略有增加(分别从0.181和0.212提到0.196和0.219),残差平方和略有降低(分别降低了5.97%和4.18%),但GWR的AIC值较OLS模型却略有上升(差值小于3),说明GWR模型对该两种元素预测精度改善效果不明显。
模型的验证效果也进一步证实了以上结果,Cu、Pb、Cr、Zn 4种重金属的GWR预测值与实测值回归的调节R2较OLS模型有了很大提高,而均方根误差则有明显的降低。为了更好地说明这一问题,绘制验证样本土壤重金属的OLS和GWR的预测值与实测值散点图(图2)。从图2可以直观看出,OLS模型的土壤重金属预测精度普遍不高,除了Zn预测值与实测值之间的相关系数为0.602外,其余元素的预测值与实测值之间的相关系数均小于0.5。GWR模型的预测结果与实测值的吻合程度要优于OLS模型。其中,Cu、Cr、Zn、Pb的GWR模型预测结果较OLS模型有了较大的改善,预测值与实测值之间呈现出较好的吻合度,相关系数分别为0.789、0.641、0.768和0.481,较OLS模型分别提高了0.304、0.307、0.166和0.158。但Cd和Ni的GWR模型的预测值与实测值之间的相关系数较OLS提高不明显。不论是OLS模型还是GWR模型,实测值较低时,其预测值与实测值的吻合度较好,但当实测值较大时,预测效果有所偏低(图2),说明模型的误差主要来自土壤重金属含量较高的样点,这主要是由于本文的样本点有限,采集样点的重金属含量以低值为主,而少量的高值样本点成为相对的极值样点,故其预测精度偏低。本文所构建的GWR模型可用于含量较低区域的土壤重金属预测,可推广至土壤重金属的普查工作中,在条件许可下,适当加大重金属含量较高的样本点,有利于改善模型的预测精度及适用性。

Fig. 2Scatter plot of measured and predicted soil heavy metal contents in OLS and GWR models in Fuzhou City
5.4 土壤重金属含量与光谱变量间的空间非平稳性分析
对模型参数进行统计,通过GWR模型局部参数的上四分位数(upper quartiles, UQ)与下四分位数(lower quartiles, LQ)的值范围与OLS模型全局参数的两倍标准误差(standard errors, SE)进行比较分析,判断土壤重金属与相应变量间相关关系是否存在空间非稳定性(表5)。当GWR模型变量参数的UQ-LQ值大于OLS相应变量参数的SE值两倍(2×SE)时,土壤重金属与相应光谱变量的关系存在明显的空间非平稳性,反之,则空间非平稳性不明显。Tab. 5
Tab. 5Test of spatial non-stationarity of the relationship between soil heavy metal and variables in Fuzhou City
重金属 | 常量 | 变量1 | 变量2 | 变量3 | 变量4 | |||||||||
UQ-LQ | SE | UQ-LQ | SE | UQ-LQ | SE | UQ-LQ | SE | UQ-LQ | SE | |||||
Cd | 0.04 | 0.18 | 3286.93 | 2440.54 | 0.03 | 0.09 | ||||||||
Cu | 27.71 | 11.23 | 24251.91 | 10698.67 | 2.51 | 0.82 | 15446.67 | 3914.22 | ||||||
Pb | 252.90 | 287.82 | 1035.71 | 978.55 | 323742.57 | 155253.07 | 1329.4 | 1314.67 | 234.69 | 289.44 | ||||
Cr | 15.78 | 3.60 | 277645.03 | 51064.04 | 6360.06 | 1981.41 | ||||||||
Zn | 153.11 | 31.68 | 80.30 | 17.37 | 17108.15 | 6167.21 | ||||||||
Ni | 6.39 | 5.03 | 2.39 | 2.32 | 61.63 | 70.43 |
6 结论
(1)与OLS模型相比较,利用GWR模型进行土壤重金属预测,由于充分考虑了重金属与光谱变量间相关关系的空间非平稳性,对重金属的预测精度有了一定的提高。但由于GWR模型应用的前提是变量间关系的空间非平稳性,故GWR模型对土壤重金属的预测效果提高的作用大小取决于土壤重金属与各变量间相关关系的空间非平稳性程度:① 对于Cr、Cu、Zn、Pb等预测模型参数具有显著空间非平稳性的元素,GWR模型预测精度较OLS改善明显。该4种元素GWR回归的调节R2分别为OLS模型的2.69倍、2.01倍、1.87倍和1.53倍,提高至0.716、0.649、0.525和0.216;而AIC值和残差平方和则明显降低,GWR预测的AIC值为720.703、698.112、916.964和1199.618,较OLS模型分别减少了21.31、32.09、8.82和4.61,而残差平方和则分别为5441.275、4141.423、92018.520和55866.254,仅为OLS模型的25.33%、30.09%、47.22%和86.84%。② 对于Cd和Ni等预测模型参数不具有显著空间异质性的元素,GWR预测效果较OLS则改善不明显。该两种元素GWR回归的调节R2较OLS模型略有提高(分别提高了0.015和0.007),残差平方和略有下降(分别降低了5.97%和4.18%),但GWR的AIC值较OLS模型却略有上升(分别增加了2.737和2.762)。(2)由于土壤重金属含量低,反映在土壤光谱信息很微弱,直接利用原始反射光谱进行模型构建效果较差,可通过不同的光谱变换进行重金属光谱特征的增强。其中,光谱的倒数变换效果最好,不仅可以有效增强土壤重金属的光谱特征,而且该变换及其微分形式,在各重金属的预测模型构建中均有较好的表现,很好地提高土壤重金属的预测效果。而光谱的倒数对数变换,虽然可以有效地增强土壤重金属的光谱特征,但对于预测模型的构建作用却不大。
