Comparative research on typical spatial interpolation methods for cancer data in small regions
WANG Shibo,1,2, WANG Yong,1通讯作者:
收稿日期:2020-07-20接受日期:2020-10-26网络出版日期:2021-07-10
基金资助: |
Received:2020-07-20Accepted:2020-10-26Online:2021-07-10
作者简介 About authors
王士博(1997-),女,黑龙江哈尔滨人,硕士,主要研究方向为环境与健康时空信息分析及应用研究。E-mail:
摘要
关键词:
Abstract
Keywords:
PDF (5619KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
王士博, 王勇. 小区域癌症数据典型空间插值方法比较研究. 地理研究[J], 2021, 40(7): 2102-2118 doi:10.11821/dlyj020200680
WANG Shibo, WANG Yong.
1 引言
癌症已成为危害全球居民健康的重大民生问题,据世界卫生组织国际癌症研究机构(IARC)发布的Globocan 2018报告显示,2018年全球新发癌症病例约1810万例,死亡约960万例,其中,中国分别占到约23.7%和30%,发病率和死亡率均高于全球平均水平[1],癌症已成为中国居民的主要死因。已有研究表明,癌症的发病和死亡在地理空间分布上呈现一定的规律性,且其分布特征与社会经济和地形、气候、环境污染物等自然环境因素密切相关[2,3]。中国的癌症数据由癌症登记点以行政区划为单元进行统计登记,数据较为离散,尽管癌症登记点的数量已从2012年的72个增至2018年的368个,但覆盖面仍然不全,且绝大多数统计数据不包含病例空间信息,不能实现癌症空间分布的连续表达。传统利用统计学方法开展的研究,大多是基于上述数据进行统计分析,难免会出现分析结果不精准,规律总结不到位的现象。因此,亟需找到一种针对覆盖面小、分布不连续的数据的处理方法,从而满足癌症数据的处理要求。反距离加权(Inverse Distance Weighted, IDW)、克里金(Kriging)、趋势面分析(Trend Surface Analysis, TSA)等空间插值方法能将有限的、离散的点数据插值成连续的面数据,已逐渐从传统的地学领域广泛应用到公共卫生等众多领域中[4,5]。近些年来,越来越多的空间插值方法逐渐被应用于癌症数据分析、制图、风险预测等多个方面[5,6,7],不仅包括考虑癌症数据空间特征的方法[5,7],也包括考虑影响因素的方法[6],还包括同时考虑癌症数据空间特征及与相关因素空间关联的方法[7]。但国内外****大多直接借助这些插值方法,在大的研究尺度(如全国、省、市)就某一应用侧面开展研究。这些基于大尺度的研究结果不利于小区域癌症数据的精确化表达,也不满足精准防控的要求。同时,小区域癌症数据的空间插值方法研究鲜有涉及,究竟何种方法最适合小区域癌症数据的精细化表达有待进一步研究。
鉴于此,本研究以湖南省郴州市苏仙区2012年和2016年肺癌死亡率数据为研究对象,以平均误差和均方根误差为评价指标,对只考虑空间自相关性的反距离加权(IDW)、普通克里金(OK)、趋势面分析(TSA),考虑多影响因素的多元线性回归(MLR),以及同时考虑空间相关性和影响因素的协同克里金(CK)五种典型的空间插值方法进行精度效果对比及参数优选,从而确定适合小区域癌症数据的最优的空间插值方法及参数,以期最优的方法可对区域性癌症防控工作的有效开展提供最优的技术支撑。
2 研究方法与数据来源
2.1 研究区概况
苏仙区位于湖南省南部,郴州市中部(25°30′38″N~25°00′19″N、112°16′41″E~112°53′23″E),地形以丘陵为主,地势自东南向西北倾斜;气候温和,雨量充沛;共设有14个乡镇和街道,总面积达1329.1 km2[8]。苏仙区矿产资源丰富、采矿历史悠久,是享誉世界的“有色金属之乡”,区内有煤矿、铅锌矿、大型多金属矿、石灰石矿等相关矿场处理厂近百家(图1)。但长期的矿业生产,对当地造成严重的环境污染,导致当地癌症高发,居民健康受到严重危害[8]。图1
新窗口打开|下载原图ZIP|生成PPT图1研究区概况
Fig. 1Overview of the study area (Suxian District, Hunan Province, central China)
2.2 数据来源
2.2.1 恶性肿瘤死亡统计数据 数据来源于湖南省郴州市疾病预防控制中心,包括苏仙区2012年、2016年各行政村(街道)历年的人口数和25种恶性肿瘤死亡人数。经对比发现,苏仙区肺癌的发病率和死亡率常年占该区恶性肿瘤发病和死亡首位,且肺癌数据具有样本量小、分布不连续的特点,因此本研究选择肺癌死亡数据为研究对象。从恶性肿瘤统计数据中提取ICD10编码为C34的肺癌死亡数据,进行逻辑错误校验等数据清洗工作,并计算肺癌粗死亡率。以往研究发现,若统计单元人群较少,直接利用死亡数和人口数计算的癌症粗死亡率往往存在较大的波动,得到的空间状态易存在一定误差[9,10],因此,本研究引入空间经验贝叶斯平滑方法对死亡率数据进行平滑。对平滑调整后的肺癌死亡率数据采用直方图法、正态QQ分布图进行统计检验,发现数据呈右偏分布。为避免半变异函数出现比例效应甚至产生畸变,故采取Johnson正态转换,使死亡率数据满足克里金插值方法应用的前提。2.2.2 基础地理信息数据 包括行政区划(苏仙区乡镇/街道界、村界矢量数据)、数字高程模型、道路、河流数据,以及研究区2012年、2016年的气象监测数据(年均气温、降水、气压和相对湿度)、PM2.5、植被覆盖度、矿业分布、地区生产总值数据和重金属分布数据。其中乡镇/街道界、地形、植被覆盖度、气象监测数据和地区生产总值数据来源于中国科学院资源环境科学数据中心,该数据的生成过程经过了严格的质量控制,满足研究所需精度要求[11,12,13,14],进一步对数字高程模型进行坡度计算,获得研究区的坡度数据。村界、矿业分布、道路和河流数据经由对“苏仙区安全生产重点监管企业分布图”矢量化获得,该图来源于郴州市安全生产监督管理局。PM2.5数据来源于加拿大达尔豪西大学大气成分分析组公布的中国地区PM2.5年均值数据集(
2.3 研究方法
2.3.1 空间相关性分析方法 本研究采用全局Moran's I指数来分析癌症数据的空间自相关性。Moran's I的取值范围为-1~1,大于0为正相关(聚集),小于0为负相关(离散),其值越大空间分布的自相关性越大,当值为0时,表示空间分布呈随机分布。其表达式如下[15]:式中:
2.3.2 典型的空间插值方法 选取反距离加权、趋势面分析、普通克里金、多元线性回归
和协同克里金等五种典型的空间插值方法,具体插值方法如下:
(1)反距离加权法。反距离加权法是一种简单、常用的空间内插方法,它根据样本点和未知点间的距离计算权重进行加权平均,点间距离越小样本点被所赋权重越大,该方法可描述为[16]85:
式中:
(2)趋势面分析法。TSA法在空间自相关性的前提下,根据研究区已有样本点的属性值与地理坐标建立关系,拟合平滑的数学曲面方程,从而对未知点处属性值进行估算,TSA法计算公式为[16]82:
式中:
(3)普通克里金法。OK法以变异函数理论与结构分析为基础,在区域化变量间存在空间自相关性的前提下,根据未知点和其周围影响范围内样本点的距离及空间关系拟合模型确定权重,对未知点的取值进行无偏最优估计[16]87。该方法的计算公式和半变异函数公式为:
式中:
(4)多元线性回归法(Multiple Linear Regression, MLR)。MLR是一种基于最小二乘原理的插值方法,将影响肺癌死亡的多个因素作为自变量进行多元回归分析,建立估计肺癌死亡率的插值模型,后将影响因素数据集带入模型,对未知地区的死亡率进行估算的方法。MLR法同时考虑了自变量的共线性和显著性问题,其计算公式可表示为[17]:
式中:为未知点死亡率的预测值;为
(5)协同克里金法(Collocating Kriging, CK)。CK法是在协同区域化变量理论基础上,通过建立变异函数模型和剔除趋势,利用主变量的自相关性和与协变量间的互相关性进行估值[18]。该方法实质是OK法的延伸,其计算公式为:
式中:
2.3.3 插值精度及效果评价方法 交叉验证可实现插值参数与模型的优化及不同插值方法性能的比较[19]。本研究采用适合小样本的留一法进行交叉验证,假定任意一个样点值未知,利用临近点对其进行预测,通过计算预测值与实际值的误差统计结果,对插值方法的精度进行评价[20]。平均误差(Mean Error, ME)、均方根误差(Root Mean Square Error, RMSE)作为精度评估的重要指标被用于比较五种典型空间插值方法插值精度的优劣。评估过程中优先比较均方根误差,值越小,插值精度越高,当均方根误差相等时,平均误差值越小,精度越高[21]。
式中:n为样本点数;
3 结果分析
3.1 肺癌死亡率数据的描述性统计特征
平滑调整后死亡率的统计特征值如表1所示。从表中可以看出,2012年、2016年肺癌死亡率变化范围分别在(3.18~274.66)/10万和(11.53~257.27)/10万。调整后肺癌死亡率变异系数为0.856和0.736,属于高度变异(变异系数>0.36[22]),说明肺癌死亡率在空间分布上存在着较大的差异。从空间趋势分析图(图2)可以看出,研究区肺癌死亡率在空间上的分布为:南北低、中间高,呈现倒“U”型的趋势,东西方向较为平缓。同时,空间自相关计算结果显示,2012年和2016年肺癌死亡率的Moran′sI指数为0.278和0.130(p<0.001),具有较强的空间聚集性(图3)。由此可见,苏仙区不同地区肺癌死亡率存在显著差异,具有较强的空间自相关性,可利用空间插值方法进行插值分析。Tab. 1
表1
表1苏仙区肺癌死亡率统计特征值
Tab. 1
最大值(/10万) | 最小值(/10万) | 平均值(/10万) | 标准差(/10万) | 变异系数 | |
---|---|---|---|---|---|
2012年 | 274.66 | 3.18 | 35.29 | 30.22 | 0.856 |
2016年 | 252.27 | 11.53 | 34.41 | 25.32 | 0.736 |
新窗口打开|下载CSV
图2
新窗口打开|下载原图ZIP|生成PPT图22012年、2016年苏仙区肺癌死亡率空间趋势分析
Fig. 2Trend analysis of lung cancer mortality in Suxian District in 2012 and 2016
图3
新窗口打开|下载原图ZIP|生成PPT图32012年、2016年苏仙区肺癌死亡率 Moran′sI计算散点分布
Fig. 3Scatter diagrams of Moran′sI of lung cancer mortality in Suxian District in 2012 and 2016
3.2 多影响因素的确定
现有研究表明:社会经济、自然环境因素对肺癌的发病、死亡造成具有重要的影响[23,24,25]。基于前人研究结论及研究区特点,本研究选取:① 社会经济因素:到道路距离、到采矿场距离、人口密度、地区生产总值。② 自然环境因素:年均气温、年均降水、年均气压、年均相对湿度、高程、坡度、到河流距离、重金属Cd分布、植被覆盖度和PM2.5共14个因子作为肺癌死亡率的影响因素。计算各影响因素与肺癌死亡率的相关系数,并进行共线性分析,结果见表2。14个影响因素均与肺癌死亡率相关,且容忍度均大于0.1,方差膨胀因子(Variance inflation factor,VIF)均小于10,所选的影响因素间不存在共线性问题,可进行后续的回归分析。Tab. 2
表2
表2变量相关性分析及共线性分析结果
Tab. 2
影响因素 | 相关系数 | 容忍度 | 方差膨胀因子 | |
---|---|---|---|---|
2012年 | 2016年 | |||
到河流距离 | -0.194* | -0.249** | 0.455 | 2.200 |
到道路距离 | -0.092 | -0.229* | 0.450 | 2.220 |
到采矿场距离 | -0.129 | -0.234* | 0.222 | 4.508 |
人口密度 | 0.025 | 0.249* | 0.262 | 3.818 |
地区生产总值 | 0.352** | 0.295** | 0.154 | 6.477 |
高程 | 0.208* | -0.340* | 0.110 | 9.111 |
坡度 | 0.127* | -0.394** | 0.128 | 7.796 |
植被覆盖度 | -0.164 | -0.464** | 0.288 | 3.473 |
年均温度 | -0.138 | 0.470* | 0.186 | 5.366 |
年均降雨 | 0.394** | -0.065 | 0.369 | 2.708 |
年均相对湿度 | -0.059 | -0.199** | 0.118 | 8.504 |
年均相对气压 | -0.297** | 0.133** | 0.171 | 5.855 |
PM2.5 | 0.126 | 0.272** | 0.141 | 7.084 |
Cd | -0.204* | -0.208* | 0.513 | 1.949 |
新窗口打开|下载CSV
3.3 不同方法的空间插值结果分析
3.3.1 仅考虑空间自相关性的空间插值结果 在仅考虑空间自相关性的三种空间插值方法中,IDW法分别设定幂值为1、2、3;TSA法假定趋势面拟合中多项式的阶数范围为3~6;OK法对正态变换后的死亡率数据剔除趋势,分别采用常用的球状模型、指数模型和高斯模型三种半变异函数模型进行插值。对不同插值参数下不同插值模型拟合结果进行交叉验证,结果如表3所示。Tab. 3
表3
表3基于空间自相关性插值方法交叉验证结果
Tab. 3
插值方法 | 插值参数 | 平均误差ME | 均方根误差RMSE | |||
---|---|---|---|---|---|---|
2012年 | 反距离加权插值(IDW) | 幂值 = 1 | 0.044 | 0.616 | ||
幂值 = 2 | 0.033 | 0.619 | ||||
幂值 = 3 | 0.028 | 0.617 | ||||
趋势面分析(TSA) | 多项式的阶 = 3 | -0.005 | 0.727 | |||
多项式的阶 = 4 | -0.005 | 0.702 | ||||
多项式的阶 = 5 | 0.001 | 0.701 | ||||
多项式的阶 = 6 | 0.012 | 0.703 | ||||
普通克里金插值(OK) | 块金常数C0 | 偏基台值 C | 变程 Range | |||
球状Spherical | 0.058 | 0.737 | 14506.22 | 0.003 | 0.620 | |
指数Exponential | 0.001 | 0.837 | 18262.84 | 0.002 | 0.620 | |
高斯Gaussian | 0.181 | 0.619 | 12601.85 | 0.004 | 0.615 | |
2016年 | 反距离加权插值(IDW) | 幂值 = 1 | 0.001 | 0.800 | ||
幂值 = 2 | 0.021 | 0.807 | ||||
幂值 = 3 | 0.044 | 0.851 | ||||
趋势面分析(TSA) | 多项式的阶 = 3 | -0.004 | 0.946 | |||
多项式的阶 = 4 | -0.004 | 0.962 | ||||
多项式的阶 = 5 | 0.005 | 0.886 | ||||
多项式的阶 = 6 | -0.020 | 0.988 | ||||
普通克里金插值(OK) | 块金常数C0 | 偏基台值 C | 变程 Range | |||
球状Spherical | 0.016 | 1.160 | 10321.07 | -0.009 | 0.813 | |
指数Exponential | 0.010 | 1.240 | 13383.30 | -0.007 | 0.803 | |
高斯Gaussian | 0.244 | 0.954 | 9386.33 | -0.001 | 0.826 |
新窗口打开|下载CSV
对比IDW法的交叉验证结果可知,IDW的最佳幂值为1,幂值越大,插值精度越低。TSA法首先用回归方法求得趋势值和剩余值,再建立趋势面回归方程,因此选择合适的阶次对于模型模拟十分重要。随着多项式阶数的增加,TSA法插值精度呈现先增加后降低的态势,多项式的阶为5时精度最高。对比OK法三种半变异函数模型的ME和RMSE值发现,2012年和2016年的最优半变异函数模型分别为高斯模型和指数模型。
3.3.2 仅考虑影响因素的空间插值结果 将14个影响因素纳入模型,对肺癌死亡率数据建立逐步多元回归模型,最终逐步回归模型参数估计结果见表4。2012年死亡率逐步回归后,到道路距离、PM2.5、年均降雨和Cd四个影响因素未被纳入模型,2016年到河流距离、人口密度、坡度、植被覆盖度、年均相对气压和PM2.5等6个因素未被纳入模型,说明相比于其他因素,上述几种因子对肺癌死亡率的影响较小。回归结果表明,MLR模型具有统计学意义(p<0.01)。2012年的ME值和RMSE值分别为0.001和0.655,2016年模型的ME值和RMSE值分别为0.002和0.815。
Tab. 4
表4
表4逐步回归参数估计结果
Tab. 4
影响因素 | 参数估计 | t | p | |
---|---|---|---|---|
2012年 | 截距 | 383.236 | 6.839 | 0.000 |
到河流距离 | -0.410 | -4.422 | 0.000 | |
高程 | -0.425 | -2.524 | 0.013 | |
坡度 | 0.321 | 1.934 | 0.050 | |
人口密度 | -0.293 | -2.441 | 0.016 | |
地区生产总值 | 0.216 | 1.466 | 0.014 | |
年均相对气压 | -1.122 | -7.851 | 0.000 | |
年均温度 | -0.281 | -2.199 | 0.030 | |
到矿区距离 | 0.371 | 2.848 | 0.005 | |
植被覆盖度 | -0.260 | -2.260 | 0.026 | |
年均相对湿度 | 0.580 | 3.438 | 0.001 | |
2016年 | 截距 | -97.284 | -3.028 | 0.003 |
到道路距离 | 0.164 | 1.558 | 0.022 | |
高程 | -0.401 | -2.867 | 0.005 | |
地区生产总值 | 0.195 | 2.065 | 0.041 | |
到矿区距离 | -0.339 | -3.445 | 0.001 | |
年均相对湿度 | 0.596 | 2.333 | 0.021 | |
年均温度 | 1.157 | 3.528 | 0.001 | |
年均降雨 | 0.692 | 3.600 | 0.000 | |
Cd | -0.395 | -1.997 | 0.048 |
新窗口打开|下载CSV
3.3.3 考虑空间自相关性和影响因素的空间插值结果 由于协同克里金插值模型计算非常复杂,为使插值精度和计算效率协同统一,一般采用最多3个辅助变量的插值模型。原因是:无论选取与目标变量相关性最高的单一因素,还是选取所有因素进行协同克里金插值,都会极大降低插值模型的精度和运算效率。为此,可利用主成分分析法将众多影响因素降维,得到累计贡献度较好的一到三个主要的综合指标,再将其作为辅助变量进行插值[26,27]。影响因素主成分分析结果见表5。
Tab. 5
表5
表5影响因素主成分分析结果
Tab. 5
类别 | 第一主成分 | 第二主成分 | 第三主成分 | 第四主成分 | 第五主成分 | 第六主成分 | 第七主成分 | |
---|---|---|---|---|---|---|---|---|
2012年 | 特征值 | 4.73600 | 2.22700 | 1.28400 | 0.61000 | 0.27300 | 0.11200 | 0.07300 |
贡献度 | 0.57326 | 0.27054 | 0.07629 | 0.02934 | 0.02093 | 0.01745 | 0.01219 | |
累计贡献度 | 0.57326 | 0.84380 | 0.92009 | 0.94943 | 0.97036 | 0.98781 | 1 | |
2016年 | 特征值 | 2.96600 | 1.87900 | 0.73000 | 0.66200 | 0.29200 | 0.15700 | 0.07000 |
贡献度 | 0.57494 | 0.29225 | 0.07082 | 0.03242 | 0.01746 | 0.00783 | 0.00399 | |
累计贡献度 | 0.57494 | 0.86749 | 0.93831 | 0.97072 | 0.98818 | 0.99601 | 1 |
新窗口打开|下载CSV
2012年和2016年前三个主成分的累计贡献度分别达到92.01%和93.831%,包含原变量的绝大多数信息。因此以正态转换后死亡率数据为因变量,前三个主成分为协变量进行协同克里金插值。分别采用球状模型、指数模型和高斯模型三种半变异函数对2012年和2016年死亡率数据进行CK法插值,对比发现:2012年,半变异函数为高斯模型时,ME值和RMSE值分别为0.003和0.611,插值精度最好;2016年,选用指数模型为半变异函数时,ME和RMSE值分别为-0.006和0.782,插值精度最高。
3.3.4 不同插值方法插值精度对比 对比仅考虑空间自相关性的三种插值方法交叉验证结果可知(表6):2012年和2016年,OK法(高斯模型、指数模型)RMSE值最小,其次是IDW法(幂值=1),TSA法(阶数=5)的RMSE值最大。说明在忽略影响因素、仅考虑插值对象自身空间特征时,OK法插值精度最高。
Tab. 6
表6
表6不同插值方法插值精度对比
Tab. 6
指标 | 插值方法 | |||||
---|---|---|---|---|---|---|
IDW | TSA | OK | MLR | CK | ||
2012年 | ME | 0.044 | 0.001 | 0.004 | 0.001 | 0.003 |
RMSE | 0.619 | 0.701 | 0.615 | 0.655 | 0.611 | |
2016年 | ME | 0.001 | 0.005 | -0.007 | 0.002 | -0.006 |
RMSE | 0.806 | 0.886 | 0.803 | 0.815 | 0.782 |
新窗口打开|下载CSV
对比考虑了影响因素的MLR法和CK的交叉验证结果,两种方法的ME值相差不大,但2012年和2016年CK(高斯模型、指数模型)的RMSE值分别较同年MLR法的RMSE值小,CK法拟合精度显著优于MLR法。
对2012年、2016年五种插值方法交叉验证结果进行综合对比发现,除IDW(1)法,其余四种方法的ME值相差不大;五种方法的RMSE值间存在一定差异,2012年从小到大排序为:CK法(高斯模型)<OK法(高斯模型)<IDW(1)<MLR<TSA(5),2016年从小到大排序为:CK法(指数模型)<OK法(指数模型)<IDW(1)<MLR<TSA(5),CK法插值精度最好。相比于仅考虑空间自相关性方法中精度最高的OK法,考虑影响因素的方法中精度更好的CK法RMSE值分别减小了0.65%、2.62%。这是由于肺癌死亡率本身具有较好的空间自相关性,且所选影响因素对死亡率的影响较为显著,在考虑研究数据自身空间特征的基础上进一步考虑相关因素的影响,可有效提升空间插值的精度,获得更好的结果。
3.3.5 不同插值方法插值效果对比
(1)平滑效应对比。肺癌死亡率的真实值与不同插值方法所得的最精确估计值的线性回归分析结果如图4所示,不同插值方法的真实值与估计值均显著相关。可以看出,IDW法、OK法和CK法估计的肺癌死亡率较为集中,而MLR法和TSA法的估计的肺癌死亡率相对分散,说明IDW、OK和CK三种插值方法模拟效果优于MLR和TSA。进一步对线性回归斜率进行对比分析,2012年插值结果中,CK的斜率为0.653,最接近于1。OK法、IDW法和TSA法斜率逐渐减小,分别为0.642、0.564和0.552。MLR法的斜率最小为0.529;2016年插值结果中,CK法的斜率较大,为0.658,其次是MLR、IDW和OK法,斜率分别为0.643、0.634和0.546,TSA法斜率最小为0.456。
图4
新窗口打开|下载原图ZIP|生成PPT图42012年、2016年交叉验证的线性回归分布
Fig. 4Linear regression diagrams of cross-validation in 2012 and 2016
总体来说,五种方法均存在不同程度的平滑效应,其中,2012年和2016年分别是MLR法和TSA法对肺癌死亡率的平滑效应最大,对肺癌死亡率低估程度最大,两年内均是CK法平滑效应最小,估计值与真实值更为接近。
(2)空间分布特征对比。分别利用五种插值方法对2012年、2016年肺癌死亡率进行最精确插值,并生成肺癌死亡率空间分布图(图5)。应用五种空间插值方法得到的肺癌死亡率的空间分布特点总体一致:危化品企业、冶炼企业和金属矿区密集分布的中部地区死亡率最高,矿业活动较少、自然环境较优越的东南部地区死亡率较低。但不同插值方法的预测结果在整体制图表达效果以及局部地区的空间分布上存在一定差异。由图5可以看出,IDW法对极值大小过于敏感,局部地区“牛眼”现象较为严重;TSA法和MLR法结果条带化明显,且TAS法对中部高死亡率地区表现不明显,存在着失真现象;OK和CK插值结果相对更为连续,对死亡率高值区和低值区的预测效果均较好,整体插值效果明显优于其他方法。其中,CK法的平滑效应最小,估计值与实测值更为贴近。因此,CK法的插值效果最佳。
图5
新窗口打开|下载原图ZIP|生成PPT图5基于不同方法的肺癌死亡率空间分布
Fig. 5Spatial distribution of the estimated lung cancer mortality based on different interpolation methods
综合考虑不同插值参数下不同空间插值方法的插值精度、平滑效应和插值结果空间分布效果,可以确定同时考虑空间因素和影响因素的CK法为苏仙区肺癌死亡率最优插值方法,该方法能够更加有效避免出现系统误差,结果亦更为精确。
4 讨论
癌症的发生与社会、自然环境因素紧密相关,相关因素存在的空间差异导致癌症数据大部分都具有空间依赖性。由于经典统计学通常要求数据满足随机、独立、同分布等要求,因此传统癌症数据统计学研究,仅利用统计学方法分析具有空间属性的癌症数据,结果可能存在一定偏差[28]。空间插值技术以空间自相关性为出发点,将离散的数据插值为连续的数据,可弥补传统癌症数据统计学研究的不足,更为准确揭示癌症时空分布及变化规律。4.1 不同统计方法描述空间结果的差异性
为进一步探寻采用传统统计学方法得到的空间统计结果与使用空间插值方法得到的统计结果的异同,本研究以2012年、2016年肺癌死亡率为例,对传统的以行政区划为单元的肺癌死亡率数据进行了空间制图(图6,见第2114页),并与空间插值方法得到的肺癌死亡率空间分布图(图5)进行了对比。通过对比发现:在等级图中,南部、中部地区死亡率情况较为分散,且各行政村的死亡率值单一。以观山洞街道为例,2012年和2016年观山洞街道北部死亡率较高,南部死亡率较低,而2012年和2016年死亡率等级图6(见第2114页)中,观山洞街道内部的死亡率变化均未能体现。由此可见,空间插值方法能有效突破行政区划的限制,生成连续的数据,更为直观地展现肺癌死亡率的空间分布情况,探测出更精准的、形状不规则的癌症高风险地区。图6
新窗口打开|下载原图ZIP|生成PPT图62012年、2016年苏仙区肺癌死亡率等级
Fig. 6Distribution maps of lung cancer mortality in Suxian District in 2012 and 2016
4.2 空间插值方法的最优选择
没有绝对的最优空间插值方法,所谓的最优空间插值方法,是指在满足一定要求的条件下,针对不同研究区某一具体研究对象的最佳方法,且同一种空间插值方法,当插值参数改变时插值结果也将产生变化。本研究中,对比采用球状模型、指数模型和高斯模型3种半变异函数的OK和CK插值结果,2012年采用高斯模型的准确度较高,而2016年采用指数模型的准确度较高。也有研究****发现,当研究区、研究对象发生改变时,同样使用克里金插值,高斯模型也许并不是最适合的半变异函数模型[29]。由此说明,没有任何一种固定的插值方法和插值参数适合所有的研究。在利用空间插值方法进行研究时,只有针对不同研究区的实际情况,对样本数据充分分析,利用不同的插值方法和插值参数反复试验和比较,才能得到最佳的空间插值结果。综合肺癌死亡率交叉验证及空间分布特征结果,两种克里金插值方法的预测效果要优于其他三种方法。这可能由于克里金插值方法是以变函数和结构分析为基础,更为充分考虑数据的空间分布和自相关性,实现有限区域内对未知样点的无偏最优估计。因此,具有较强空间相关性的肺癌死亡率数据选用克里金插值获得了更好的效果。同时,在本研究中,肺癌死亡率数据与最终选取的各影响因素间具有较好的相关性,CK法相比于OK法插值精度更高,这一结果也与许多****的研究结果相吻合[29,30]。在考虑空间自相关性的另外两种插值方法中,TSA法适合研究区表面平缓的情况,IDW法对于以距离为主要影响因素的对象插值精度较高。由于苏仙区范围较小、样本分布较为均匀,且肺癌死亡率变化范围较大,局部地区死亡率较高,所以TSA法对于高死亡率地区的插值效果不够理想,IDW的插值效果较OK和CK法插值结果相差较小。若研究区较小、研究对象空间自相关性一般或较弱时,也许会出现IDW法插值精度更佳的情况。因此,在不同研究中需具体问题具体分析,根据研究数据特点采取适合的方法。
由于致病因素的复杂性,癌症虽然是一种慢性非传染性疾病,但部分癌症的流性特征与传染病相似,即数据存在着空间关联性[31]。在早期研究中使用到的大多数插值方法(如IDW、TSA法)仅考虑了死亡率数据自身的空间特性,未充分重视相关因素对插值疾病空间分布的影响,且多用于大空间尺度,预测精度受到一定限制、得到的研究结果也不能直接在小尺度地区推广。与其他方法相比,CK法可以利用与癌症死亡率相关性较好的影响因素来提高插值精度,将癌症死亡率数据的空间自相关性和影响因素间的交互相关性相结合进行无偏最优估计,有效提升插值的精度[32,33]。本文以小区域苏仙区的肺癌死亡率数据为例,研究发现,CK法为最优插值方法,能获得精度最高、空间分布效果最佳的空间插值结果。小区域内各地理环境因素同质性好、数据准确,且相关个人、社会等影响因素具有信息量大、更易于获得的特点。在小区域内采用CK法对癌症死亡率数据进行插值,不仅能够考虑数据自身空间特性,还能充分考虑相关影响因素的作用,包含信息更为全面、插值精度和效果也能得到显著提升。总之,CK法在小区域癌症数据的空间插值估计中有着很大的应用潜力,可获得更为精准的癌症死亡率空间分布规律,对癌症精准防控政策的提出及实地调查分析均能提供良好的工作依据。同时,本研究可为其他小区域癌症数据空间插值方法及参数优选提供参考。
5 结论
本文对湖南省郴州市苏仙区肺癌死亡率数据的不同典型空间插值方法进行比选,探寻适合小区域癌症数据最优空间插值方法和参数,研究结论如下:(1)最优插值方法及参数。同时考虑空间自相关性和影响因素的CK法(高斯模型、指数模型)为2012年和2016年苏仙区肺癌死亡率的最优插值方法,在插值分析中考虑空间特征的基础上考虑影响因素具有重要意义。
(2)插值精度。IDW法随着幂值的增大,精度逐渐降低,幂值为1时精度最高;TSA法的插值精度随着多项式阶数的增加先增大后降低,当阶数为5时精度最高;2012年,对于OK和CK插值,当半变异函数选为高斯模型时拟合精度最高,在2016年,当半变异函数为指数模型时,OK和CK插值拟合精度最高。经对比,CK(高斯模型、指数模型)的插值精度最高;OK(高斯模型、指数模型)、IDW(1)和MLR精度居中;TSA(5)精度最低。
(3)插值效果。综合考虑平滑效应和空间分布特征,五种方法的插值效果从优到差依次为:CK法、OK法、IDW法、MLR法和TSA法。在平滑效应方面,TSA法对肺癌死亡率低估程度最大,平滑效应最为明显,CK法的平滑效应最小。空间分布特征方面,IDW结果“牛眼”现象严重,TSA法局部趋势解释程度不够,MLR条带化明显,OK和CK插值结果不同样点间过渡的平缓性和连接性较强,整体趋势和局部趋势反映较好。
然而肺癌发病和死亡的受到多种因素的共同作用,本文主要针对社会、自然环境等外因进行研究,对于遗传、已有病史、生活习惯等因素未能考虑。除插值方法本身引起的误差外,不同影响因素的选择也会对插值精度有影响,更多影响因素及其影响程度有待后续的进一步研究。
致谢:
真诚感谢二位匿名评审专家在论文评审中付出的时间和精力,评审专家对本文结论实用性和推广性分析梳理方面提出的修改意见,使本文获益匪浅。参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子
,
DOI:10.3322/caac.v68.6URL [本文引用: 1]
,
DOI:10.1016/S2214-109X(18)30488-1URL [本文引用: 1]
Background Understanding disparities in the burden of cancer attributable to different risk factors is crucial to inform and improve cancer prevention and control. In this report, we estimate the site-specific population-attributable fractions (PAFs) for 23 potentially modifiable risk factors across all provinces in China. Methods In this comparative risk assessment study, we used 2014 cancer mortality data for adults from 978 county-level surveillance points in 31 provinces of mainland China. Risk-factor prevalence estimates were obtained from representative surveys. We used summary relative risks obtained from several recent large-scale pooled analyses or high-quality meta-analyses of studies in China. We calculated PAFs using multiple formulae incorporating exposure prevalence and relative risk data stratified by age, sex and province and then combined to create summary PAFs by sex, cancer site, and risk factors. Findings About 1 036 004 cancer deaths (45.2% of all cancer deaths [95% CI 44.0-46.4]) in China in 2014 in adults aged 20 years or older were attributable to 23 evaluated risk factors. The PAF was higher in men (51.2% [95% CI 50.0-52.4]) than in women (34.9% [33.6-36.2]), with the leading risk factors being active smoking in men and low fruit intake in women. By province, the PAF in both sexes combined ranged from 35.2% in Shanghai to 52.9% in Heilongjiang, while the PAF varied from 40.9% in Shanghai to 56.4% in Guangdong among men and from 26.9% in Shanghai to 48.0% in Heilongjiang among women. The highest PAF among men was smoking in all 31 provinces, whereas among women it varied among low fruit intake (14 provinces), hepatitis B virus infection (seven provinces), smoking (six provinces), excess bodyweight (three provinces), and human papilloma virus infection (one province). Interpretation The PAFs of cancers attributable to potentially modifiable risk factors vary substantially across provinces in China. Regional adoption of effective primary cancer prevention strategies has a vast potential to reduce the burden of cancer and disparities in China. Smoking, poor diet, and infection warrant particular policy attention as they contributed a large proportion to the total cancer burden. Funding National Science and Technology Basic Research Special Foundation of China. Copyright (c) 2019 The Author(s). Published by Elsevier Ltd. This is an Open Access article under the CC BY-NC-ND 4.0 license.
,
URL [本文引用: 1]
,
[本文引用: 1]
URL [本文引用: 1]
,
[本文引用: 3]
URL [本文引用: 3]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1016/j.juro.2015.07.091URL [本文引用: 2]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1016/j.ajog.2015.01.045URL [本文引用: 3]
,
URL [本文引用: 2]
,
URLPMID:15446615 [本文引用: 1]
Elevated cancer rates in some areas may arise simply by chance. The pattern generally warrants a study only when it is statistically significant. This research uses a recently developed spatial statistic, implemented in a Geographic Information System (GIS) environment, to detect spatial clusters of diagnostically specific cancers in Illinois. On the basis of the cancer incidence data (the 1986-1990 and 1996-2000 data sets) from the Illinois Cancer Registry, the study examines different clustering patterns of four leading types of cancer in Illinois, namely breast, lung, colorectal, and prostate cancers. The first part of the study uses the data at the county level, and the second part uses the data in zip code areas. The analysis using the zip code area data directly may be problematic since the rate estimates for rare events like cancer in small populations are susceptible to data errors. The spatial order method is used to group zip code areas so that the new geographic areas have sufficiently large base populations for estimates of reliable cancer rates. Results from the spatial cluster analysis may be valuable for other researchers to design follow-up case-control and retrospective cohort studies.
,
URLPMID:17137504 [本文引用: 1]
Geostatistical techniques that account for spatially varying population sizes and spatial patterns in the filtering of choropleth maps of cancer mortality were recently developed. Their implementation was facilitated by the initial assumption that all geographical units are the same size and shape, which allowed the use of geographic centroids in semivariogram estimation and kriging. Another implicit assumption was that the population at risk is uniformly distributed within each unit. This paper presents a generalization of Poisson kriging whereby the size and shape of administrative units, as well as the population density, is incorporated into the filtering of noisy mortality rates and the creation of isopleth risk maps. An innovative procedure to infer the point-support semivariogram of the risk from aggregated rates (i.e. areal data) is also proposed. The novel methodology is applied to age-adjusted lung and cervix cancer mortality rates recorded for white females in two contrasted county geographies: 1) state of Indiana that consists of 92 counties of fairly similar size and shape, and 2) four states in the Western US (Arizona, California, Nevada and Utah) forming a set of 118 counties that are vastly different geographical units. Area-to-point (ATP) Poisson kriging produces risk surfaces that are less smooth than the maps created by a naïve point kriging of empirical Bayesian smoothed rates. The coherence constraint of ATP kriging also ensures that the population-weighted average of risk estimates within each geographical unit equals the areal data for this unit. Simulation studies showed that the new approach yields more accurate predictions and confidence intervals than point kriging of areal data where all counties are simply collapsed into their respective polygon centroids. Its benefit over point kriging increases as the county geography becomes more heterogeneous. A major limitation of choropleth maps is the common biased visual perception that larger rural and sparsely populated areas are of greater importance. The approach presented in this paper allows the continuous mapping of mortality risk, while accounting locally for population density and areal data through the coherence constraint. This form of Poisson kriging will facilitate the analysis of relationships between health data and putative covariates that are typically measured over different spatial supports.
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1016/j.scitotenv.2016.11.001URL [本文引用: 1]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.3390/ijerph10105163URL [本文引用: 1]
,
URL [本文引用: 1]
URL [本文引用: 1]
,
URL [本文引用: 1]
URL [本文引用: 1]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1016/j.actatropica.2016.08.007URL [本文引用: 1]
[本文引用: 3]
[本文引用: 3]
,
[本文引用: 1]
URL [本文引用: 1]
,
[本文引用: 1]
URL [本文引用: 1]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1016/j.swaqe.2014.04.002URL [本文引用: 1]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1016/j.patcog.2015.03.009URL [本文引用: 1]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1007/s10661-015-4725-xURLPMID:26202813 [本文引用: 1]
Monitoring of heavy metal concentrations in groundwater potentially used for drinking and irrigation is very important. This study collected groundwater samples from 78 wells in July 2012 and analyzed them for 17 heavy metals (Pb, Zn, Cr, Mn, Fe, Cu, Cd, Co, Ni, Al, As, Mo, Se, B, Ti, V, Ba). Spatial distributions of these elements were identified using three different interpolation methods [inverse distance weighing (IDW), radial basis function (RBF), and ordinary kriging (OK)]. Root mean squared error (RMSE) and mean absolute error (MAE) for cross validation were used to select the best interpolation methods for each parameter. Multivariate statistical analysis [cluster analysis (CA) and factor analysis (FA)] were used to identify similarities among sampling sites and the contribution of variables to groundwater pollution. Fe and Mn levels exceeded World Health Organization (WHO) recommended limits for drinking water in almost all of the study area, and some locations had Fe and Mn levels that exceeded Food and Agriculture Organization (FAO) guidelines for drip irrigation systems. Al, As, and Cd levels also exceeded WHO guidelines for drinking water. Cluster analysis classified groundwater in the study area into three groups, and factor analysis identified five factors that explained 73.39% of the total variation in groundwater, which are as follows: factor 1: Se, Ti, Cr, Mo; factor 2: Ni, Mn, Co, Ba; factor 3: Pb, Cd; factor 4: B, V, Fe, Cu; and factor 5: AS, Zn. As a result of this study, it could be said that interpolation methods and multivariate statistical techniques gave very useful results for the determination of the source.
,
[本文引用: 1]
URL [本文引用: 1]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1021/es305295dURL [本文引用: 1]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1016/j.jclepro.2017.09.185URL [本文引用: 1]
,
[本文引用: 1]
URL [本文引用: 1]
,
[本文引用: 1]
URL [本文引用: 1]
,
URL [本文引用: 1]
,
[本文引用: 1]
URL [本文引用: 1]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1016/j.jenvman.2018.01.074URL [本文引用: 2]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1016/j.scitotenv.2018.12.330URL [本文引用: 1]
The spatial distribution of potentially toxic metals (PTMs) has been shown to be related to anthropogenic activities. Several auxiliary variables, such as those related to remote sensing data (e.g. digital elevation models, land use, and enhanced vegetation index) and soil properties (e.g. pH, soil type and cation exchange capacity), have been used to predict the spatial distribution of soil PTMs. However, these variables are mostly focused on natural processes or a single aspect of anthropogenic activities and cannot reflect the effects of integrated anthropogenic activities. Nighttime lights (NTL) images, a representative variable of integrated anthropogenic activities, may have the potential to reflect PTMs distribution. To uncover this relationship and determine the effects on evaluation precision, the NTL was employed as an auxiliary variable to map the distribution of PTMs in the United Kingdom. In this study, areas with a digital number (DN) >= 50 and an area > 30 km(2) were extracted from NTL images to represent regions of high-frequency anthropogenic activities. Subsequently, the distance between the sampling points and the nearest extracted area was calculated. Barium, lead, zinc, copper, and nickel concentrations exhibited the highest correlation with this distance. Their concentrations were mapped using distance as an auxiliary variable through three different kriging methods, i.e., ordinary kriging (OK), cokriging (CK), and regression kriging (RK). The accuracy of the predictions was evaluated using the leave-one-out cross validation method. Regardless of the elements, CK and RK always exhibited lower mean absolute error and root mean square error, in contrast to OK. This indicates that using the NTL as the auxiliary variable indeed enhanced the prediction accuracy for the relevant PTMs. Additionally, RK showed superior results in most cases. Hence, we recommend RK for prediction of PTMs when using the NTL as the auxiliary variable. (c) 2018 Elsevier B.V.
,
[本文引用: 1]
URL [本文引用: 1]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1016/j.chemolab.2012.05.015URL [本文引用: 1]
,
DOI:http://www.dlyj.ac.cn/article/2021/1000-0585/10.1016/j.ecolind.2007.05.005URL [本文引用: 1]