Comparative research on typical spatial interpolation methods for cancer data in small regions

关键词: 小区域;癌症死亡率;空间插值

Cancer has become a major livelihood problem endangering the health of global residents. And selecting an appropriate spatial interpolation method to analyze the spatial characteristics of cancer data in a small area can provide a basis for the effective development of regional cancer prevention and control efforts. In this study, we took the 2012 and 2016 lung cancer mortality data in Suxian District of Hunan Province as the research object, and used the average error and the root mean square error as the evaluation indicators. Five typical spatial interpolation methods, namely, inverse distance weighting (IDW), ordinary kriging (OK), trend surface analysis (TSA), multiple linear regression (MLR) and co-kriging (CK), were compared in terms of accuracy and effectiveness and parameter optimization. And then the optimal interpolation method for cancer data was determined in combination of the advantages and disadvantages of different interpolation methods. The results showed that: in terms of interpolation accuracy, the co-kriging (CK) method had the lowest root mean square error of lung cancer mortality in any year, with the interpolation accuracy being the highest, followed by ordinary kriging (OK), inverse distance weighting (IDW) (power=1) and multiple linear regression (MLR), while trend surface analysis (TSA) (order=5) had the lowest root mean square error; in terms of interpolation effect, the measured and predicted values of the five interpolation methods were significantly correlated, except for co-kriging (CK), the other four methods had a greater degree of underestimation of mortality, and the spatial distribution of co-kriging (CK) and ordinary kriging (OK) interpolation results were better. The co-kriging (CK) method, which considers both spatial factors and impact factors, is the optimal interpolation method for lung cancer mortality in 2012 and 2016 in the study area. The application of this method can provide the optimal technical support for the effective implementation of regional cancer prevention and control. This paper can also provide a great reference for the spatial interpolation method and parameter optimization of small area cancer data.
Keywords:small area;cancer mortality;spatial interpolation method

1 引言

癌症已成为危害全球居民健康的重大民生问题,据世界卫生组织国际癌症研究机构(IARC)发布的Globocan 2018报告显示,2018年全球新发癌症病例约1810万例,死亡约960万例,其中,中国分别占到约23.7%和30%,发病率和死亡率均高于全球平均水平[1],癌症已成为中国居民的主要死因。

已有研究表明,癌症的发病和死亡在地理空间分布上呈现一定的规律性,且其分布特征与社会经济和地形、气候、环境污染物等自然环境因素密切相关[2,3]。中国的癌症数据由癌症登记点以行政区划为单元进行统计登记,数据较为离散,尽管癌症登记点的数量已从2012年的72个增至2018年的368个,但覆盖面仍然不全,且绝大多数统计数据不包含病例空间信息,不能实现癌症空间分布的连续表达。传统利用统计学方法开展的研究,大多是基于上述数据进行统计分析,难免会出现分析结果不精准,规律总结不到位的现象。因此,亟需找到一种针对覆盖面小、分布不连续的数据的处理方法,从而满足癌症数据的处理要求。反距离加权(Inverse Distance Weighted, IDW)、克里金(Kriging)、趋势面分析(Trend Surface Analysis, TSA)等空间插值方法能将有限的、离散的点数据插值成连续的面数据,已逐渐从传统的地学领域广泛应用到公共卫生等众多领域中[4,5]。近些年来,越来越多的空间插值方法逐渐被应用于癌症数据分析、制图、风险预测等多个方面[5,6,7],不仅包括考虑癌症数据空间特征的方法[5,7],也包括考虑影响因素的方法[6],还包括同时考虑癌症数据空间特征及与相关因素空间关联的方法[7]。但国内外****大多直接借助这些插值方法,在大的研究尺度(如全国、省、市)就某一应用侧面开展研究。这些基于大尺度的研究结果不利于小区域癌症数据的精确化表达,也不满足精准防控的要求。同时,小区域癌症数据的空间插值方法研究鲜有涉及,究竟何种方法最适合小区域癌症数据的精细化表达有待进一步研究。


2 研究方法与数据来源

2.1 研究区概况

苏仙区位于湖南省南部,郴州市中部(25°30′38″N~25°00′19″N、112°16′41″E~112°53′23″E),地形以丘陵为主,地势自东南向西北倾斜;气候温和,雨量充沛;共设有14个乡镇和街道,总面积达1329.1 km2[8]。苏仙区矿产资源丰富、采矿历史悠久,是享誉世界的“有色金属之乡”,区内有煤矿、铅锌矿、大型多金属矿、石灰石矿等相关矿场处理厂近百家(图1)。但长期的矿业生产,对当地造成严重的环境污染,导致当地癌症高发,居民健康受到严重危害[8]



Fig. 1Overview of the study area (Suxian District, Hunan Province, central China)

2.2 数据来源

2.2.1 恶性肿瘤死亡统计数据 数据来源于湖南省郴州市疾病预防控制中心,包括苏仙区2012年、2016年各行政村(街道)历年的人口数和25种恶性肿瘤死亡人数。经对比发现,苏仙区肺癌的发病率和死亡率常年占该区恶性肿瘤发病和死亡首位,且肺癌数据具有样本量小、分布不连续的特点,因此本研究选择肺癌死亡数据为研究对象。从恶性肿瘤统计数据中提取ICD10编码为C34的肺癌死亡数据,进行逻辑错误校验等数据清洗工作,并计算肺癌粗死亡率。以往研究发现,若统计单元人群较少,直接利用死亡数和人口数计算的癌症粗死亡率往往存在较大的波动,得到的空间状态易存在一定误差[9,10],因此,本研究引入空间经验贝叶斯平滑方法对死亡率数据进行平滑。对平滑调整后的肺癌死亡率数据采用直方图法、正态QQ分布图进行统计检验,发现数据呈右偏分布。为避免半变异函数出现比例效应甚至产生畸变,故采取Johnson正态转换,使死亡率数据满足克里金插值方法应用的前提。

2.2.2 基础地理信息数据 包括行政区划(苏仙区乡镇/街道界、村界矢量数据)、数字高程模型、道路、河流数据,以及研究区2012年、2016年的气象监测数据(年均气温、降水、气压和相对湿度)、PM2.5、植被覆盖度、矿业分布、地区生产总值数据和重金属分布数据。其中乡镇/街道界、地形、植被覆盖度、气象监测数据和地区生产总值数据来源于中国科学院资源环境科学数据中心,该数据的生成过程经过了严格的质量控制,满足研究所需精度要求[11,12,13,14],进一步对数字高程模型进行坡度计算,获得研究区的坡度数据。村界、矿业分布、道路和河流数据经由对“苏仙区安全生产重点监管企业分布图”矢量化获得,该图来源于郴州市安全生产监督管理局。PM2.5数据来源于加拿大达尔豪西大学大气成分分析组公布的中国地区PM2.5年均值数据集( http://fizz.phys.dal.ca/~atmos/martin/?page_id=140#)。重金属分布数据来源于土壤样品的野外采集和实验室化学分析。对行政区划数据、数字高程模型、坡度数据等基础地理信息数据开展一致性检查、拓扑检查、数据分层等处理工作,形成基础地理信息数据集,为后续考虑影响因素的插值奠定数据基础。

2.3 研究方法

2.3.1 空间相关性分析方法 本研究采用全局Moran's I指数来分析癌症数据的空间自相关性。Moran's I的取值范围为-1~1,大于0为正相关(聚集),小于0为负相关(离散),其值越大空间分布的自相关性越大,当值为0时,表示空间分布呈随机分布。其表达式如下[15]

式中: n表示肺癌监测样本点个数; xixj分别表示肺癌监测样本点 ij的死亡率; ωij为空间权重矩阵,表示样点之间的空间邻近程度。

2.3.2 典型的空间插值方法 选取反距离加权、趋势面分析、普通克里金、多元线性回归



式中: Z*(x0)是未知点 x0处的死亡率预测值;n为周围已知点的个数; Z(xi)为样本点 xi处的死亡率真实值; wi为样点 xi的权重; di是估计点与已知点间的距离;p为距离的幂值。


式中: xi,yi为各样本点的坐标; zi(xi,yi)表示肺癌死亡率的真实值; fi(xi,yi)为趋势面拟合值; ei为剩余值(即残差)。


式中: z*x是未知点x处的死亡率预测值; z(xi)是样本点 xi处的死亡率真实值; λi为权重;n代表样点数; γh是半变异函数值; Nh是距离为h时的点对数; zxiz(xi+h)分别代表 xixi+h处的已知死亡率值。

(4)多元线性回归法(Multiple Linear Regression, MLR)。MLR是一种基于最小二乘原理的插值方法,将影响肺癌死亡的多个因素作为自变量进行多元回归分析,建立估计肺癌死亡率的插值模型,后将影响因素数据集带入模型,对未知地区的死亡率进行估算的方法。MLR法同时考虑了自变量的共线性和显著性问题,其计算公式可表示为[17]

式中:为未知点死亡率的预测值;为 n×k的影响因素矩阵;为各影响因素的参数值,为常数项。

(5)协同克里金法(Collocating Kriging, CK)。CK法是在协同区域化变量理论基础上,通过建立变异函数模型和剔除趋势,利用主变量的自相关性和与协变量间的互相关性进行估值[18]。该方法实质是OK法的延伸,其计算公式为:

式中: Z*x0为未知点 x0处的死亡率预测值; Z(xi)Z(xj)分别为 x0周围范围内主、辅变量值; μiμj分别为分配给主变量 xi和辅助变量 xj的权重,且∑ μi=1,∑ μj=0;nm分别为主变量和辅助变量的实测数目。

2.3.3 插值精度及效果评价方法 交叉验证可实现插值参数与模型的优化及不同插值方法性能的比较[19]。本研究采用适合小样本的留一法进行交叉验证,假定任意一个样点值未知,利用临近点对其进行预测,通过计算预测值与实际值的误差统计结果,对插值方法的精度进行评价[20]。平均误差(Mean Error, ME)、均方根误差(Root Mean Square Error, RMSE)作为精度评估的重要指标被用于比较五种典型空间插值方法插值精度的优劣。评估过程中优先比较均方根误差,值越小,插值精度越高,当均方根误差相等时,平均误差值越小,精度越高[21]

式中:n为样本点数; zxiz*(xi)分别为 xi处肺癌死亡率的真实值与预测值。

3 结果分析

3.1 肺癌死亡率数据的描述性统计特征


Tab. 1
Tab. 1Statistical characteristics of lung cancer mortality in Suxian District




Fig. 2Trend analysis of lung cancer mortality in Suxian District in 2012 and 2016


图32012年、2016年苏仙区肺癌死亡率 Moran′sI计算散点分布

Fig. 3Scatter diagrams of Moran′sI of lung cancer mortality in Suxian District in 2012 and 2016

3.2 多影响因素的确定

现有研究表明:社会经济、自然环境因素对肺癌的发病、死亡造成具有重要的影响[23,24,25]。基于前人研究结论及研究区特点,本研究选取:① 社会经济因素:到道路距离、到采矿场距离、人口密度、地区生产总值。② 自然环境因素:年均气温、年均降水、年均气压、年均相对湿度、高程、坡度、到河流距离、重金属Cd分布、植被覆盖度和PM2.5共14个因子作为肺癌死亡率的影响因素。计算各影响因素与肺癌死亡率的相关系数,并进行共线性分析,结果见表2。14个影响因素均与肺癌死亡率相关,且容忍度均大于0.1,方差膨胀因子(Variance inflation factor,VIF)均小于10,所选的影响因素间不存在共线性问题,可进行后续的回归分析。

Tab. 2
Tab. 2Results of variable correlation analysis and collinearity analysis


3.3 不同方法的空间插值结果分析

3.3.1 仅考虑空间自相关性的空间插值结果 在仅考虑空间自相关性的三种空间插值方法中,IDW法分别设定幂值为1、2、3;TSA法假定趋势面拟合中多项式的阶数范围为3~6;OK法对正态变换后的死亡率数据剔除趋势,分别采用常用的球状模型、指数模型和高斯模型三种半变异函数模型进行插值。对不同插值参数下不同插值模型拟合结果进行交叉验证,结果如表3所示。

Tab. 3
Tab. 3Cross-validation results of interpolation methods based on spatial autocorrelation
2012年反距离加权插值(IDW)幂值 = 10.0440.616
幂值 = 20.0330.619
幂值 = 30.0280.617
趋势面分析(TSA)多项式的阶 = 3-0.0050.727
多项式的阶 = 4-0.0050.702
多项式的阶 = 50.0010.701
多项式的阶 = 60.0120.703
普通克里金插值(OK)块金常数C0偏基台值 C变程 Range
2016年反距离加权插值(IDW)幂值 = 10.0010.800
幂值 = 20.0210.807
幂值 = 30.0440.851
趋势面分析(TSA)多项式的阶 = 3-0.0040.946
多项式的阶 = 4-0.0040.962
多项式的阶 = 50.0050.886
多项式的阶 = 6-0.0200.988
普通克里金插值(OK)块金常数C0偏基台值 C变程 Range



3.3.2 仅考虑影响因素的空间插值结果 将14个影响因素纳入模型,对肺癌死亡率数据建立逐步多元回归模型,最终逐步回归模型参数估计结果见表4。2012年死亡率逐步回归后,到道路距离、PM2.5、年均降雨和Cd四个影响因素未被纳入模型,2016年到河流距离、人口密度、坡度、植被覆盖度、年均相对气压和PM2.5等6个因素未被纳入模型,说明相比于其他因素,上述几种因子对肺癌死亡率的影响较小。回归结果表明,MLR模型具有统计学意义(p<0.01)。2012年的ME值和RMSE值分别为0.001和0.655,2016年模型的ME值和RMSE值分别为0.002和0.815。

Tab. 4
Tab. 4Stepwise regression parameter estimation


3.3.3 考虑空间自相关性和影响因素的空间插值结果 由于协同克里金插值模型计算非常复杂,为使插值精度和计算效率协同统一,一般采用最多3个辅助变量的插值模型。原因是:无论选取与目标变量相关性最高的单一因素,还是选取所有因素进行协同克里金插值,都会极大降低插值模型的精度和运算效率。为此,可利用主成分分析法将众多影响因素降维,得到累计贡献度较好的一到三个主要的综合指标,再将其作为辅助变量进行插值[26,27]。影响因素主成分分析结果见表5

Tab. 5
Tab. 5Results of principal component analysis of risk factors





3.3.4 不同插值方法插值精度对比 对比仅考虑空间自相关性的三种插值方法交叉验证结果可知(表6):2012年和2016年,OK法(高斯模型、指数模型)RMSE值最小,其次是IDW法(幂值=1),TSA法(阶数=5)的RMSE值最大。说明在忽略影响因素、仅考虑插值对象自身空间特征时,OK法插值精度最高。

Tab. 6
Tab. 6Cross-validation of estimation using different interpolation methods




3.3.5 不同插值方法插值效果对比




Fig. 4Linear regression diagrams of cross-validation in 2012 and 2016





Fig. 5Spatial distribution of the estimated lung cancer mortality based on different interpolation methods


4 讨论


4.1 不同统计方法描述空间结果的差异性




Fig. 6Distribution maps of lung cancer mortality in Suxian District in 2012 and 2016

4.2 空间插值方法的最优选择




5 结论








