蒲英霞,1,2,3, 武振伟1, 葛莹4, 孔繁花11.南京大学地理与海洋科学学院,南京 210023
3.江苏省地理信息资源开发与利用协同创新中心,南京 210023
4.河海大学地球科学与工程学院,南京 211100

Analyzing the spatial mechanism of interprovincial migration in China under uncertainty

PU Yingxia,1,2,3, WU Zhenwei1, GE Ying4, KONG Fanhua11. School of Geography and Ocean Science, Nanjing University, Nanjing 210023, China
2. Jiangsu Provincial Key Laboratory of Geographic Information Science and Technology, Nanjing 210023, China
3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
4. School of Earth Science and Engineering, Hohai University, Nanjing 211100, China


Fund supported: National Natural Science Foundation of China(41771417)
National Natural Science Foundation of China(41771029)
Priority Academic Program Development of Jiangsu Higher Education Institutions
Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application

作者简介 About authors
蒲英霞(1972-), 女, 山东日照人, 博士, 副教授, 主要从事GIS与空间数据分析集成、区域人口迁移建模与复杂地理计算。E-mail: yingxiapu@nju.edu.cn

人口迁移过程具有内在的不确定性。贝叶斯模型平均方法(BMA)为不确定性问题提供了行之有效的解决方案。然而,当前该方法多用于线性回归模型在变量选择时出现的模型不确定性问题,很少用于空间建模。本文以2010—2015年中国省际人口迁移流为例,将BMA方法应用于空间OD模型,在考虑网络空间结构的基础上选取迁出地和迁入地各7个解释变量及距离因素,利用马尔可夫链—蒙特卡罗模型综合方法(MC3)进行模型抽样,以后验模型概率为权重计算相应变量的迁出地、迁入地和网络效应等,定量分析不确定性背景下省际人口迁移影响因素和空间机制。结果表明:① BMA模型估计结果更为稳健可靠。与单一模型相比,BMA中变量效应估计的90%可信区间明显缩小,不确定性程度显著降低,结果更为精确;② 区域经济社会发展对省际迁移至关重要。经模型空间抽样后,迁出地人口规模和GDP、迁入地教育水平和迁移存量等的变量后验包含概率大于90%;③ 网络效应在省际迁移过程中不可忽视。所有变量的网络效应占总体效应的40%以上,其中工资、城镇化率、教育和迁移存量等的网络效应(绝对值)大于各自的迁出地和迁入地效应;④ 若不考虑迁移建模中的不确定性,绝大多数区域经济社会变量对省际迁移的影响会被高估。
关键词: 人口迁移;空间OD模型;贝叶斯模型平均;后验模型概率;变量后验包含概率;网络效应;中国

Population migration process has an innate uncertainty with the increasing complexity of regional socioeconomic development. Bayesian model averaging (BMA) provides a feasible solution to the uncertainty of linear regression models. However, model uncertainties are seldom considered in spatial modeling. To reduce the uncertainties in migration modeling, this paper incorporates BMA approaches with spatial origin-destination (OD) models to quantify the spillover mechanism of interprovincial migration in China, 2010-2015. Specifically, we specified network dependence for migration flows and selected origin/destination's population size, gross domestic product (GDP), real wage, urbanization rate, the number of beds in health facilities per 1000 persons, the number of people over college level per 100000 persons in 2010 and migration stocks between 2005 and 2010 as well as railway travel time between provincial capitals in 2010 as explanatory variables. Among 2615 unique models based on 300000 samples using Markov chain Monte Carlo model combination (MC3), 58 models with posterior probability greater than 0.1% were chosen to estimate explanatory variables' origin effects, destination effects, and network effects. Some findings are as follows: (1) BMA model estimates are more robust and reliable. Compared with results from the single spatial origin-destination (OD) model, the widths of 90% credible interval of different explanatory variables are markedly reduced, indicating the degree of model uncertainty has been greatly decreased. (2) Regional population size, quality, and migration stocks have a significant influence on interprovincial migration processes. After model sampling, the inclusion probabilities of population size and GDP at origins, education level and migration stocks at destinations as well as distance variable are beyond 90%. (3) Network effects of most variables are statistically significant, accounting for more than 40% of their corresponding total effects. Moreover, the spillover effects of real wage, education level, and migration stocks are even greater than their corresponding origin and destination effects. (4) The impacts of most explanatory variables on interprovincial migration would be overestimated without considering uncertainties in modeling migration processes.
Keywords:population migration;spatial OD models;Bayesian model averaging (BMA);posterior model probability;posterior probability of variable inclusion;network effects;China

1 引言


贝叶斯模型平均方法(Bayesian Model Averaging, BMA)为降低模型不确定性问题提供了一套切实可行的解决方案。Draper最早于1995年提出了BMA思想,即在“真”模型未知的情形下,通过构建一个两两互斥的模型空间M ={M1, M2, …, MK},以每个模型的后验概率为权重对所有可能出现的模型进行加权平均,得到一个尽可能“平均”的结果,以此表征“真”模型,进而避免逐步回归方法得到的单一“最优”模型所面临的不确定性问题[24,25]。在马尔可夫链—蒙特卡罗方法(Markov Chain Monte Carlo, MCMC)的基础上,马尔可夫链—蒙特卡罗模型综合方法(Markov Chain Monte Carlo Model Composition, MC3)应运而生,为BMA的实现提供了技术支撑[26,27]。目前,BMA方法以贝叶斯统计理论为基础,因能够克服人为主观遴选解释变量造成的信息损失等优势,在经济增长、金融管制和水资源管理等领域逐步得到应用[28,29,30,31,32],但主要集中在经典线性回归模型的变量筛选与预测分析等方面,缺乏针对空间模型的相关处理。目前,研究人员已将BMA方法拓展到空间回归模型中,并以美国1990—2000年州际人口迁移为例进行实证研究[33]。然而,随着空间计量模型的发展,单纯的系数估计已不能很好地解释自变量变化对因变量产生的影响,取而代之则是考虑空间溢出的效应估计[34]


2 研究方法

2.1 贝叶斯模型平均

贝叶斯模型平均(BMA)在模型的拟合效果、解释力和预测精度等方面都优于单个模型,已成为当前解决模型不确定性问题的流行技术[36,37]。基于贝叶斯原理,BMA方法将模型本身和模型参数都看作具有某种统计分布形式的随机变量,以所有可能出现的模型组成模型空间,通过抽样技术计算每个模型的后验概率,以此为权重对所有模型进行加权平均。假定未知且不可观测的“真”模型由模型空间M = {M1, M2, …, Mk}按照某种概率分布生成,即:

式中:θ为待估参数向量;D为观测样本数据;Mi为模型空间中第i个模型;k为模型数量;p(Mi|D)为模型Mi的后验概率;p(θ|Mi, D)是模型Mi中参数向量θ的后验概率密度;p(θ|D)为不同模型条件下参数向量θ的后验密度分布的加权平均。

根据贝叶斯原理,模型Mi的后验概率 p(Mi|D)的计算公式如下:


2.2 马尔可夫链—蒙特卡罗模型综合方法




2.3 空间OD模型

在人口迁移过程中,某区域要素变化不仅影响本区域的迁入与迁出,还通过溢出效应对周边地区及整个迁移系统产生影响。空间OD模型是在重力模型的基础上,以因变量和/或自变量的空间滞后形式为补充的一类空间计量相互作用模型。其中,空间自回归模型(Spatial Autoregressive Model, SAR)作为一种全局溢出模型最为常见,其具体形式如下[15, 34]

式中:因变量迁移流y是一个N×1(N= n2)的列向量;ιN是一个N×1的单位列向量;α为截距项系数;XoXd分别表示迁出地和迁入地的自变量向量,可通过一个n×K阶变量矩阵X的克罗内克积($\otimes$)得到,即Xo = X $\otimes$ In,Xd = In $\otimes$ X;βoβd分别表示迁出地和迁入地变量的系数向量;g表示一个N×1阶距离列向量;γ为参数;ε为一个N×1阶扰动项,ε~ N(0, σ2V);V为一对角阵表示的异方差,元素为(v1, v2, …, vn),vi服从独立χ2(r)/r分布,σ2服从逆伽马分布;W为一行标准化的N×N阶网络权重矩阵;Wy是空间滞后因变量;ρ是网络自相关强度。

模型参数(β, σ2, ρ)的先验分布对模型后验概率分布具有实质性影响。


式中:参数βaβoβdγ的组合,其先验信息存在大量不确定性(或无信息型先验分布),通常设为:c = 0,T = I2K+1×1012K为变量数,2K为迁出地和迁入地变量数);σ2是无信息型先验分布,a = b = 0;λminλmax分别为网络权重矩阵W的最小和最大特征根。采用Gibbs抽样方法对βσ2进行抽样,Metropolis-Hastings(M-H)方法对ρ进行抽样[38]

2.4 效应估计


总体效应的标量式为 te=1n2ιn2'×TE×ιn。其中,TE是一个n2×n阶矩阵,具体如下:

式中:Jdi是一个n×n阶零矩阵,且第i行等于 ιn';Joi是一个n×n阶零矩阵,且第i列等于ιn

迁出地效应的标量式为 oe=1n2ιn2'×OE×ιn,其中n2×n阶矩阵OE如下:

式中: J˜oin×n阶矩阵Joi中元素(i, i)为零,调整目的是分离出内部效应。

类似地,迁入地效应的标量式为 de=1n2ιn2'×DE×ιn,其中n2×n阶矩阵DE如下:

式中: J˜din×n阶矩阵Jdi中元素(i, i)为零,调整目的同上。

网络效应的标量式为 ne=1n2ιn2'×NE×ιn,其中 n2×n阶矩阵NE如下:


3 中国省际人口迁移机制分析

3.1 数据来源


Tab. 1
Tab. 1Description of model explanatory variables



网络结构主要考虑迁出地和迁入地的空间依赖关系。首先根据公共边界原则构建一个31×31阶空间权重矩阵C(定义海南省和广东省为邻居);其次通过克罗内克积分别得到迁出地网络权重矩阵WoWo = C$\otimes$In)和迁入地网络权重矩阵WdWd = In$\otimes$C),同时去除内部流所在的行与列,使之变成一个930×930阶矩阵。最后,综合考虑上述两种情形,即W = Wo + Wd

3.2 MC3抽样结果


Tab. 2
Tab. 2The 10 highest posterior probability among spatial Origin-Destination (OD) models


表2可知:① 不同变量在模型空间中出现的后验包含概率大小不同。其中,O_POPO_GDPD_EduD_FlowDistance等变量的包含概率均超过90%,说明迁出地人口与GDP、迁入地教育水平与迁移存量以及时间距离对于省际迁移的影响不可忽视;O_FlowD_HB等变量的包含概率在25%以下,表明在研究时段内迁出地存量和迁入地医疗卫生等因素对省际迁移决策的影响较小。② 同一种类型的迁出地变量和迁入地变量发挥着不同的作用。例如,对于迁出地而言,人口规模和地区GDP具有较好的解释力;而对于迁入地,地区教育水平和迁入存量则更为关键,反映了“人往高处走”的迁移规律。这些因素在迁移中到底发挥多大作用,需要进一步计算各自的迁出地效应、迁入地效应和网络效应等。

3.3 系数估计分析




Fig. 1Autocorrelation coefficients before and after sampling in batches

经BMA之后,模型系数估计的均值和90%可信区间(Credible Interval)如表3所示。从表3可以看出,人口迁移明显受到周边迁移环境的影响,且不能忽视(ρ显著为正)。迁移主方向是从农业剩余劳动力大省迁往就业机会和劳动力市场较大的省份,人口增长对迁出影响较大。区域GDP或工资水平增长则会降低人口迁移增幅,符合预期。对迁出地而言,GDP的影响要大于工资水平;而对迁入地而言,工资变化影响更大些。城镇化率和医疗卫生水平提升有利于人口外迁;不同的是,城镇化率较高地区会抑制外来人口增长幅度。高素质人才增长将促进人口流动,相比较而言,对迁入地的影响更大。迁移存量的影响主要表现在迁入地。

Tab. 3
Tab. 3Coefficient estimates and 95% credible intervals of origin and destination variables after BMA
变量Lower 5%均值Upper 95%变量Lower 5%均值Upper 95%
注:Lower 5%和Upper 95%分别表示参数估计结果的90%可信区间下限和上限,后表同。



3.4 效应估计分析


Tab. 4
Tab. 4Effects distribution of explanatory variables in spatial OD models after BMA probability weighting
Lower 5%均值Upper 95%Lower 5%均值Upper 95%Lower 5%均值Upper 95%Lower 5%均值Upper 95%


Tab. 5
Tab. 5Effects distribution of explanatory variables in the spatial OD model with all elements (single model)
Lower 5%均值Upper 95%Lower 5%均值Upper 95%Lower 5%均值Upper 95%Lower 5%均值Upper 95%


3.4.1 总体效应 人口规模的总体效应在所有变量中居首位,表明人口压力是省际迁移活动的首要因素。平均地,若某地区人口规模相对增长1%,从长期来看,整个省际迁移流量的增幅将达到3.254%,其中迁出流增幅1.712%,迁入流增幅0.156%,其他周边区域迁移流增幅1.386%。这意味着地区人口增长不仅会产生更多迁出流,也会通过集聚效应吸引更多外来人口,与现有研究结果相一致[53,54]。不同的是,GDP、工资水平和城镇化率的提升对整个迁移网络的增幅具有负向作用,这与2008年金融危机以来中国正处于经济结构调整和产业转型期有较大关系[41]。迁移存量对于整个迁移网络的发展不可小觑,存量越多社会网络关系越复杂,人们获取就业、居住等的信息渠道越畅通,越能够有效降低迁移成本与风险[55]。地区教育水平居第4位,是影响省际迁移的重要因素。平均而言,若某地区大专以上人口数量相对增长1%,则整个省际迁移流量增幅为1.191%,其中迁往教育科技水平相对发达地区是主流方向。医疗卫生水平反映了地区公共服务的供给优势,其提升在一定程度上会促进人口迁移。

3.4.2 迁出地效应 区域要素变化不仅直接改变自身迁移流,还通过周边地区进一步反馈到自身区域。通过比较各迁出地变量的系数(表3)与迁出地效应(表4),可以发现各个变量的反馈效应对迁出地效应的贡献。总体上,人口规模对省际迁出的影响最大。若当前某区域人口规模相对增长1%,则跨省迁出人口数量平均增幅长期将达1.712%。而地区GDP则有所不同,若某区域GDP相对增长1%,其跨省迁出人口增幅平均降低1.116%。地区经济发展将会降低本地人口外迁增长速度,表明生存和发展仍是人口迁移的主因。值得注意的是,地区城镇职工工资增长也会降低人口跨省外迁的增速,但作用相对有限。随着区域经济发展和城镇化水平的提高,整个地区教育水平和医疗状况不断改善,增强了人们对外界环境的适应能力,进一步促进人口外迁[56,57,58]。类似地,迁出存量对跨省迁移的影响也相对较小,但由单一模型中的不显著变得显著。

3.4.3 迁入地效应 通过比较迁入地变量的系数(表3)和迁入地效应(表4),可发现变量的反馈作用对迁入地效应的贡献。此时,迁移存量和教育水平成为影响省际迁移的重要因素。平均地,若某地区迁入存量相对增长1%,从长期来看,外来跨省迁入人口增幅将达0.68%;若某地区大专以上人口相对提高一个百分点,则跨省迁入人口长期平均增幅为0.43%。同时,人口规模产生的集聚作用也会吸引外来人口,但相对于迁移存量和人口质量的提升,人口规模的影响相对较小。新古典主义经济理论认为,地区经济发展较好、工资水平较高地区更容易吸引移民,其城镇化水平也较高[59,60]。然而,在中国经济和人口“新常态”背景下,经济结构转型和优化升级、经济增长明显放缓以及劳动年龄人口减少等,使得GDP、工资水平和城镇化发展在不同程度上降低了当前及未来省际迁移的增长幅度,表现出明显不同于过去的发展趋势[41, 61]

3.4.4 网络效应 最新的人口迁移理论认为,网络效应是形成大规模人口迁移的主要原因之一,特别是在迁移网络形成之前[62,63]表4表明,各变量的网络效应占总体效应的40%以上,甚至超过各自的迁出地效应或迁入地效应,进一步证实了网络效应在省际人口迁移过程中扮演着非常重要的角色,且不容忽视。以人口规模为例,若某地区人口相对增幅1%,除了本地区的迁出流和迁入流相应持续增长外,其他周边区域跨省迁移量的平均增幅长期将达到1.386%,远大于对本地迁入流的影响。而教育水平的网络溢出效应甚至超过了其迁入地效应和迁出地效应之和。若地区大专以上人口数量相对增长1%,则周边跨省迁移人口的平均增幅长期将达0.635%,充分反映了高素质人才在省际迁移中的关键作用。需要指出的是,网络效应和其他效应一样,均是一种长期效应,在区域社会经济因素发生变化后,迁移网络系统随着时间的推移而达到再平衡状态时对人口迁移产生的累积综合性结果。

4 结论与讨论






本文利用BMA方法,对人口迁移建模中变量选择方面的不确定性问题进行了讨论,一定程度上提高了模型估计结果的稳健性和可靠性。然而,本文仍存在以下问题有待研究:① 变量选择需要进一步优化。本文在解释变量选择时主要基于现有文献,而当前对2010年以来省际迁移影响因素和动力机制方面的研究相对较少,因此在变量选择方面仍存在一定的局限性;② 其他模型不确定性问题。目前采用固定的网络空间结构(Wo+Wd)和空间自回归模型(SAR)在重力模型中的扩展,仅对变量选择中的不确定性进行了考虑。其他网络权重矩阵设定方式以及空间杜宾模型、空间误差项模型等扩展形式,都有待于进一步设定和检验;③ 时间结构的设定。空间OD模型本质上是一个横截面模型,不能显式表达时间维度。因此,模型估计结果是区域要素变化达到新的平衡状态时对系统产生的累积影响,是一个长期均衡值。今后将进一步考虑时空耦合关系[64];④ 不同空间尺度的应用。省际人口迁移在国家和区域人口再分布中具有重要意义。然而,相对于省内迁移,其数量和规模均较小,地域空间关系对于省际迁移的影响也会小于地市级或县级尺度人口迁移。下一步将会考虑省内人口迁移,进一步分析更细空间尺度和邻接关系对人口迁移的影响。

