人工神经网络是模拟生物神经网络进行信息处理的一种数学模型[6]。1986年,Rumelhart等提出多层感知器权值训练的误差反向传播(BP)算法[7],解决了人工神经网络的参数学习问题,使人工神经网络可以使用sigmoid函数等非线性函数作为激活函数构建多隐藏层网络结构。人工神经网络因此具备了很强的非线性映射能力,并被广泛用于各种研究领域[8]。已有很多****对使用人工神经网络分析空间数据的方法进行了研究。1996年,Mann和Benwell将人工神经网络模型引入到空间数据的分析中,将原有相关变量代入多层感知器模型对水流流失问题进行了预测分析[9]。相比于传统基于专业知识构建的模型,人工神经网络不仅提高了预测精度,还简化了变量选择的步骤。2000年,Luk等进一步考虑空间效应,将空间相邻变量和时间滞后变量一起作为模型输入构建模型,新模型在降雨量预测中,通过引入了相邻观测站点的监测数据较大地提升了预测精度[10]。近年来,随着机器学习技术的进步,更多类型的人工神经网络被引入到空间数据的分析中。2019年,Patrick和Christopher提出并改进了循环神经网络处理空间数据的分析框架[11]。国内也有****对人工神经网络与空间数据分析开展了研究。2017年,池娇和焦利民提出了空间型BP神经网络(S-BPNN),首次将神经网络和空间自回归模型进行结合[12]。S-BPNN使用极大似然估计法估计空间自回归系数,生成空间滞后变量(SLV)作为BP神经网络新增的输入层神经元参与建模。2017年,Wang等进一步使用该模型进行中国PM 2.5浓度预测,由于考虑了变量的空间效应以及变量间的非线性关系,S-BPNN模型的预测精度较普通人工神经网络得到了较大提升[13]。但是,1975年Ord指出当样本数量很大或者矩阵奇异时,基于极大似然估计的空间自回归系数估计将会受到影响并非常耗时[14]。
本文进一步研究了空间自回归与人工神经网络结合的建模方法,提出应用遍历搜索法进行参数优化,解决极大似然法在高阶模型估计中的不足。通过比较在所有空间自回归系数的可能取值下带空间结构的人工神经网络模型的预测误差来进行参数估计和模型选择。该方法直接避免了极大似然法受到变量共线性影响的问题,能够发挥计算机算力优势。通过机器“自学习”的方式来确定多变量的连接权重,降低变量筛选和模型构建难度。此外,本文还扩展原有空间权重矩阵提出了空间样本外预测的方法,增强了模型的预测能力,并通过数字仿真实验对建模方法的效果进行了检验。
1 带空间结构的人工神经网络模型 空间自回归模型有别于普通的回归模型,引入了空间滞后项ρWy,代表因变量不仅受到自变量影响,同时还受到与其空间相邻的样本因变量的影响。空间自回归模型表达式为
(1) |
式中:y为n×1维的因变量; X为n×k维的自变量矩阵;β为k×1回归系数向量;ρ∈(-1, 1)为空间自回归系数;W为n×n维空间权重矩阵;ε为n×1维随机误差向量。各元素相互独立同分布,且均值为零,方差σ2有限。
空间自回归模型通过考虑空间效应很好地改善了模型的解释性。为进一步提高空间自回归模型的非线性映射能力,本文对带空间结构的人工神经网络模型进行了探索。在将空间滞后项引入人工神经网络改善了模型非线性问题和空间效应的处理能力后,为解决传统参数估计方法的缺点,本文使用了遍历搜索法估计空间自回归系数ρ。通过比较ρ在所有可能取值下模型的预测误差来确定最优的参数ρ。在遍历过程中,当估计量
图 1 带空间结构的人工神经网络流程图 Fig. 1 Flow chart of artificial neural network incorporating spatial structure |
图选项 |
原有的空间自回归模型受限于模型泛化能力,更多强调模型解释性。基于人工神经网络模型强大的学习能力,带空间结构的人工神经网络模型的样本外预测方法可以在给定新区域位置信息的情况下对相关变量进行预测。新方法能够很好地解决现实中由于统计数据缺失或监测数据中断所导致的局部区域变量缺失的问题。具体方法如下。
将带空间结构的人工神经网络模型记作:
(2) |
式中:
本文使用了2017年Goulard等通过总结不同空间自回归模型样本外预测方法验证得到的最佳线性无偏估计量(Best Linear Unbiased Predictor)作为样本外预测的最终预测值[15]。
(3) |
(4) |
式中:
(5) |
式中:
为寻找预测精度最高的模型,本文采用均方误差(MSE)作为预测误差指标,并选取最小值对应的ρ值作为估计参数,公式为
(6) |
式中:yi∈YO为样本外样本的因变量期望值;
2 数字仿真实验 为检验带空间结构的人工神经网络模型的预测效果,本文采用数字仿真方法对新模型进行检验。
2.1 数据生成 随机生成一组包含400个点的二维数组作为经纬度信息,使用10阶近邻法生成对应的空间权重矩阵,标准化后得到矩阵W∈R400×400。
随机生成模型的自变量和常数项1n=[1, 1, …, 1]T,随机变量X1,X2,X3,X4,X5之间服从均值为0,协方差为Cov(Xi, Xj)=0.8|i-j|的多元正态分布。然后使用1n,X1,X2,X3,X4,X5以如下2种方式生成仿真数据的因变量y1和y2,分别为
(7) |
(8) |
式中:βi(i=0, 1, 2, 3, 4, 5)为生成的自变量参数。
本次实验中,通过随机数生成β=(β0,β1,β2,β3,β4,β5)=(2.1, 5.2, 1.3, 0.9, 4.4, 4.7),σ2=0.2,ρ=0.44。
2种方法都采用先加权运算后分别乘以因子(I-ρW)-1的方法使因变量之间产生空间相关性。其中,y1采用了简单的线性加权的方法来生成,而y2则先对每一个自变量进行了非线性变换后再进行加权操作。
为了检验仿真生成的2组因变量间是否具有空间相关性,本文选取莫兰指数(Moran’s I)作为衡量指标[16]。莫兰指数是衡量空间相关性的指标:
(9) |
式中:
莫兰指数作为有理数,经过归一化运算后值域为(-1, 1)。Moran’s I>0表示空间正相关性,值越大意味着空间相关性越明显。Moran’s I < 0表示空间负相关性,其值越小表示空间差异越大。当Moran’s I=0表示变量在空间上呈随机性。
经过莫兰检验可知结果如表 1所示。
表 1 因变量莫兰检验结果 Table 1 Moran's I test results of dependent variable
自变量 | Moran’s I | p |
y1 | 0.088 | < 2×10-16 |
y2 | 0.093 | < 2×10-16 |
表选项
y1和y2的莫兰指数分别为0.088和0.093,且p < 0.01通过假设检验,表明这2组变量均具有明显的空间自相关性,有必要在分析中进行考虑。
2.2 带空间结构的人工神经网络模型建模 由莫兰检验可知,y1和y2两个变量都具有显著的空间相关性,且y2是由非线性函数所构成的变量,具有非线性的特征。本节分别将2组数据带入带空间结构的人工神经网络模型进行训练和测试,并重点介绍建模的详细过程,验证通过遍历搜索法对空间自回归系数进行参数估计的可行性。
仿真设置步长为0.01对空间自回归系数ρ∈[-0.99, 0.99]进行遍历,对依次抽取的
本文选取经典的全连接神经网络建立模型。为了在不清楚神经网络各维度重要程度的情况下,保持不同维度的分布相近,使训练中方差更大的维度获得更多重视,从而保证网络可以良好地收敛[17]。本文选择对样本内样本自变量XS和变换后的因变量Y′S进行最大-最小标准化:
(10) |
式中:min ai和max ai分别为变量a当中的最小值和最大值。
将经过标准化的自变量和因变量代入人工神经网络模型中。本文中的仿真实验全部运行在Windows 10,Intel Core i7,CPU 3.20 GHz,16 GB RAM的主机上。使用了R语言“spdep”程序包以及“neuralnet”程序包来进行空间权重矩阵的处理和人工神经网络的训练。根据试凑法确定模型包含2个隐藏层, 分别包含5个和3个隐节点,依据经验设置学习速率为0.1,其他参数均保持默认。经过训练可以得到一个含有5个输入神经元和1个输出神经元的神经网络,图 2以
图 2 |
图选项 |
在训练得到带空间结构的人工神经网络之后,使用样本外数据检验模型预测效果。首先将全部样本点的自变量X代入模型得到人工神经网络输出估计值
(11) |
式中:空间权重矩阵W为包含全部样本点的空间权重矩阵;
最后使用样本外预测方法得到样本外样本点因变量的最佳估计量
(12) |
(13) |
式中:
3 仿真实验结果与讨论 3.1 模型估计 选择重复实验500次搜索带空间结构的人工神经网络模型中空间自回归系数的最优估计量。首先通过计算所有
图 3 模型预测误差比较 Fig. 3 Comparison of MSE |
图选项 |
如图 3所示,当
表 2 不同
MSE | ||
y1 | y2 | |
0 | 8.48 | 31.15 |
0.49 | 0.81* | 14.61 |
0.61 | 1.12 | 13.87* |
??注:“*”为同组数据预测误差最小的模型。 |
表选项
通过实验可知,带空间结构的人工神经网络在合理考虑变量的空间相关性的情况下,能够有效提高拟合精度。并且循环遍历法能够得到空间自回归系数的合理估计。
3.2 模型效果比较 在通过参数遍历的方法得到模型参数的情况下,本文进一步对带空间结构的人工神经网络模型的预测效果与普通线性回归、空间自回归模型、普通人工神经网络进行了比较。通过基于原有空间权重矩阵重新生成一组随机测试数据,并依次代入4个模型进行训练和预测得到结果如表 3所示。
表 3 不同模型的预测误差 Table 3 Prediction error of different model
模型 | MSE | |
y1 | y2 | |
普通线性回归模型 | 8.00 | 124.92 |
空间自回归模型 | 0.14*(=0.40) | 110.69(=0.45) |
普通人工神经网络模型 | 8.50 | 22.95 |
带空间结构的人工神经网络模型 | 1.39(=0.49) | 10.70*(=0.61) |
??注:“*”为同组数据预测误差最小的模型。 |
表选项
测试数据结果显示,对2种方式生成的测试数据y1和y2进行预测的过程中,带空间结构的人工神经网络均能得到较好的预测效果。当测试数据中因变量y2由简单线性加权生成时,线性模型能够得到较好的预测效果,其中空间自回归模型的预测效果甚至优于新模型。但在对加入非线性关系生成的数据y2进行预测时,普通线性回归和空间自回归模型的预测效果均有较大下降,而神经网络模型凭借对非线性关系强大的学习能力依然保持了较高的预测精度。而且当考虑变量间空间效应,并假设空间自回归系数
图 4 带空间结构的人工神经网络估计值与期望值之间的关系(y1和y2) Fig. 4 Relationship between estimated value and expected value applying artificial neural network incorporating spatial structure (y1 and y2) |
图选项 |
通过比较不同模型在相同数据中的预测效果可以发现,新模型在处理变量之间不同的映射关系时都能保持较好的拟合效果。而且当变量之间关系较为复杂时,结合样本外预测方法新模型对预测精度的提升效果明显。
3.3 五折交叉验证 为了进一步验证本文提出的带空间结构的人工神经网络建模方法的有效性,设计了一组仿真实验对其进行验证。
使用2.1节中提到的仿真数据生成方法,生成分别包含40、80和400个样本点的3组样本数据进行测试。同时为验证新模型对不同强度的空间效应的处理能力,对于每一组样本都设置y1和y2生成函数中的空间自回归系数ρ为0.1、0.3和0.5的一组数值。
本组实验使用了五折交叉验证的方法。将每组样本按照随机顺序分为5组,并以此选取其中一组作为测试集,剩余4组数据作为训练集。对每组样本重复测试50次,分别计算MSE并选择最小的
表 4 带空间结构的人工神经网络(SNN)模型与普通人工神经网络的仿真实验结果 Table 4 Simulation results comparison of artificial neural network incorporating spatial structure andclassic neural network
方法 | 样本数(模型) | MSE | ||
ρ=0.1 | ρ=0.3 | ρ=0.5 | ||
y1(线性生成法) | 40(SNN) | 2.238(0.07) | 2.035(0.27) | 2.060(0.51) |
40(NN) | 2.821 | 2.844 | 2.762 | |
80(SNN) | 1.659(0.22) | 1.474(0.34) | 1.428(0.57) | |
80(NN) | 2.949 | 2.844 | 2.762 | |
400(SNN) | 1.121(0.13) | 0.918(0.31) | 0.711(0.54) | |
400(NN) | 2.138 | 2.283 | 2.107 | |
y2(非线性生成法) | 40(SNN) | 57.834(0.57) | 64.127(0.84) | 50.593(0.82) |
40(NN) | 84.415 | 85.857 | 69.412 | |
80(SNN) | 22.328(0.26) | 22.857(0.40) | 21.374(0.64) | |
80(NN) | 30.272 | 29.732 | 31.566 | |
400(SNN) | 18.466(0.14) | 14.030(0.38) | 11.859(0.58) | |
400(NN) | 23.753 | 20.758 | 20.801 | |
??注:括号内数值为ρ的估计量。 |
表选项
观察表 4发现,与3.2节的结论一致,对2种方式生成的数据进行预测,新模型均比普通人工神经网络精度高,误差小。通过进一步对比2种模型在不同样本量条件下的预测效果发现,由于人工神经网络对样本量要求较高,当n=40即样本量较小时,模型的预测精度不高。但随着样本量的增大,2个模型的精度都快速提升,而且带空间结构的人工神经网络模型的预测效果均优于普通神经网络。
此外,通过比较模型对在n=400情况下3个不同ρ取值生成数据的预测效果可以发现,由于遍历搜索已经充分比较所有
3.4 实证案例研究 由仿真实验结果已知新模型的预测准确性较普通人工神经网络模型有了明显提升。本文尝试将该方法用于PM 2.5预测问题中,进一步检验模型在实际问题中的表现。
实验选取2014年中国285个地级市空气监测站的PM 2.5日监测数据取均值得到该市年度PM 2.5数据作为因变量,并依据各地级市之间是否存在邻接关系生成空间权重矩阵,计算得到该区域PM 2.5浓度全局莫兰指数为0.707 07。且通过显著性检验,这些地级市的PM 2.5浓度具有强烈的空间相关性,有必要在分析中考虑变量的空间效应。
本文在预测过程中选择对应285个地级市的24项经济指标作为自变量(见表 5),表中所有数据来源于中径网数据库。
表 5 自变量名称及分类 Table 5 Name and classification of independent variables
类别 | 变量 |
经济发展 | GDP |
实际GDP增速 | |
人均GDP | |
地方一般公共预算支出 | |
地方一般公共预算-科学和技术 | |
总耗电量 | |
产业结构 | 规模以上工业企业数量 |
规模以上工业企业工业总产值 | |
第一产业增加值占GDP的比重 | |
第二产业增加值占GDP的比重 | |
第三产业增加值占GDP的比重 | |
人口结构 | 人口 |
人口密度 | |
一产从业人员比例 | |
二产从业人员比例 | |
三产从业人员比例 | |
城市建成面积 | |
城市绿地面积 | |
房地产开发企业投资完成金额 | |
城市化 | 固定资产投资完成额 |
公共汽车数量 | |
出租车数量 | |
城市液化石油气总供气量 | |
城市液化石油气国内天然气供应总量 |
表选项
设置带空间结构的人工神经网络模型为单一隐藏层,隐节点数量为18,学习率为默认0.1,最大迭代次数1 000次,允许误差0.001。并将样本按85:15比例分为训练集和测试集,代入模型进行检验。
经过模型遍历得到空间自回归系数
4 结论 人工神经网络是近年来人工智能领域的研究热点,具有很强的非线性问题处理能力。其自适应的特点允许神经网络算法在不清楚变量之间关系的情况下,就可以通过对数据集的学习识别出变量间的复杂关系。但是在大数据时代,随着数据收集技术的提高,越来越多的数据具有空间相关性的特征。受空间自回归模型启发,本文在通过遍历搜索法解决了参数估计问题后,将空间滞后项引入了人工神经网络的算法过程,提出了改进的带空间结构的人工神经网络模型的建模和样本外预测方法。实验表明:
1) ?相比于线性回归方法和传统空间自回归方法,本文方法在处理含有非线性特征的数据时能够得到更好的预测效果。
2) ?在与普通人工神经网络的比较中,考虑空间结构也使得模型的预测精度得到了提高。
容易看出,本文方法能够应用于空间数据的预测和删失数据的填补,后续将对扩展该模型的参数估计方法、网络结构选择以及实际应用场景继续开展相关的研究工作。
参考文献
[1] | ANSELIN L. Spatial econometrics:Methods and models[M]. Berlin: Springer, 1988. |
[2] | CLIFF A D, ORD J K. Spatial autocorrelation[M]. London: Pion, 1981. |
[3] | QU X, LEE L F. Estimating a spatial autoregressive model with an endogenous spatial weight matrix[J]. Journal of Econometrics, 2015, 184(2): 209-232. DOI:10.1016/j.jeconom.2014.08.008 |
[4] | 王惠文, 顾杰, 黄文阳, 等. 京津冀地区大气严重污染的主要影响因素分析[J]. 数学的实践与认识, 2017, 47(20): 86-91. WANG H W, GU J, HUANG W Y, et al. The study on main influence factors of the serious atmosphere pollution in Beijing-Tianjin-Hebei region[J]. Mathematics in Practice and Theory, 2017, 47(20): 86-91. (in Chinese) |
[5] | 孙坚强, 缪旖璇, 张世泽. 粤港澳大湾区的科技创新与经济增长[J]. 华南理工大学学报(社会科学版), 2019, 21(3): 7-16. SUN J Q, MIAO Y X, ZHANG S Z. Technology innovation and economic growth of Guangdong-Hong Kong-Macao Greater Bay Area[J]. Journal of South China University of Technolog(Social Science Edition), 2019, 21(3): 7-16. (in Chinese) |
[6] | HAYKIN S. Neural networks:A comprehensive foundation[J]. Neural Networks A Comprehensive Foundation, 1994, 31(5): 71-80. |
[7] | RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back propagating errors[J]. Nature, 1986, 323: 533-536. DOI:10.1038/323533a0 |
[8] | 朱大奇. 人工神经网络研究现状及其展望[J]. 江南大学学报(自然科学版), 2004, 3(1): 103-110. ZHU D Q. The research progress and prospects of artificial neural netwoks[J]. Journal of Southern Yangtze University(Nature Science Edition), 2004, 3(1): 103-110. DOI:10.3969/j.issn.1671-7147.2004.01.027 (in Chinese) |
[9] | MANN S, BENWELL G L. The integration of ecological, neural and spatial modeling for monitoring and prediction for semi-arid landscapes[J]. Computers and Geosciences, 1996, 22(9): 1003-1012. DOI:10.1016/S0098-3004(96)00038-6 |
[10] | LUK K C, BALL J E, SHARMA A. A study of optimal model lag and spatial inputs to artificial neural network for rainfall forecasting[J]. Journal of Hydrology, 2000, 227(1): 56-65. |
[11] | PATRICK L M, CHRISTOPHER K W. Bayesian recurrent neural network models for forecasting and quantifying uncertainty in spatial-temporal data[J]. Entropy, 2019, 21(2): 184. DOI:10.3390/e21020184 |
[12] | 池娇, 焦利民. 住宅房地产价格评估的空间型BP神经网络模型[J]. 地理空间信息, 2017, 15(2): 86-90. CHI J, JIAO L M. Spatial BP neural networks in evaluation of residential real estate price[J]. Geospatial Information, 2017, 15(2): 86-90. DOI:10.3969/j.issn.1672-4623.2017.02.027 (in Chinese) |
[13] | WANG W, ZHAO S, JIAO L, et al. Estimation of PM 2.5 concentrations in China using a spatial back propagation neural network[J]. Scientific Report, 2017, 9(1): 1-10. |
[14] | ORD K. Estimation methods for models of spatial interaction[J]. Journal of the American Statal Association, 1975, 70(349): 120-126. DOI:10.1080/01621459.1975.10480272 |
[15] | GOULARD M, LAURENT T, THOMAS-AGNAN C. About predictions in spatial autoregressive models:Optimal and almost optimal strategies[J]. Spatial Economic Analysis, 2017, 12(2-3): 304-325. DOI:10.1080/17421772.2017.1300679 |
[16] | 刘会. 当代中国农村土地流转的工业条件研究-基于全局莫兰指数与空间计量模型的研究[J]. 财经理论研究, 2017(6): 23-32. LIU H. An empirical analysis on the industry condition rural land transfer in contemporary China-with the Moran's I test and methods of SEM and SAR[J]. Journal of Financial and Economic Theory, 2017(6): 23-32. (in Chinese) |
[17] | 朱庆生, 周冬冬, 黄伟. BP神经网络样本数据预处理应用研究[J]. 世界科技研究与发展, 2012, 34(4): 624-626. ZHU Q S, ZHOU D D, HUANG W. Application research of preprocess in BP neural network sample data[J]. World Sci-Tech Research and Development, 2012, 34(4): 624-626. DOI:10.3969/j.issn.1006-6055.2012.04.024 (in Chinese) |