成分数据的空间自回归模型<sup>*</sup> - 北京航空航天大学论文文献

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

成分数据的空间自回归模型^*

本站小编 Free考研考试/2021-12-25

数据搜集技术的快速发展不仅带来了海量的数据，也带来了类型越来越复杂的数据，如函数数据^[1-3]、成分数据^[4]和符号数据^[5-6]等。在这些类型复杂的数据中，成分数据由于关注部分在总体中的占比信息，受到愈来愈广泛的关注。如Fry等^[7]利用住户开支统计调查结果研究预算分配模型，Pawlowsky-Glahn和Egozcue^[8]利用成分数据比较东欧和西欧国家在食物消费结构上的习惯差异，Pawlowsky-Glahn^[9]等利用成分数据回归模型分析了巴西宗教信仰构成的变化。
成分数据分析主要研究活动对象结构变化产生的规律及其对其他对象产生的影响。关于成分数据的理论研究，标志性的成果是1986年Aichison撰写的《成分数据统计分析》^[10]，该书详细阐述了成分数据统计分析方法建立的数学基础。在成分数据分析中，线性回归模型是一种常用的分析技术。现有的成分数据线性回归模型可以分为两大类：第1类因变量是普通数据^[11-12]，第2类因变量是成分数据^[13-15]。Hron等^[12]利用第1类成分数据线性回归模型研究了GDP组成与预期寿命的关系；而Wang等^[14]利用第2类模型研究了地区总产值与就业和投资的关系。本文在因变量是普通数据的成分数据回归模型基础上进行研究。在成分数据回归模型中，通常以样本之间独立同分布作为前提。而在实际应用中，独立同分布的假设往往是不成立的。如何对现有的成分数据线性回归模型进行改进，使之适应实际应用的需求，是一个值得深入研究的问题。
在空间计量经济学^[16]中，空间自回归模型通过引入空间依赖项，打破了因变量相互独立的假设，使得许多与空间地理位置或社交网络有关的现象得到解释。利用空间自回归模型，可以对区域经济发展的问题^[17-18]、溢出性问题^[19-20]等进行分析。现有的空间自回归模型在普通数据的基础上已经发展得相对完善，已有的对空间自回归模型进行估计的方法包括Ord^[21]和Lee^[22]提出的极大似然估计法、Kelejian、Prucha^[23]和Lee^[24]提出的广义矩估计法、Lesage和Pace^[25]从贝叶斯的角度提出的马尔可夫链蒙特卡罗方法(Markov chain Monte Carlo method)。
因此，针对经典成分数据线性回归模型假设样本间相互独立的严格要求，研究因变量之间具有空间依赖的成分数据回归模型，通过在普通数据的空间自回归模型中，引入成分数据的协变量，提出了同时含有成分数据和普通数据的空间自回归模型。并依据成分数据的特点，给出了混合2种数据的空间自回归模型的估计方法。提出的新模型比已有的成分数据线性回归模型具有更强的灵活性，可以处理更加复杂的空间依赖问题。
1 基础理论本节主要介绍成分数据的代数空间——单形空间(simplex)中的基本运算，以及与成分数据联系紧密的几种变换，利用这些变换可以将具有约束的成分数据转化成易于处理的普通数据。
1.1 单形空间对于含有d个成分的成分数据，对应的单形空间S^d(上标d表示成分数据有d个成分，因此实际是d-1维的)定义为

(1)

式中：x为一个d维的成分数据；x_i＞0表示成分数据的每一个成分都是非负的；

为成分数据必须满足的约束条件，即各成分累加和是个定值。不失一般性，在本文中令k=1。在S^d中，基本的运算包括加法运算、数乘运算、内积运算。
现有单形空间S^d中的任意2个成分数据x、y以及实数α，记x=(x₁, x₂, …, x_d)^T∈S^d，y=(y₁, y₂, …, y_d)^T∈S^d，α∈R，则x和y的加法⊕及α和x数乘运算⊙可分别定义为

(2)

(3)

式中：C(·)表示闭合运算，定义为

(4)

不难看出，闭合运算保证了运算结果仍在S^d中。基于运算⊕和⊙，可以导出x和y的减法运算，

(5)

x和y的内积运算〈x, y〉_a定义为

(6)

式中：

为x各个成分的几何平均值；同理可定义

；内积符号〈x, y〉_a的下标a表示该运算在单形空间S^d中。内积运算还可以导出单形空间中任意一个成分数据x的范数‖x‖_a及任意2个成分数据x和y之间的距离d_a(x, y)，其定义分别为

(7)

(8)

可以证明，含有内积运算的单形空间是一个希尔伯特空间。
1.2 等距对数比变换需注意，因约束

的存在，成分数据x=(x₁, x₂, …, x_d)^T的d个成分之间不相互独立，直接将多元统计方法应用到成分数据上会产生矛盾的结果。已有的对成分数据进行变换的方法主要为对数比变换，具体类型包括加法对数比(alr)变换，中心对数比(clr)变换和等距对数比(ilr)变换。由于alr变换不是等距变换，而clr变换得到的变量是线性相关的，不便于直接用于回归建模，因此此处仅介绍ilr变换。
ilr变换是Egozcue等^[26]提出的。该变换将d维的单形空间S^d映射到d-1维的欧几里得空间R^d-1上，得到的实数向量消除了原成分数据中不同成分之间的共线性，可以直接用于建模。该变换利用标准正交基的正交性和单位长度性质，将成分数据变换成易于处理的标准正交基的系数。设标准正交基为{e_k}_k=1^d-1, e_k=(e_k1, e_k2, …, e_kd)^T，则任意一个成分数据x都可以表示为x=〈x, e₁〉_a⊙e₁⊕〈x, e₂〉_a⊙e₂⊕…⊕〈x, e_d-1〉_a⊙e_d-1，相应地，x的ilr变换坐标ilr(x)为

(9)

Egozcue等^[26]证明，ilr变换是保内积的变换，即对于含有d个成分的成分数据x和y, 有

(10)

下面给出具体的ilr变换过程。
已知观测到样本量n的d维成分数据{C_i}_i=1ⁿ, 其中C_i=(x_i1, x_i2, …, x_id)^T，则C_i进行ilr变换后的坐标为

(11)

式中：

Ψ为(d-1)×d维的矩阵，具体表达式为

由于ilr变换是保内积的变换，因此在第3节的估计方法中，将使用变换后的坐标{ξ_i}_i=1ⁿ代替原来的成分数据{C_i}_i=1ⁿ进行参数估计。
2 模型的提出借鉴Qu和Lee^[27]对空间自回归模型的背景假设，考虑空间关系发生在一个非均匀分布的格子L, L?R^p, p≥1上，格子上的点相互可分，即任意2点的距离大于0。从格子L上观测到了n个对象，每个对象的观测数据为{y_i, x_i1, …, x_id, x_id+1, …, x_ip}_i=1ⁿ。其中x_ij(j=1, 2, …, d)共同组成d个成分的成分数据C_i=(x_i1, x_i2, …, x_id)^T，且每个C_i是随机成分数据C的独立同分布观测；x_ij(j=d+1, d+2, …, p)为普通数据，它们是随机变量X_j(j=d+1, d+2, …, p)的独立同分布观测，标记X_i=(x_id+1, x_id+2, …, x_ip)^T。记Y=(y₁, y₂, …, y_n)^T，C=(C₁, C₂, …, C_n)^T，X=(X₁, X₂, …, X_n)^T，则因变量Y符合以下回归模型：

(12)

式中：ατ_n为截距项，τ_n为所有元素均为的1的维度为n的向量；ρ为未知的空间自相关参数，取值在区间(-1, 1)内；W={w_ij}_n×n为外生的空间矩阵，w_ij为对象i与j之间的权重；B为待估的成分数据系数，具有p个成分；Γ为普通数据的待估系数；E为独立于X的误差项，服从均值为0，方差为σ²I_n多元正态分布，I_n为n×n的单位矩阵。
需强调的是，式(12)中C和回归系数B都为成分数据，〈C, B〉_a为一个实数。在Aitchison内积空间中，〈C, B〉_a代表X对Y解释性最强的投影方向。
当ρ=0时，式(12)退化为普通的成分数据线性模型。在这个意义上，式(12)比经典的成分数据线性模型具有更强的灵活性，可以处理更加复杂的数据关系。
3 估计方法为估计模型式(12)中的参数α, ρ, B, Γ，首先需将相互不独立的成分数据转化为相互独立的普通数据，1.2节中已作详细介绍；其次，要解决因变量y_i之间不相互独立的问题，此处采用极大似然估计法ilr变换后的模型进行估计。
同样利用1.2节中的ilr变换，可得到成分数据系数B的变换坐标b=ilr(B)。
由于B是需估计的参数，因此变换后的坐标b是未知的。记ξ=(ξ₁, ξ₂, …, ξ_n)^T，则模型式(12)可写为

(13)

为描述简便，记：δ=(b, Γ)^T，Z=(ξ, X)，则式(13)可表示为

(14)

由于模型式(12)中误差项服从多元正态分布，因变量Y的似然函数为

(15)

式中：e=Y-ατ_n-ρWY-Zδ。因式(15)有3个未知参数ρ、δ和σ²，直接对这3个变量求导存在一定的计算困难。现假若已得到ρ的估计值

，那么利用极大似然估计法，可以相应得到δ和σ²的估计量，它们分别为

(16)

(17)

考虑将似然函数式(15)中的变量δ和σ²分别用估计量

和

代替，那么似然函数中的3个变量就变成一个变量。式(15)替换后的表达式为

(18)

式中：c为一个常数。利用牛顿法等数值解法，可以得到的ρ的估计值

。相应地，通过式(16)和式(17)可以分别得到δ和σ²的估计量。
由于得到

以后，可以得到b的估计量

；再通过ilr变换的逆变换ilr^-1，就可得到B的估计量

为

(19)

至此，所有参数都可以估计出来。
4 数值模拟为评估所提出估计方法的统计性质，下面设计了几组数值模拟实验检验估计量的表现。所有的计算过程都是在R软件中实现，用到的包有“spdep”和“compositions”。
关于空间自回归模型的空间网络结构，采取最常见的“车”相邻(rook matrix)。假设n个样本点随机地散落在一个R行T列的格子棋盘上，每个样本点占据棋盘上的一个方格，那么在棋盘上共享一条边的2个样本点就是相邻的。在这样的情况下，处在棋盘中间的任意样本点都有4个邻居，处在棋盘边上的样本点有3个邻居，而处在棋盘角上的样本点只有1个邻居。分别设置R=10，20，30，T=30，25，30，相应地样本量n=R×T=300, 500, 900。为了查看空间依赖的强弱是否对估计量有影响，同样设计了3组不同的ρ值，ρ=0，0.5，0.8。
关于混合数据的空间自回归模型，由于截距项不是主要关注的参数，此处设α=0，其他参数设置如下：Y=ρWY+〈B, C〉_a+ΓX+0.8E；C~N_s(μ，Σ); X~N(1，0.8);E~N(0, I_n); μ=(0.49，0.61)^T; Σ=

; Γ=1;B=(b₁, b₂, b₃)^T=(2, 1, 1.5)^T。其中：C~N_s(μ, Σ)表示C进行ilr变换后的坐标服从均值为μ，协方差为Σ的多元正态分布。此处ilr^-1(μ)=(1, 2, 3)^T。
在每一种情形下，重复实验次数k=100。对于参数ρ和Γ，用样本均值偏离真值的大小和样本标准差衡量估计量的表现。对于成分数据系数，用成分数据均值B与真值的偏差以及成分数据的总方差totvar(X)衡量估计结果的优劣。其中，样本均值的计算公式为

(20)

样本的总方差的计算公式为

(21)

其中：

。
估计结果如图 1~图 3所示。可以得到如下结论：

图 1

和

的样本偏差 Fig. 1 Sample deviation of

and

图选项

图 2

、

的标准差及

的总方差 Fig. 2 Standard deviation of

and total variance of

图选项

图 3 n和ρ取不同值时，

偏差箱线图 Fig. 3 Boxplots of deviation of

when n and ρ change

图选项

、

的样本均值在所有的参数设置背景下偏离实际值均较小。图 1中给出了不同参数设置背景(Set1~Set9对应的(ρ，n)的取值分别为(300, 0)、(300, 0.5)、(300, 0.8)、(500, 0)、(500, 0.5)、(500, 0.8)、(900, 0)、(900, 0.5)和(900, 0.8)共9种情况)下不同参数估计值偏差的散点图，可以发现，偏差的绝对值不超过0.015，成分数据系数3个成分

的偏差相对于

和

均较小。
2)

和

样本标准差及

的总方差随着样本量的增大而减小。从图 2中可以看出，不论ρ取何值，随着n的增加，估计量的标准差或总方差折线都是减小的趋势。
3) 当样本量大小相同时，

的样本标准差随着ρ值的增大而减小。从图 3中可以看出，当n值固定时，随着ρ从0增加到0.8，箱子越来越窄。
5 结论针对普通成分数据线性回归模型要求样本间相互独立的局限性，在空间自回归模型的基础上，提出了混合成分数据与普通数据的空间自回归模型，所提出的模型及估计方法具有如下优点：
1) 新提出的模型不仅能够同时处理成分数据和普通数据，还能表达数据中因变量之间相互依赖的问题。特别地，新模型可以处理地理空间中的依赖性。
2) 新模型所提出的估计量具有相合性。随着样本量的增大，可以发现估计值的标准差在逐渐减小。除此之外，新提出的估计方法操作简单，可以在R软件上直接实现。
在实际应用中，新模型可处理社交网络、地理空间等含有网络结构的依赖问题。而针对其他情况造成成分数据线性模型样本之间不相互独立的问题，则需要分情况进行深入分析。

参考文献

[1]	RAMSAY J O, SILVERMAN B W. Functional data analysis[M]. Berlin: Springer, 1997.

[2]	RAMSAY J O, SILVERMAN B W. Applied functional data analysis:Methods and case studies[M]. Berlin: Springer, 2002.

[3]	VIEU P, FERRATY F. Nonparametric functional data analysis[M]. Berlin: Springer, 2006.

[4]	PAWLOWSKY-GLAHN V, BUCCIANTI A. Compositional data analysis:Theory and applications[M]. Chichester: Wiley-Blackwell, 2011.

[5]	BILLARD L, DIDAY E.Symbolic regression analysis[M]//JAJUGA K, SOKOLOWSKI A, BOCK H.Classification, clustering, and data analysis.Berlin: Springer, 2002: 281-288.

[6]	BILLARD L, DIDAY E. Regression analysis for interval-valued data[M]. Berlin: Springer, 2000: 369-374.

[7]	FRY J M, FRY T R L, MCLAREN K R. Compositional data analysis and zeros in micro data[J]. Applied Economics, 2000, 32(8): 953-959. DOI:10.1080/000368400322002

[8]	PAWLOWSKY-GLAHN V, EGOZCUE J J. Exploring compositional data with the CoDa-dendrogram[J]. Austrian Journal of Statistics, 2011, 40(1 & 2): 103-113.

[9]	PAWLOWSKY-GLAHN V, EGOZCUE J J, TOLOSANA-DELGADO R. Modelling and analysis of compositional data[J]. Hoboken:John Wiley & Sons, Ltd., 2015, 152-154.

[10]	AITCHISON J. The statistical analysis of compositional data[M]. Berlin: Springer, 1986.

[11]	AITCHISON J. The statistical analysis of compositional data[J]. Journal of the Royal Statistical Society Series B, 1982, 44(2): 139-177.

[12]	HRON K, FILZMOSER P, THOMPSON K. Linear regression with compositional explanatory variables[J]. Journal of Applied Statistics, 2012, 39(5): 1115-1128. DOI:10.1080/02664763.2011.644268

[13]	ATCHISON J, SHEN S M. Logistic-normal distributions:Some properties and uses[J]. Biometrika, 1980, 67(2): 261-272.

[14]	WANG H, SHANGGUAN L, WU J, et al. Multiple linear regression modeling for compositional data[J]. Neurocomputing, 2013, 122: 490-500. DOI:10.1016/j.neucom.2013.05.025

[15]	TOLOSANA-DELGADO R, EYNATTEN H V. Simplifying compositional multiple regression:Application to grain size controls on sediment geochemistry[J]. Computers & Geosciences, 2010, 36(5): 577-589.

[16]	ANSELIN L. Spatial econometrics:Methods and models[M]. Berlin: Springer, 1988.

[17]	林光平, 龙志和, 吴梅. 中国地区经济σ-收敛的空间计量实证分析[J]. 数量经济技术经济研究, 2006, 23(4): 14-21. LIN G P, LONG Z H, WU M. A spatial investigation of σ-convergence in China[J]. The Journal of Quantitative & Technical Economics, 2006, 23(4): 14-21. DOI:10.3969/j.issn.1000-3894.2006.04.002 (in Chinese)

[18]	郭金龙, 王宏伟. 中国区域间资本流动与区域经济差距研究[J]. 管理世界, 2003(7): 45-58. GUO J L, WANG H W. Study on the regional capital flows and regional economic differences in China[J]. Management World, 2003(7): 45-58. (in Chinese)

[19]	TOPA G. Social interactions, local spillovers and unemployment[J]. Review of Economic Studies, 2010, 68(2): 261-295.

[20]	BAICKER K. The spillover effects of state spending[J]. Journal of Public Economics, 2005, 89(2-3): 529-544. DOI:10.1016/j.jpubeco.2003.11.003

[21]	ORD H. Estimation methods for models of spatial interaction[J]. Publications of the American Statistical Association, 1975, 70(349): 120-126. DOI:10.1080/01621459.1975.10480272

[22]	LEE L F. Asymptotic distributions of quasi-maximum likelihood estimators for spatial autoregressive models[J]. Econometrica, 2004, 72(6): 1899-1925. DOI:10.1111/ecta.2004.72.issue-6

[23]	KELEJIAN H, PRUCHA I R. A generalized moments estimator for the autoregressive parameter in a spatial model[J]. International Economic Review, 1999, 40(2): 509-533. DOI:10.1111/iere.1999.40.issue-2

[24]	LEE L F. GMM and 2SLS estimation of mixed regressive, spatial autoregressive models[J]. Journal of Econometrics, 2007, 137(2): 489-514. DOI:10.1016/j.jeconom.2005.10.004

[25]	LESAGE J P, PACE R K. Introduction to spatial econometrics[M]. New York: CRC Press, 2009: 513-514.

[26]	EGOZCUE J J, PAWLOWSKYGLAHN V, MATEUFIGUERAS G, et al. Isometric logratio transformations for compositional data analysis[J]. Mathematical Geology, 2003, 35(3): 279-300. DOI:10.1023/A:1023818214614

[27]	QU X, LEE L F. Estimating a spatial autoregressive model with an endogenous spatial weight matrix[J]. Journal of Econometrics, 2015, 184(2): 209-232. DOI:10.1016/j.jeconom.2014.08.008