删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

成分数据的空间自回归模型*

本站小编 Free考研考试/2021-12-25

数据搜集技术的快速发展不仅带来了海量的数据,也带来了类型越来越复杂的数据,如函数数据[1-3]、成分数据[4]和符号数据[5-6]等。在这些类型复杂的数据中,成分数据由于关注部分在总体中的占比信息,受到愈来愈广泛的关注。如Fry等[7]利用住户开支统计调查结果研究预算分配模型,Pawlowsky-Glahn和Egozcue[8]利用成分数据比较东欧和西欧国家在食物消费结构上的习惯差异,Pawlowsky-Glahn[9]等利用成分数据回归模型分析了巴西宗教信仰构成的变化。
成分数据分析主要研究活动对象结构变化产生的规律及其对其他对象产生的影响。关于成分数据的理论研究,标志性的成果是1986年Aichison撰写的《成分数据统计分析》[10],该书详细阐述了成分数据统计分析方法建立的数学基础。在成分数据分析中,线性回归模型是一种常用的分析技术。现有的成分数据线性回归模型可以分为两大类:第1类因变量是普通数据[11-12],第2类因变量是成分数据[13-15]。Hron等[12]利用第1类成分数据线性回归模型研究了GDP组成与预期寿命的关系;而Wang等[14]利用第2类模型研究了地区总产值与就业和投资的关系。本文在因变量是普通数据的成分数据回归模型基础上进行研究。在成分数据回归模型中,通常以样本之间独立同分布作为前提。而在实际应用中,独立同分布的假设往往是不成立的。如何对现有的成分数据线性回归模型进行改进,使之适应实际应用的需求,是一个值得深入研究的问题。
在空间计量经济学[16]中,空间自回归模型通过引入空间依赖项,打破了因变量相互独立的假设,使得许多与空间地理位置或社交网络有关的现象得到解释。利用空间自回归模型,可以对区域经济发展的问题[17-18]、溢出性问题[19-20]等进行分析。现有的空间自回归模型在普通数据的基础上已经发展得相对完善,已有的对空间自回归模型进行估计的方法包括Ord[21]和Lee[22]提出的极大似然估计法、Kelejian、Prucha[23]和Lee[24]提出的广义矩估计法、Lesage和Pace[25]从贝叶斯的角度提出的马尔可夫链蒙特卡罗方法(Markov chain Monte Carlo method)。
因此,针对经典成分数据线性回归模型假设样本间相互独立的严格要求,研究因变量之间具有空间依赖的成分数据回归模型,通过在普通数据的空间自回归模型中,引入成分数据的协变量,提出了同时含有成分数据和普通数据的空间自回归模型。并依据成分数据的特点,给出了混合2种数据的空间自回归模型的估计方法。提出的新模型比已有的成分数据线性回归模型具有更强的灵活性,可以处理更加复杂的空间依赖问题。
1 基础理论 本节主要介绍成分数据的代数空间——单形空间(simplex)中的基本运算,以及与成分数据联系紧密的几种变换,利用这些变换可以将具有约束的成分数据转化成易于处理的普通数据。
1.1 单形空间 对于含有d个成分的成分数据,对应的单形空间Sd(上标d表示成分数据有d个成分,因此实际是d-1维的)定义为
(1)

式中:x为一个d维的成分数据;xi>0表示成分数据的每一个成分都是非负的;为成分数据必须满足的约束条件,即各成分累加和是个定值。不失一般性,在本文中令k=1。在Sd中,基本的运算包括加法运算、数乘运算、内积运算。
现有单形空间Sd中的任意2个成分数据xy以及实数α,记x=(x1, x2, …, xd)TSdy=(y1, y2, …, yd)TSdαR,则xy的加法⊕及αx数乘运算⊙可分别定义为
(2)

(3)

式中:C(·)表示闭合运算,定义为
(4)

不难看出,闭合运算保证了运算结果仍在Sd中。基于运算⊕和⊙,可以导出xy的减法运算,
(5)

xy的内积运算〈x, ya定义为
(6)

式中:x各个成分的几何平均值;同理可定义;内积符号〈x, ya的下标a表示该运算在单形空间Sd中。内积运算还可以导出单形空间中任意一个成分数据x的范数‖xa及任意2个成分数据xy之间的距离da(x, y),其定义分别为
(7)

(8)

可以证明,含有内积运算的单形空间是一个希尔伯特空间。
1.2 等距对数比变换 需注意,因约束的存在,成分数据x=(x1, x2, …, xd)Td个成分之间不相互独立,直接将多元统计方法应用到成分数据上会产生矛盾的结果。已有的对成分数据进行变换的方法主要为对数比变换,具体类型包括加法对数比(alr)变换,中心对数比(clr)变换和等距对数比(ilr)变换。由于alr变换不是等距变换,而clr变换得到的变量是线性相关的,不便于直接用于回归建模,因此此处仅介绍ilr变换。
ilr变换是Egozcue等[26]提出的。该变换将d维的单形空间Sd映射到d-1维的欧几里得空间Rd-1上,得到的实数向量消除了原成分数据中不同成分之间的共线性,可以直接用于建模。该变换利用标准正交基的正交性和单位长度性质,将成分数据变换成易于处理的标准正交基的系数。设标准正交基为{ek}k=1d-1, ek=(ek1, ek2, …, ekd)T,则任意一个成分数据x都可以表示为x=〈x, e1ae1⊕〈x, e2ae2⊕…⊕〈x, ed-1aed-1,相应地,x的ilr变换坐标ilr(x)为
(9)

Egozcue等[26]证明,ilr变换是保内积的变换,即对于含有d个成分的成分数据xy, 有
(10)

下面给出具体的ilr变换过程。
已知观测到样本量nd维成分数据{Ci}i=1n, 其中Ci=(xi1, xi2, …, xid)T,则Ci进行ilr变换后的坐标为
(11)

式中:

Ψ为(d-1)×d维的矩阵,具体表达式为

由于ilr变换是保内积的变换,因此在第3节的估计方法中,将使用变换后的坐标{ξi}i=1n代替原来的成分数据{Ci}i=1n进行参数估计。
2 模型的提出 借鉴Qu和Lee[27]对空间自回归模型的背景假设,考虑空间关系发生在一个非均匀分布的格子L, L?Rp, p≥1上,格子上的点相互可分,即任意2点的距离大于0。从格子L上观测到了n个对象,每个对象的观测数据为{yi, xi1, …, xid, xid+1, …, xip}i=1n。其中xij(j=1, 2, …, d)共同组成d个成分的成分数据Ci=(xi1, xi2, …, xid)T,且每个Ci是随机成分数据C的独立同分布观测;xij(j=d+1, d+2, …, p)为普通数据,它们是随机变量Xj(j=d+1, d+2, …, p)的独立同分布观测,标记Xi=(xid+1, xid+2, …, xip)T。记Y=(y1, y2, …, yn)TC=(C1, C2, …, Cn)TX=(X1, X2, …, Xn)T,则因变量Y符合以下回归模型:
(12)

式中:ατn为截距项,τn为所有元素均为的1的维度为n的向量;ρ为未知的空间自相关参数,取值在区间(-1, 1)内;W={wij}n×n为外生的空间矩阵,wij为对象ij之间的权重;B为待估的成分数据系数,具有p个成分;Γ为普通数据的待估系数;E为独立于X的误差项,服从均值为0,方差为σ2In多元正态分布,Inn×n的单位矩阵。
需强调的是,式(12)中C和回归系数B都为成分数据,〈C, Ba为一个实数。在Aitchison内积空间中,〈C, Ba代表XY解释性最强的投影方向。
ρ=0时,式(12)退化为普通的成分数据线性模型。在这个意义上,式(12)比经典的成分数据线性模型具有更强的灵活性,可以处理更加复杂的数据关系。
3 估计方法 为估计模型式(12)中的参数α, ρ, B, Γ,首先需将相互不独立的成分数据转化为相互独立的普通数据,1.2节中已作详细介绍;其次,要解决因变量yi之间不相互独立的问题,此处采用极大似然估计法ilr变换后的模型进行估计。
同样利用1.2节中的ilr变换,可得到成分数据系数B的变换坐标b=ilr(B)。
由于B是需估计的参数,因此变换后的坐标b是未知的。记ξ=(ξ1, ξ2, …, ξn)T,则模型式(12)可写为
(13)

为描述简便,记:δ=(b, Γ)TZ=(ξ, X),则式(13)可表示为
(14)

由于模型式(12)中误差项服从多元正态分布,因变量Y的似然函数为
(15)

式中:e=Y-ατn-ρWY-。因式(15)有3个未知参数ρδσ2,直接对这3个变量求导存在一定的计算困难。现假若已得到ρ的估计值,那么利用极大似然估计法,可以相应得到δσ2的估计量,它们分别为
(16)

(17)

考虑将似然函数式(15)中的变量δσ2分别用估计量代替,那么似然函数中的3个变量就变成一个变量。式(15)替换后的表达式为
(18)

式中:c为一个常数。利用牛顿法等数值解法,可以得到的ρ的估计值。相应地,通过式(16)和式(17)可以分别得到δσ2的估计量。
由于得到以后,可以得到b的估计量;再通过ilr变换的逆变换ilr-1,就可得到B的估计量
(19)

至此,所有参数都可以估计出来。
4 数值模拟 为评估所提出估计方法的统计性质,下面设计了几组数值模拟实验检验估计量的表现。所有的计算过程都是在R软件中实现,用到的包有“spdep”和“compositions”。
关于空间自回归模型的空间网络结构,采取最常见的“车”相邻(rook matrix)。假设n个样本点随机地散落在一个RT列的格子棋盘上,每个样本点占据棋盘上的一个方格,那么在棋盘上共享一条边的2个样本点就是相邻的。在这样的情况下,处在棋盘中间的任意样本点都有4个邻居,处在棋盘边上的样本点有3个邻居,而处在棋盘角上的样本点只有1个邻居。分别设置R=10,20,30,T=30,25,30,相应地样本量n=R×T=300, 500, 900。为了查看空间依赖的强弱是否对估计量有影响,同样设计了3组不同的ρ值,ρ=0,0.5,0.8。
关于混合数据的空间自回归模型,由于截距项不是主要关注的参数,此处设α=0,其他参数设置如下:Y=ρWY+〈B, Ca+ΓX+0.8EC~Ns(μΣ); X~N(1,0.8);E~N(0, In); μ=(0.49,0.61)T; Σ=; Γ=1;B=(b1, b2, b3)T=(2, 1, 1.5)T。其中:C~Ns(μ, Σ)表示C进行ilr变换后的坐标服从均值为μ,协方差为Σ的多元正态分布。此处ilr-1(μ)=(1, 2, 3)T
在每一种情形下,重复实验次数k=100。对于参数ρΓ,用样本均值偏离真值的大小和样本标准差衡量估计量的表现。对于成分数据系数,用成分数据均值B与真值的偏差以及成分数据的总方差totvar(X)衡量估计结果的优劣。其中,样本均值的计算公式为
(20)

样本的总方差的计算公式为
(21)

其中:
估计结果如图 1~图 3所示。可以得到如下结论:
图 1 的样本偏差 Fig. 1 Sample deviation of and
图选项




图 2 的标准差及的总方差 Fig. 2 Standard deviation of , and total variance of
图选项




图 3 nρ取不同值时,偏差箱线图 Fig. 3 Boxplots of deviation of when n and ρ change
图选项




1) 的样本均值在所有的参数设置背景下偏离实际值均较小。图 1中给出了不同参数设置背景(Set1~Set9对应的(ρn)的取值分别为(300, 0)、(300, 0.5)、(300, 0.8)、(500, 0)、(500, 0.5)、(500, 0.8)、(900, 0)、(900, 0.5)和(900, 0.8)共9种情况)下不同参数估计值偏差的散点图,可以发现,偏差的绝对值不超过0.015,成分数据系数3个成分的偏差相对于均较小。
2) 样本标准差及的总方差随着样本量的增大而减小。从图 2中可以看出,不论ρ取何值,随着n的增加,估计量的标准差或总方差折线都是减小的趋势。
3) 当样本量大小相同时,的样本标准差随着ρ值的增大而减小。从图 3中可以看出,当n值固定时,随着ρ从0增加到0.8,箱子越来越窄。
5 结论 针对普通成分数据线性回归模型要求样本间相互独立的局限性,在空间自回归模型的基础上,提出了混合成分数据与普通数据的空间自回归模型,所提出的模型及估计方法具有如下优点:
1) 新提出的模型不仅能够同时处理成分数据和普通数据,还能表达数据中因变量之间相互依赖的问题。特别地,新模型可以处理地理空间中的依赖性。
2) 新模型所提出的估计量具有相合性。随着样本量的增大,可以发现估计值的标准差在逐渐减小。除此之外,新提出的估计方法操作简单,可以在R软件上直接实现。
在实际应用中,新模型可处理社交网络、地理空间等含有网络结构的依赖问题。而针对其他情况造成成分数据线性模型样本之间不相互独立的问题,则需要分情况进行深入分析。

参考文献
[1] RAMSAY J O, SILVERMAN B W. Functional data analysis[M]. Berlin: Springer, 1997.
[2] RAMSAY J O, SILVERMAN B W. Applied functional data analysis:Methods and case studies[M]. Berlin: Springer, 2002.
[3] VIEU P, FERRATY F. Nonparametric functional data analysis[M]. Berlin: Springer, 2006.
[4] PAWLOWSKY-GLAHN V, BUCCIANTI A. Compositional data analysis:Theory and applications[M]. Chichester: Wiley-Blackwell, 2011.
[5] BILLARD L, DIDAY E.Symbolic regression analysis[M]//JAJUGA K, SOKOLOWSKI A, BOCK H.Classification, clustering, and data analysis.Berlin: Springer, 2002: 281-288.
[6] BILLARD L, DIDAY E. Regression analysis for interval-valued data[M]. Berlin: Springer, 2000: 369-374.
[7] FRY J M, FRY T R L, MCLAREN K R. Compositional data analysis and zeros in micro data[J]. Applied Economics, 2000, 32(8): 953-959. DOI:10.1080/000368400322002
[8] PAWLOWSKY-GLAHN V, EGOZCUE J J. Exploring compositional data with the CoDa-dendrogram[J]. Austrian Journal of Statistics, 2011, 40(1 & 2): 103-113.
[9] PAWLOWSKY-GLAHN V, EGOZCUE J J, TOLOSANA-DELGADO R. Modelling and analysis of compositional data[J]. Hoboken:John Wiley & Sons, Ltd., 2015, 152-154.
[10] AITCHISON J. The statistical analysis of compositional data[M]. Berlin: Springer, 1986.
[11] AITCHISON J. The statistical analysis of compositional data[J]. Journal of the Royal Statistical Society Series B, 1982, 44(2): 139-177.
[12] HRON K, FILZMOSER P, THOMPSON K. Linear regression with compositional explanatory variables[J]. Journal of Applied Statistics, 2012, 39(5): 1115-1128. DOI:10.1080/02664763.2011.644268
[13] ATCHISON J, SHEN S M. Logistic-normal distributions:Some properties and uses[J]. Biometrika, 1980, 67(2): 261-272.
[14] WANG H, SHANGGUAN L, WU J, et al. Multiple linear regression modeling for compositional data[J]. Neurocomputing, 2013, 122: 490-500. DOI:10.1016/j.neucom.2013.05.025
[15] TOLOSANA-DELGADO R, EYNATTEN H V. Simplifying compositional multiple regression:Application to grain size controls on sediment geochemistry[J]. Computers & Geosciences, 2010, 36(5): 577-589.
[16] ANSELIN L. Spatial econometrics:Methods and models[M]. Berlin: Springer, 1988.
[17] 林光平, 龙志和, 吴梅. 中国地区经济σ-收敛的空间计量实证分析[J]. 数量经济技术经济研究, 2006, 23(4): 14-21.
LIN G P, LONG Z H, WU M. A spatial investigation of σ-convergence in China[J]. The Journal of Quantitative & Technical Economics, 2006, 23(4): 14-21. DOI:10.3969/j.issn.1000-3894.2006.04.002 (in Chinese)
[18] 郭金龙, 王宏伟. 中国区域间资本流动与区域经济差距研究[J]. 管理世界, 2003(7): 45-58.
GUO J L, WANG H W. Study on the regional capital flows and regional economic differences in China[J]. Management World, 2003(7): 45-58. (in Chinese)
[19] TOPA G. Social interactions, local spillovers and unemployment[J]. Review of Economic Studies, 2010, 68(2): 261-295.
[20] BAICKER K. The spillover effects of state spending[J]. Journal of Public Economics, 2005, 89(2-3): 529-544. DOI:10.1016/j.jpubeco.2003.11.003
[21] ORD H. Estimation methods for models of spatial interaction[J]. Publications of the American Statistical Association, 1975, 70(349): 120-126. DOI:10.1080/01621459.1975.10480272
[22] LEE L F. Asymptotic distributions of quasi-maximum likelihood estimators for spatial autoregressive models[J]. Econometrica, 2004, 72(6): 1899-1925. DOI:10.1111/ecta.2004.72.issue-6
[23] KELEJIAN H, PRUCHA I R. A generalized moments estimator for the autoregressive parameter in a spatial model[J]. International Economic Review, 1999, 40(2): 509-533. DOI:10.1111/iere.1999.40.issue-2
[24] LEE L F. GMM and 2SLS estimation of mixed regressive, spatial autoregressive models[J]. Journal of Econometrics, 2007, 137(2): 489-514. DOI:10.1016/j.jeconom.2005.10.004
[25] LESAGE J P, PACE R K. Introduction to spatial econometrics[M]. New York: CRC Press, 2009: 513-514.
[26] EGOZCUE J J, PAWLOWSKYGLAHN V, MATEUFIGUERAS G, et al. Isometric logratio transformations for compositional data analysis[J]. Mathematical Geology, 2003, 35(3): 279-300. DOI:10.1023/A:1023818214614
[27] QU X, LEE L F. Estimating a spatial autoregressive model with an endogenous spatial weight matrix[J]. Journal of Econometrics, 2015, 184(2): 209-232. DOI:10.1016/j.jeconom.2014.08.008


相关话题/数据 空间 观测 网络 成分

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 卫星时序数据挖掘节点级并行与优化方法*
    时序数据是一种带有时间标记的常见大数据类型。航天、气象、交通、电力、工业、金融、科研[1]等众多领域日复一日地不断产生此类型数据。在大数据和云计算时代,人们需要运用数据挖掘方法分析研究这些时序大数据,以获得蕴藏在数据背后的异常、关联、模式、趋势等知识,并利用所得知识进行异常检测、关联分析、故障诊断、 ...
    本站小编 Free考研考试 2021-12-25
  • 一种软件定义卫星网络的多波束切换机制*
    世界强国政府与工业部门已经充分认识到软件定义卫星网络(Software-DefinedSatelliteNetwork,SDSN)系统在21世纪国际竞争和国民经济发展中的重要作用,对其研究和应用的投入急速增加。目前,国内外著名研究机构、卫星通信公司都大力推进SDSN的理论方法与应用基础研究[1]。S ...
    本站小编 Free考研考试 2021-12-25
  • 兼顾控制流量的软件定义卫星网络路由策略*
    卫星网络具有覆盖范围广、不受地面条件约束和抗毁性强等显著优势,受到世界各国的广泛重视。然而,现有的卫星网络一般定制专用、各成体系,呈现出“烟囱林立”的特点,难以实现网络统一融合、资源动态管理和功能灵活配置。软件定义卫星网络(SoftwareDefinedSatelliteNetworks,SDSN) ...
    本站小编 Free考研考试 2021-12-25
  • 基于代理模型的空间飞越发射窗口*
    空间飞越是指运行在停泊轨道的航天器,收到指令后沿着设计的转移轨道,从距离目标航天器或天体极近的空间一点(飞越点)掠过,进行短时间观测并远离的过程[1]。对空间飞越的研究具有重要意义。首先,飞越探测是深空探测的一种重要方式,如嫦娥二号对4179Toutatis小行星的飞越探测[2]。其次,在进行在轨服 ...
    本站小编 Free考研考试 2021-12-25
  • 基于数据挖掘方法的空间大气模型修正*
    数据挖掘(又称从数据中发现知识)起源于20世纪80年代后期,在20世纪90年代有了突飞猛进的发展,数据挖掘提供了发现隐藏在大型数据集中的模式的技术,关注可行性、有用性、有效性和可伸缩性问题[1]。大数据指的是以不同形式存在于数据库、网络等媒介上蕴含丰富信息的规模巨大的数据。大数据是一个宽泛的概念,其 ...
    本站小编 Free考研考试 2021-12-25
  • 一种高效利用天基激光能量清除空间碎片的方法*
    空间碎片主要是指分布在地球轨道上一切丧失功能的人造物体以及因其碰撞或爆炸而产生的碎片[1]。随着人类航天活动的日益发展,空间碎片的数量在不断地增加,已经对太空环境造成了严重污染,其中动能撞击是对在轨航天器的主要威胁[2]。为了能有效地控制和清除空间碎片,近年来世界上各研究机构提出多种针对空间碎片的处 ...
    本站小编 Free考研考试 2021-12-25
  • 一种基于指数积公式的空间机械臂自标定方法*
    空间机械臂作为在轨服务的重要工具在空间站的建设与维护、卫星的释放与回收和在轨可更换单元的更换等任务中起着至关重要的作用。空间机械臂能完成以上任务的前提是具有较高的末端位姿精度。然而空间机械臂伴随航天器发射时会受到强烈的振动与冲击,在轨运行期间面临极端的温度环境,这些因素将不可避免地引起空间机械臂的运 ...
    本站小编 Free考研考试 2021-12-25
  • 基于UMAC的RBF神经网络PID控制*
    精密装配过程中,装配动作需要多伺服运动轴协同工作,同时要求各运动轴运动准确度和精度高,响应时间快。通用电机运动控制器(UniversalMotionandAutomationController,UMAC)是一款强大、灵活和易用的可编程多轴运动控制器,其能广泛地满足从最简单到对性能要求极高的应用场合 ...
    本站小编 Free考研考试 2021-12-25
  • 基于空间隔离的低轨卫星系统频谱共享方法*
    在现今的无线通信系统中,卫星通信由于其自身特点,能够覆盖到海洋和偏远山区等地区,而这些地区是传统通信方式出于成本与技术条件考虑无法覆盖的。根据轨道高度不同,将轨道高度在500~2000km范围的称为低轨(LEO)卫星,5000~20000km的称为中轨(MEO)卫星,而飞行高度大于20000km的称 ...
    本站小编 Free考研考试 2021-12-25
  • 基于创新力-适应度的O2O电商知识网络构建*
    随着移动互联网、云计算、大数据等信息通信技术的迅猛发展,数据和信息呈现爆炸式增长的态势,知识门类也变得越加复杂多样,从高度分化向综合化逐步演进,目前已形成一个庞大的知识网络体系。庞大而复杂的知识系统,使得新兴的O2O电商企业对知识的创新发展很难做出准确的预测。知识的创造及运用能力已成为企业保持竞争优 ...
    本站小编 Free考研考试 2021-12-25