分位回归与复杂分层结构数据分析
文献类型:图书
作者:田茂再[0]
机构:统计学院
出版年度:2011
出版地:国内
出版社:知识产权出版社
ISBN:7800117006
总字数:500000
出版日期:2011-05-20
摘要:自二十世纪七八十年代以来,有关分层分位回归(Quantile-Hierarchical Regression)的研究越来越受到人们的重视。这主要是因为考虑到了数据分层结构的分层模型(Hierarchicalmodels)不论是在理论研究方面还是在经验研究方面都引起了广泛的关注. Lindly and Smith(1972) 和 Smith (1973) 首先引进了分层线性模型(Hierarchical linear model)这一术语,算是对线性模型的贝叶斯估计所作的学术贡献。由于分层模型需要估计出现不平衡数据的协方差阵,所以在二十世纪七十年代初期还没有一般的可行办法.随后,许多科研领域相继展开了各自领域里的研究,因此,分层模型在不同的文献里就有了许多不同的名称. 粗略地说,在社会学研究方面,称它们为多水平线性模型 (Goldstein, 1995; Mason et al.,1983). 在生物学应用方面,称它们为混合效应模型和随机效应模型(Elston & Grizzle, 1962; Laird & Ware,1982 以及 Singer,1998).在计量经济学文献里,它们被 ...More
自二十世纪七八十年代以来,有关分层分位回归(Quantile-Hierarchical Regression)的研究越来越受到人们的重视。这主要是因为考虑到了数据分层结构的分层模型(Hierarchicalmodels)不论是在理论研究方面还是在经验研究方面都引起了广泛的关注. Lindly and Smith(1972) 和 Smith (1973) 首先引进了分层线性模型(Hierarchical linear model)这一术语,算是对线性模型的贝叶斯估计所作的学术贡献。由于分层模型需要估计出现不平衡数据的协方差阵,所以在二十世纪七十年代初期还没有一般的可行办法.随后,许多科研领域相继展开了各自领域里的研究,因此,分层模型在不同的文献里就有了许多不同的名称. 粗略地说,在社会学研究方面,称它们为多水平线性模型 (Goldstein, 1995; Mason et al.,1983). 在生物学应用方面,称它们为混合效应模型和随机效应模型(Elston & Grizzle, 1962; Laird & Ware,1982 以及 Singer,1998).在计量经济学文献里,它们被称作随机效应回归模型 (Rosenberg,1973 and Longford, 1993), 统计学文献则称它们为协方差成份模型(Dempster,Rubin andTsutakawa, 1981 and Longford, 1987).Dempster, Laird, and Rubin(1977) 开发了EM 算法.后来,Dempster,et al. (1981) 说明了该算法可用到分层数据结构的可行性. Laird and Ware (1982)和 Strenio, Weisberg, and Bryk (1983) 将此算法应用到增长模型的研究. 同时,Mason et al.(1983)利用EM 算法研究了具有分层结构的交叉区域数据. Cox (1983) 则用分层模型去解释超散度,Strawderman (1971) 用它来构造 Minmax 估计量. 基于它,Goldstein (1986) 提出了迭代再加权广以最小二乘(IRGLS) 方法,而Longford (1987) 提供了 Fisher scoring 算法来估计协方差. Kass and Steffey (1989) 提供了该模型的贝叶斯版本模型,该模型实质上就是条件独立分层模型. Hobert (2000) 给出了有关分层模型目前计算方面的问题及前景展望. 上面提到的所有模型有一个共性:借助于组间与组内变异性的力量.现有的分层模型的理论本质上说就是有关给定预测变量X 的值x 后响应变量Y 的条件均值的理论. 这些理论没有也不可能给出响应变量的条件分位函数的全面刻画. 所以,考虑给定协变量的条件下响应变量的全面刻画问题、估计子的稳健问题等等,就显得非常必要了.举个例子说吧:我们很想知道具有分层结构的数据里,某个协变量是否对响应变量的不同层面有不同的影响?什么时候产生的不同影响?产生的机理是什么?等等.再比如m(x)说,怎样解释1992 年美国民主党所提出的美国人出现了两极分化问题:穷的越穷,富的越富?另一方面,Koenker, R. and Bassett, G. (1978)首先提出了分位回归模型的概念. 分位回归是一种统计方法,它旨在对条件分位函数进行统计推断. 正如基于残差平方和最小化的经典线性回归方法能估计条件均值函数一样,分位回归方法为我们提供了一种估计条件分位函数的机制.一个著名的分位回归的特例就是最小绝对偏差(LAD)估计,它将中位数拟合成协变量的线性函数.LAD 估计内在的引人入胜之处就在于它在度量位置参数的时候,比均值好.尔后,分位回归取得了长足发展.下面仅仅是几个典型的例子:1) 在参数分位回归模型方面, Portnoy & Koenker (1997)讨论了线性规划中内点问题的最新进展;2) 在非参数分位回归模型方面,Yu & Jone (1998) 提出了“双核”(Double-kernel)法; 3) 在半非参数分位回归模型方面,Koenker,et al (1992) 给出了一种解决基于罚似然估计法(the penalized likelihood estimation)的算法;4) 目前,分位回归有几个热门话题:时间序列中的分位回归; 分位回归的拟合优度;贝叶斯分位回归,等等.有关分位回归的优点可以初略地概括如下:1) 给定一组预测变量之后,它能全面刻画响应变量的整个条件分布;2) 分位回归模型有线性规划代理 (LP),这使得估计简便;2) 就像LAD 这一特例一样,分位回归的目标函数是加权的绝对偏差和,所以它能给出一个稳健的位置测度,因此,被估计的系数向量对响应变量的离群点(Outliers)不敏感; 4) 当误差项服从非正态的时候,分位回归估计量要比最小二乘估计量更为有效,等等.早在2000 年的时候,我们就开始这方面的研究了.这些年来,在与国内外专家合作研究中,取得了一些成果,先后发表了十余篇学术文章。 在这些文章里,我们试图解决 (I) 分层分位线性回归的统计推断与应用;(II) 非线性分层分位回归建模、统计推断;(III) 非线性分层分位回归中的统计诊断,比如说异方差性诊断;(IV) 半参数非线性分层分位回归的拟合优度检验;以及(V) 分位数约束下的空间子回归模型理论与应用. (VI) 实际应用:将这些理论与方法广泛地应用到实际数据分析中去,包括四大类型的数据:重复测量数据(Repeated data)、纵向数据(Longitudinal data)、分层结构数据(Hierarchical data)以及聚类数据(Cluster data),等等. ...Hide
作者其他论文
基于分位回归的国家形象影响因素分析.李泽昱;苏宇楠;田茂再.统计研究.2014,31(8),59-65.
负二项抽样下需处理数置信区间构造方法的改进.舒焕;封达道;田茂再.系统科学与数学.2012,32(9),1047-1056.
逆抽样下流行病发病率的逼近与渐近置信区间.田茂再;吴喜之;李远,等.系统科学与数学.2008,28(5),513-523.
条件分位中的分层线性回归模型.田茂再;陈歌迈.中国科学A辑.2006,36(10),1103-1118.
关于纵向数据分析方法的比较研究.陈彦靓;田茂再.统计与决策.2013,23-26.