删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

含函数型自变量回归模型中的变量选择*

本站小编 Free考研考试/2021-12-25

在目前的大数据时代,数据采集的途径越来越多样化,数据量越来越大,采集到的数据类型也日益丰富。在对这些数据进行分析的过程中,不可避免地会遇到混合类型的数据,无法直接使用已有方法进行分析处理。在已有方法的基础上,构建新方法对混合类型的数据进行统计分析具有理论和现实意义。例如,图像数据、音频数据和矩阵数据混合的数据分析问题,在图像处理、语音识别、推荐系统构建等领域中并不少见,且已引起广泛的关注。
事实上,音频数据和图像数据分别可以采用一元和二元函数型数据进行表示,矩阵数据可以采用多元向量加以描述。因此,对函数型数据和多元向量数据混合的模型及其估计方法进行研究并加以推广,可解决一系列实际问题。
对于函数型数据的研究成果众多[1],集中于函数型线性回归模型的参数估计和假设检验[2]、函数型数据的聚类分类等诸多方面[3-4]。多元统计分析的成果更是丰富,近年来围绕着高维情形下的多元统计分析,如变量选择、假设检验等也有一系列理论与实际结果。但对于函数型数据和多元向量数据混合的情形,研究成果相对较少。因为在处理该类混合数据时,需要考虑不同类型数据之间的相关性度量及对模型估计结果的影响,情况比较复杂。此外,由于函数型系数的存在,理论上研究估计量的渐近性质也具有难度。因此,通常在尽可能不过多损失信息的前提下,对混合数据进行转化,基于转化后的数据改进已有方法进行处理[5]
基于此,本文对含有函数型和多元向量自变量的回归模型中变量选择和参数估计问题进行探讨。首先,对函数型自变量利用函数型主成分基函数进行投影,对模型加以转化。然后,采用L1损失函数并考虑组变量选择方法,同时进行变量选择和参数估计,其中调节参数的选择采用了自适应算法,目标函数的最优化借助于线性规划相关算法。最后,通过数值模拟验证了本文方法在变量选择和参数估计上的有效性。
1 函数型和多元向量混合回归模型 本节引入函数型和多元向量混合回归模型,并给出对模型进行变量选择和参数估计的方法。
假设X1(t), X2(t), …, Xp(t)为p个函数型自变量,满足E(Xj(t))=0, E(Xj2(t)) < ∞, n个样本的取值分别为Xij(t), 1≤in, 1≤jp
考虑如下模型:
(1)

式中:F为积分区域; Yi为响应变量;Xij(1≤jp)为函数型自变量;ZiRq为多元向量自变量;εi为随机误差项,满足E(εi)=0, E(εi2) < ∞;βj(t)(1≤jp)和γRq为待估参数。
在模型中,如果βj≡0(1≤jp), 模型即为常见的多元线性回归模型;如果γ=0,模型退化为通常的多元函数型线性模型;进一步, 如果p=1, γ=0,模型则成为函数型线性模型。因此,该模型具有较强的泛化能力。
2 模型变量选择和参数估计 本节先对函数型自变量在主成分基函数所张成的函数空间进行投影,再采用L1损失函数和组LASSO(Least Absolute Shrinkage and Selection Operator)[6]惩罚方法进行变量选择。
2.1 函数型主成分及模型转化 假设任意函数型自变量Xj(t)(1≤jp),定义Xj(t)的协方差函数为Kj(s, t)=cov(Xj(s), Xj(t)),并进行如下谱分解[7]

式中:κj1κj2≥…≥0为算子Kj的各个特征值;Φjk为特征值对应的特征函数。{Φjk}构成L2(F)空间的一组规范正交基,从而有

式中:bjkξijk为系数。进一步,模型(1)可转化为

以上是关于理论的探讨,当面对样本时,需要对Kj(s, t)进行估计,可使用样本协方差函数进行估计。类似地,可定义函数型自变量的样本协方差函数为

式中:
进行类似谱分解可得到,为函数型谱分解中的特征根。注意,{Xij(t), 1≤in}张成的空间中任意一组基函数的维数不超过样本量n,所以若{}以降序排列,则有

在实际数据分析中,对样本协方差估计时通常会进行截断处理,最常用的做法是依据方差占比进行基函数个数选择。这里,函数型主成分基函数的个数可以通过累计方差占比CPV进行选择[8-10],如设定选取主成分基函数的个数后能保留CPV=85%的方差信息,根据

来对Xj(t)选择Lj个函数型主成分基函数。
模型(1)可转化为
(2)

式中:; bj=[bj1, bj2, …, bjLj]T
2.2 参数估计 本节基于模型(2)进行变量选择及参数估计的讨论。考虑到将每个函数型自变量展开为几个函数型主成分方向上的投影,若对原始的函数型自变量进行选择,自然会考虑组变量选择方法[11-13]。组变量选择方法不对单个变量的系数添加惩罚,而是对变量组的系数向量整体添加惩罚,从而达到变量选择的效果。构造如下目标函数:
(3)

式中:ρ(·)为损失函数;Pλ(t)=λt为惩罚函数,λ1j(1≤jp)、λ2j(1≤jq)为惩罚项的调节参数;||·||为针对bj的范数定义,||bj||=max{|bj1|, |bj2|, …, |bjLj|}。通过最小化目标函数Q(b, γ)可得到对应系数的估计量
损失函数ρ(·)可以选择为任意常见损失函数或根据需要构造,如最小二乘损失、分位数损失函数等,或负的对数似然函数等。综合考虑效率及稳健性质,选择分位数损失函数[14],并以50%分位数为例,则ρ(t)=|t|。
2.3 调节参数选择及目标函数优化 注意到,||bj|| < C等价于|bjk| < C, 1≤kLj。因此,最小化目标函数式(3)中的Q(b, γ),可通过引入松弛变量转化为线性规划问题[15]
通过如下定义引入松弛变量(ui, vi)i=1n

同样,待估参数向量(b, γ)的各个元素都可以表示成正部、负部相减的形式,即bjk=bjk+-bjk-, 1≤kLj, 1≤j≤p, γl=γl+-γl-, 1≤l≤q。最小化目标函数式(3)中的Q(b, γ),即转化为在如下约束条件下:

最小化如下目标函数:

该优化问题转化为线性优化问题,简化了目标函数的优化过程。充分利用了损失函数和惩罚函数的具体形式,对于其他损失函数和惩罚函数需要另行考虑。
关于调节参数,主要涉及到损失函数和惩罚函数之间的权重选择。调节参数过小,损失函数权重较大,模型复杂度惩罚不足;调节参数过大,模型复杂度惩罚过重,模型过于简单,无法很好地拟合数据。调节参数选择有诸多准则供参考[16-17],本节采用SIC准则。
引入不加惩罚项时的估计量,令, 只需对λ依据SIC准则进行选择即可。

式中:dfλ表示调节参数为λ的样本数量。
以上针对含有函数型和多元向量自变量的混合回归模型,从模型本身出发,利用函数型主成分分析、组变量选择方法、线性规划等,对模型实现了变量选择和参数估计。
3 数值模拟 在不同误差分布、样本量和信噪比下,对函数型和多元向量混合回归模型进行变量选择和参数估计,考查其有限样本性质。
关于函数型自变量及其函数型系数、多元向量自变量及其系数,参考1[10]进行如下设计:p=q=3, , Xijm=μij(tm(j))+εijm, εijm~N(0, 0.025rij2), μi1(t)=cos(2π(t-a1))+a2t, t∈[0, 1], μi2(t)=b1sin(2t)+b2, t∈(0, π/3), μi3(t)=c1t3+c2t2+c3t+c4, t∈[-1, 1], a1~N(-5, 32), a2~N(7, 1), b1~U(3, 7), b2~N(0, 1), c1~N(-3, 1.22), c2~N(2, 0.52), c3~N(-2, 1), c4~N(2, 1.52),
按照如下公式生成因变量:

式中:σ为标准差;β1(t)=sin(2πt), γ=[0.3, 0, 0]。为对比不同样本量、信噪比下的模型估计效果,分别设定n=100, 300, σ=0.05, 0.2。
关于效果评价指标,分别使用将非零参数估计为非零的参数个数(TP)、将为零的参数估计为非零的参数个数(FP)来衡量变量选择的效果,TP=2, FP=0是最理想的结果。参数估计效果分别使用均方误差根(RMSE)和偏差(Bias)加以衡量:

为保证结果的稳定性,将各情况均随机模拟200次,表 1表 2给出了各指标的均值(Mean)和标准差(Sd)。
表 1 正态误差下的数据模拟结果 Table 1 Data simulation results with normal error
(n, σ) 统计指标 TP FP RMSE Bias
(100, 0.05)Mean 2 0.22 0.028 2 0.005 8
Sd 0 0.52 0.007 6 0.004 4
(100, 0.2)Mean 2 0.34 0.084 4 0.022 9
Sd 0 0.61 0.033 0 0.017 9
(300, 0.05)Mean 2 0.09 0.016 8 0.002 7
Sd 0 0.30 0.004 8 0.002 0
(300, 0.2)Mean 2 0.18 0.049 1 0.012 0
Sd 0 0.42 0.019 5 0.009 8


表选项






表 2 柯西误差下的数据模拟结果 Table 2 Data simulation results with Cauchy error
(n, σ) 统计指标 TP FP RMSE Bias
(100, 0.05)Mean 2 0.01 0.036 0 0.008 3
Sd 0 0.07 0.007 6 0.004 4
(100, 0.2)Mean 2 0.03 0.116 8 0.035 5
Sd 0 0.16 0.054 7 0.030 1
(300, 0.05)Mean 2 0 0.019 5 0.003 8
Sd 0 0 0.006 5 0.002 8
(300, 0.2)Mean 2 0.12 0.062 1 0.014 0
Sd 0 0.32 0.026 6 0.011 6


表选项






表 1可知,在正态误差项下能将非零参数都估计为非零,但某些情况下会将为零的参数估计为非零,在模型中引入了无关变量。在样本量大、信噪比低情形(n=300, σ=0.05),模型变量选择效果最好。根据RMSE和Bias可以看出,该方法对于函数型自变量的参数和多元向量自变量的参数均具有良好效果。表 2结果类似。由表 1表 2的结果对比可知,误差分布为厚尾分布时,变量选择的结果受到影响较小,而参数估计精度受到较大影响。
4 结论 1) 本文同时考虑了函数型自变量和多元向量自变量,拓展了函数型数据分析的应用领域,给出了一种新的数据混合回归模型。
2) 引入惩罚函数同时进行变量选择和参数估计,对函数型自变量引入了组变量选择方法,对经过函数型主成分分析投影后的函数型自变量具有选择效果。
3) 在变量选择过程中,将目标函数优化问题转化为线性优化问题,降低了参数估计的复杂性。
4) 在参数估计过程中考虑了异常值的影响,采用了稳健变量选择方法,扩大了适用性。

参考文献
[1] FERRATY F. Recent advances in functional data analysis and related topics[M]. Berlin: Springer, 2011.
[2] CHEN S T, XIAO L, STAICU A M. A smoothing-based goodness-of-fit test of covariance for functional data[J]. Biometrics, 2018, 75(2): 562-571.
[3] CUEVAS A. A partial overview of the theory of statistics with functional data[J]. Journal of Statistical Planning and Inference, 2014, 147: 1-23. DOI:10.1016/j.jspi.2013.04.002
[4] PARK J, AHN J. Clustering multivariate functional data with phase variation[J]. Biometrics, 2017, 73(1): 324-333. DOI:10.1111/biom.12546
[5] KATO K. Estimation in functional linear quantile regression[J]. Annals of Statistics, 2012, 40(6): 3108-3136. DOI:10.1214/12-AOS1066
[6] TIBSHIRANI R. Regression shrinkage and selection via the Lasso[J]. Journal of the Royal Statistical Society.Series B(Statistical Methodology), 1996, 58(1): 267-288.
[7] HALL P, HOROWITZ J L. Methodology and convergence rates for functional linear regression[J]. Annals of Statistics, 2007, 35(1): 70-91.
[8] HALL P, HOSSEINI-NASAB M. On properties of functional principal components analysis[J]. Journal of the Royal Statistical Society.Series B(Statistical Methodology), 2005, 68(1): 109-126.
[9] LIN X, LU T, YAN F, et al. Mean residual life regression with functional principal component analysis on longitudinal data for dynamic prediction[J]. Biometrics, 2018, 74(4): 1482-1491. DOI:10.1111/biom.12876
[10] HUANG L, ZHAO J, WANG H, et al. Robust shrinkage estimation and selection for functional multiple linear model through LAD loss[J]. Computational Statistics & Data Analysis, 2016, 103: 384-400.
[11] QIAN J, SU L. Shrinkage estimation of common breaks in panel data models via adaptive group fused Lasso[J]. Journal of Econometrics, 2016, 191(1): 86-109. DOI:10.1016/j.jeconom.2015.09.004
[12] VINCENT M, HANSEN N R. Sparse group lasso and high dimensional multinomial classification[J]. Computational Statistics & Data Analysis, 2014, 71: 771-786.
[13] LIU X, LIN Y, WANG Z. Group variable selection for relative error regression[J]. Journal of Statistical Planning and Inference, 2016, 175: 40-50. DOI:10.1016/j.jspi.2016.02.006
[14] WANG H J, LI D, HE X. Estimation of high conditional quantiles for heavy-tailed distributions[J]. Journal of the American Statistical Association, 2012, 107(500): 1453-1464. DOI:10.1080/01621459.2012.716382
[15] BANG S, JHUN M. Simultaneous estimation and factor selection in quantile regression via adaptive sup-norm regularization[J]. Computational Statistics & Data Analysis, 2012, 56(4): 813-826.
[16] WANG T, ZHU L. Consistent tuning parameter selection in high dimensional sparse linear regression[J]. Journal of Multivariate Analysis, 2011, 102(7): 1141-1151. DOI:10.1016/j.jmva.2011.03.007
[17] HIROSE K, TATEISHI S, KONISHI S. Tuning parameter selection in sparse regression modeling[J]. Computational Statistics & Data Analysis, 2013, 59: 28-40.


相关话题/数据 优化 函数 空间 指标

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于飞行数据的无人机平飞动作质量评价模型*
    随着军用无人机大量装备部队以及民用无人机的广泛应用,专业无人机操控手的需求缺口较大,加强对无人机操控手的基础训练,客观合理的评价操控手的飞行技能水平成为无人机发展应用亟待解决的关键问题[1]。对飞机驾驶人员飞行技能的评价主要有主观法和客观法两种:主观法一般由专家观察飞行过程后对驾驶人员进行打分,如K ...
    本站小编 Free考研考试 2021-12-25
  • 机动发射条件下空间飞行器上升段弹道设计*
    在现代战争条件下,精确制导武器发展迅速,可以实现“点对点”打击,导致提高武器系统的生存能力变得十分重要。与传统的固定阵地发射方式相比,机动发射在提高生存能力的同时带来了打击的突然性,可以有效提高武器系统作战效能。同样,在应急状态下,能够实现卫星的机动发射,可以迅速对报废卫星进行补充,有效支持作战行动 ...
    本站小编 Free考研考试 2021-12-25
  • 空间目标的ISAR成像及轮廓特征提取*
    逆合成孔径雷达(InverseSyntheticApertureRadar,ISAR)成像具有全天时、全天候、远距离、高分辨等特点,其能够提供丰富的目标结构信息。利用ISAR进行空间目标成像是空间态势感知的重要内容,是夺取未来空天优势的重要保障。但是由于各种干扰因素及噪声的存在,导致ISAR像的质量 ...
    本站小编 Free考研考试 2021-12-25
  • 基于深度学习的无人机数据链信噪比估计算法*
    地-空数据链作为无人机系统的重要组成部分,发挥着发送上行遥控指令和回传遥测侦察信息等重要作用[1]。信噪比(Signal-to-NoiseRatio,SNR)是评价无人机通信系统信道环境和通信质量的重要指标,精确的信噪比估计既可以为无人机数据链提供功率控制、信道分配所需要的信息,又可以促使数据链系统 ...
    本站小编 Free考研考试 2021-12-25
  • 空间光学遥感器真空热试验工装模块化设计*
    空间光学遥感器是搭载在卫星或航天飞行器上利用光学技术获取目标属性和相关信息的精密科学设备。为了适应光学遥感技术的快速发展,对光学遥感器的要求逐渐向高空间分辨率、高光谱分辨率、高辐射分辨率性能及轻量化的方向发展。而光学遥感器作为卫星有效载荷,对环境温度均匀性的要求将变得更加苛刻,均匀的温度场可为其提供 ...
    本站小编 Free考研考试 2021-12-25
  • 基于波动光学的显微光场成像点扩散函数*
    航空航天发动机由于换热量大,且内部结构复杂,传统换热器已经不能满足其对空间及换热性能的双重需求,而微通道换热器因换热性能强、结构紧凑、质量轻、体积小等优点成为研究热点。目前,微通道换热器仍处于发展阶段,研究其流动特性可指导微通道的构型优化,且流动特性的研究有助于换热特性的研究。因此,流动特性是微通道 ...
    本站小编 Free考研考试 2021-12-25
  • 附件化超声振动工作台设计及有限元优化分析*
    随着科学技术的进步,高温合金、工程陶瓷、复合材料等具有高硬度、耐磨损、耐高温、耐腐蚀等优异属性的先进材料在航空航天、国防科技、生物工程、计算机工程等尖端领域中的应用日益广泛[1-2]。由于材料的难加工特性,利用传统加工方法已经很难甚至无法提供有效的材料加工技术解决方案[3]。超声振动辅助加工结合了超 ...
    本站小编 Free考研考试 2021-12-25
  • 超磁致伸缩超声换能器的磁路优化设计*
    超声振动板料渐进成形是在普通板料渐进成形的基础上给工具头施加沿某一方向以一定规律周期性变化的超声振动,以改善板料的成形效果。板料渐进成形是一种塑性成形,在塑性成形中施加超声振动可以显著降低材料的流动应力,提高材料的成形极限和产品的加工质量[1]。目前,在超声加工领域,压电陶瓷是超声换能器广泛使用的换 ...
    本站小编 Free考研考试 2021-12-25
  • 桁架拓扑优化几何稳定性判定法和约束方案比较*
    桁架结构拓扑优化是结构优化领域的一个重要分支。结构拓扑优化的很多经典问题都是从桁架结构优化中出现并逐步得到解决的,一些新的结构拓扑优化方法往往也通过求解典型的桁架拓扑优化算例进行可行性和有效性的验证。优化过程中桁架拓扑会发生变更,这是拓扑优化不同于尺寸优化的一个显著特点。虽然也有****研究进化类的 ...
    本站小编 Free考研考试 2021-12-25
  • 一种低轨遥感卫星按需数据传输机制*
    分布式低轨(LowEarthOrbit,LEO)卫星网络广泛应用于遥感遥测、气象预报与环境监测等领域[1],凭借其覆盖域广、灵活部署、传播时延低等优势,成为全球数据实时采集与传输的最佳选择。由于地面站部署受限,高速飞行的LEO卫星运行至境内地面站通信范围时才能迎来短暂的数据传输窗口,并且卫星与地面站 ...
    本站小编 Free考研考试 2021-12-25