删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于经验分布的区间数据分析方法

本站小编 Free考研考试/2021-12-25

符号数据分析(SDA)可以对海量巨维数据的分析提供行之有效的解决思路,因而成为目前统计学研究的前沿领域,具有众多的理论研究成果和广泛的实际应用案例[1, 2, 3, 4].区间数据作为一种符号数据,因其具有广泛的应用价值而得到关注[5, 6].尤其在面对海量数据时,采用区间数据可以极大地约简原始数据,进而基于区间数据分析的方法进行数据处理[7, 8, 9].
区间数据分析的众多研究文献,无论是采用顶点法、均值法还是引入内积运算、平方范数等,都是基于数据在某一个闭区间(或紧致集合)上服从均匀分布的假定,且区间数据分析的理论性质均基于此假定.而在实际数据处理中,假设数据来源于某一固定区间,并且在该区间上服从均匀分布,通常是难以满足的.例如在统计学处理中,通常会假设数据服从正态分布而不是均匀分布.一旦均匀分布这一假定不满足,其良好的理论性质均不再成立.因此,均匀分布这一假定在区间数据分析中起着基础性的重要作用,需要对区间数据分析的这一假定进行重新审视,并在数据不服从均匀分布时给出合理化的解决方法[10, 11].
基于以上考虑,仅假定原始数据来源于某一连续分布,本文提出一种基于数据驱动的变换,对原始数据进行该变换后,从理论上证明在样本容量足够大时其服从均匀分布,在实际数据处理操作中可对其是否服从均匀分布进行假设检验,进而可采用已有的区间数据分析方法进行后续分析,如主成分分析、回归分析等.数据模拟的结果可以看出,经过变换后的数据基本可以通过假设检验,即使是在样本量较小的情形下.
1 基于经验分布函数的变换本节从最简单的情形出发,基于经验分布函数给出数据变换公式.
X为服从某一连续分布的随机变量,(x1,x2,…,xn)是已得到的一组样本数据,将其转化为区间数据的方法是取其最大值和最小值作为区间的两个端点,假定其他样本在这个区间服从均匀分布[5].这一假定明显过于严格,如果样本服从其他分布,会导致这一假定及其后续分析的结果失效.
X的分布函数为F(t),经验分布函数Fn(t)定义为

其中I为示性函数.注意到,对于任意给定的t,nFn(t)服从二项分布,即nFn(t)~B(n,F(t)),从而可以计算Fn(t)的期望和方差为

从而可知,经验分布函数Fn(t)二阶收敛到真实的分布函数F(t).
设随机变量F(X)的分布函数为H,则有

由此可知,F(X)服从(0,1)区间上的均匀分布(U(0,1)),而Fn(Xi)二阶收敛到F(Xi).因而在样本量足够大时可以近似认为Fn(Xi)服从(0,1)上的均匀分布.
从以上分析可知,对于原始数据(x1,x2,…,xn)可以通过式(3)的变换得到(z1,z2,…,zn),转化为理论上服从(0,1)均匀分布的区间数据进行后续的处理和分析.

这里使用经验分布函数对真实的分布函数进行估计,但经验分布函数不是可逆的,可以考虑采用其他估计量.例如在单调约束下采用核方法等非参数方法进行估计,在一定光滑性条件下保证得到的估计量具有逆函数,从而保证变换是可逆的.直接对分布函数F(t)进行估计,需要考虑单调约束;如果转化为估计密度函数f(t),则不需要在单调约束条件下进行估计,并且密度估计具有较多的已有成果可以借鉴,这里考虑核密度估计方法[12],之后通过积分变换得到分布函数的估计量.
将式(1)换一种表达形式为

其中ωi=1/n可看作是基于离散均匀测度构造的权重,将这一权重函数进行推广可以得到核估计,具体过程如下.
首先给出核密度估计:

其中,K( · )是核函数;h是窗宽.通常核函数K( · )是对称函数,且满足:

常见的核函数有正态核、Epanechnikov等,具体可参见文献[13].由于(x)非负,所以估计得到的(t)具有单调性,因而这是个可逆变换.在使用核方法进行估计时,核函数的选择并不关键,重要的是要对窗宽h进行选择.这里采用基于似然函数的交叉验证指标:

其中-i表示去掉第i个样本之后得到的核密度估计.最终选择使得LCV(h)取最大值的h作为窗宽.在式(4)中,积分区域是从无穷开始的.在实际估计中,选择某个距离样本点的极小值x(1)较远的数值即可.
2 变换后的假设检验第1节中本文基于经验分布函数构造了变换,本节讨论对变换后的数据进行是否服从均匀分布的假设检验.
考虑如下假设检验问题:

针对数据是否服从某一给定分布的假设检验问题,文献中有着较多的检验统计量,基本上分为基于经验分布函数的、基于次序统计量的和基于距离的3种[14],包括常见的Kolmogorov-Smirnov统计量[15]、Anderson-Darling统计量[16]、Cramér-von Mises统计量[17]等.文献[18]提出了式(6)和式(7)的统计量,与常见的统计量相比具有较高的功效,因此这里采用该统计量.

其中z(i)为第i个次序统计量.ZA,ZC的精确分布难以得到,文献[18]给出了各个水平下ZA和ZC在不同样本容量时的拒绝域.(z1,z2,…,zn)通过均匀分布假设检验,则可以采用区间数据分析的方法进行后续分析.由于经过第1节中的变换后得到的zn=1,因此笔者对文献[18]中的统计量略加改造.
注意到,经过变换后的数据均分布在(0,1)上,从而不需要估计均匀分布所在区间的端点值.实际上,文献中通常是采用最小值和最大值来作为区间端点的估计值.在均匀分布情形下可以证明,最小值和最大值并非区间端点的无偏估计量.本文的方法避免了这一偏差的存在.
3 基于变换数据的区间数据分析本节将原始数据经过变换后得到的数据整理成区间数据表,以便进行后续分析.
根据原始数据定义数据矩阵如下:

其中 X 的每一行为一组观测数据,每一列为一个变量的观测值.假设观测值分为M类,不妨令(x1,…,xn1),(xn1+1,…,xn2),…,(xnM-1+1;xn)分别属于不同的类别,即样本本身具有一定的分类结构,这种情形在数据分析中经常会出现.因此,可以对变换后的数据分组进行约简,将其整理成区间数据表.
定义

则可以得到

进一步对每一类内部的样本进行整理可以得到

其中
这时得到的数据表为 Y ,是个典型的区间数据表,基于此可以进行主成分、回归分析等.
经过变换后得到的区间数据所有的取值都落在0~1之间.从数据信息的角度考虑,所做变换相当于对原始数据进行了方差压缩,消除了不同变量量纲不同的影响.
类似于经验分布函数变换,也可以对数据进行基于核估计函数的变换,然后整理成区间数据表.
4 数据模拟 4.1 数据模拟1本节讨论在不同样本容量下,取自不同分布(正态分布N(0,1)、指数分布Exp(2)、柯西分布Cauchy和均匀分布U(0,1),U(5,10))的样本,经过变换后是否能通过均匀分布检验,采用第2节中提到的统计量.表 1是模拟的结果.每组模拟进行1 000次,计算原假设不被拒绝的频率(在0.05的水平下),采用的统计量是ZA.
表 1 对不同样本容量下来自不同分布的样本进行均匀分布检验的结果Table 1 Test results on unifrom distribution with different sample sizes and distributions
样本量N(0,1)Exp(2)CauchyU(0,1)U(5,10)
50.1150.0860.0520.8650.878
100.0350.0120.0040.9340.925
200.0060.00200.9650.951
400.002000.9490.948
500000.9570.955
1000000.9720.952
2000000.9560.947

表选项


由表 1的结果可知,如果数据本身来源于某些不是均匀分布的常见分布,进行假设检验时很难认为其服从均匀分布;只有当原始数据来源于均匀分布时,可以在一定水平下不能拒绝其来自于均匀分布.而采用经过变换后的数据时,数据都成为样本容量倒数的整数倍,因而可以通过检验,是来自均匀分布的.
4.2 数据模拟2笔者在不同分布中分别采用经验分布函数和核估计方法对分布函数进行估计,具体结果如图 1所示.这里所适用的样本容量是50.样本容量为50时,二者都较好地拟合了分布函数.随着样本容量增大,二者对分布函数的拟合都具有较好效果.经验分布函数是阶梯函数,比较粗糙,而分布函数的核估计则相对光滑.
图 1 对不同分布的分布函数分别采用经验分布函数和核方法进行估计的结果Fig. 1 Simulation results for estimating the cumulative distribution function by empirical distribution and kernel method
图选项


表 2给出了利用经验分布函数和核方法对分布函数进行估计的偏差.在模拟中,随着样本容量的增大,两种估计的偏差都在不断减小,但核方法在区间端点处对分布函数的估计效果略差.在数据来源于重尾分布(表 2中所示的Cauchy分布)时,两种估计的偏差相对都较大. 表 2 不同分布不同样本容量下使用经验分布和核估计的偏差Table 2 Bias of estimation for distributions by empirical distribution and kernel estimator with different sample sizes
分布类型样本量20样本量50样本量100样本量200
经验分布核估计经验分布核估计经验分布核估计经验分布核估计
N(0,1)0.247 60.197 80.180 60.164 90.171 40.126 40.096 40.081 9
Exp(2)0.180 30.168 00.152 50.136 80.092 10.109 40.026 40.029 5
Cauchy0.626 10.552 00.526 10.546 50.472 60.585 90.226 70.407 0
U(2,3)0.086 00.079 30.057 60.040 10.028 60.020 50.011 90.016 1
U(5,10)0.274 50.222 00.204 40.195 80.190 70.140 90.159 80.153 8

表选项


5 结 论本文针对区间数据分析中的均匀分布基本假定在实际数据分析中往往得不到满足的情况,提出一种利用连续型随机变量的性质,依赖经验分布函数和核估计方法对其分布函数进行估计,从而构造了两种数据变换,使得经过变换后的数据满足均匀分布的假设.因此,在使用区间数据分析方法前,应先对数据是否服从均匀分布进行假设检验,若无法通过检验则考虑对数据进行变换,本文基于经验分布函数给出了这样的变换.以变换后的数据作为分析对象,进行后续的区间数据分析更加合理.所提出的变换可推广到使用区间数据分析方法的数据预处理中,使得已有的分析方法更加严谨.
进行变换后的数据满足均匀分布的假设,可进行主成分分析、聚类分析、回归分析等,这是下一步的研究工作.
参考文献
[1] Sankararaman S, Mahadevan S.Likelihood-based representation of epistemic uncertainty due to sparse point data and/or interval data[J].Reliability Engineering & System Safety,2011,96(7):814-824.
Click to display the text
[2] Diday E, Noirhomme-Fraiture M.Symbolic data analysis and the SODAS software[M].London:Wiley Online Library,2008:81-92.
[3] Billard L. Symbolic data analysis:what is it?[M].New York:Springer,2006:261-268.
[4] Diday E, Esposito F.An introduction to symbollic data analysis and the SODAS software[J].Intelligent Data Analysis,2003,7(6): 583-601.
Click to display the text
[5] Wang H W, Guan R,Wu J J.CIPCA:complete-information-based principal component analysis for interval-valued data[J].Neurocomputing,2012,86:158-169.
Click to display the text
[6] Wang H W, Guan R,Wu J J.Linear regression of interval-valued data based on complete information in hypercubes[J].Journal of Systems Science and Systems Engineering,2012,21(4):422-442.
Click to display the text
[7] Yue Z L. A group decision making approach based on aggregating interval data into interval-valued intuitionistic fuzzy information[J].Applied Mathematical Modelling,2014,38(2):683-698.
Click to display the text
[8] Cerný M, Hladík M.The complexity of computation and approximation of the t-ratio over one-dimensional interval data[J].Computational Statistics and Data Analysis,2014,80:26-43.
Click to display the text
[9] Yang X J, Yan L L,Peng H,et al.Encoding words into cloud models from interval-valued data via fuzzy statistics and membership function fitting[J].Knowledge-Based Systems,2014,55:114-124.
Click to display the text
[10] 郭均鹏,陈颖, 李汶华.一般分布区间型符号数据的K均值聚类方法[J].管理科学学报,2013,16(3):21-28. Guo J P,Chen Y,Li W H.K-means clustering of generally distributed interval symbolic data[J].Journal of Management Sciences in China,2013,16(3):21-28(in Chinese).
Cited By in Cnki (5)
[11] 高飒. 一般分布区间型符号数据的聚类分析方法研究[D].天津:天津大学,2009. Gao S.The clustering analysis of generally distributed interval symbolic data[D].Tianjin:Tianjin University,2009(in Chinese).
Cited By in Cnki (6)
[12] Silverman B W. Density estimation for statistics and data analysis[M].London:Chapman and Hall,1986:34-48.
[13] Fan J Q, Yao Q W.Nonlinear time series: nonparametric and parametric methods[M].New York:Springer Verlag,2003:193-212.
[14] Marhuenda Y, Morales D,Pardo M C.Power results of tests for the uniform distribution,I-2005-09[R].Spain:Miguel Hernandez University of Elche,2005.
[15] Kolmogorov A N. Sulla determinazione empirica di una legge di distribuzione[J].G Inst Ital Att,1933,4:83-91.
[16] Sinclair C D, Spurr B D.Approximations to the distribution function of the anderson:darling test statistic[J].Journal of the American Statistical Association,1988,83(404):1190-1191.
Click to display the text
[17] Conover W J. Practical nonparametric statistics[M].New York:Wiley,1999:63-70.
[18] Zhang J. Powerful goodness-of-fit tests based on the likelihood ratio[J].Journal of the Royal Statistical Society,Series B(Statistical Methodology),2002,64(2):281-294.
Click to display the text


相关话题/数据 经验 检验 统计 文献

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于数据链的空战对抗建模及增援决策分析
    在信息化战争条件下,航空武器系统越来越倚靠于高效可靠的通信手段来保障其性能发挥.数据链的出现,实现了战场态势共享、精确指挥控制和武器协同打击的无缝链接[1,2],成为武器装备的生命线.另外,衡量航空武器系统整体的作战效能[3,4,5],对于科学研判和有效分析系统的整体性能,具有重要的现实意义.从系统 ...
    本站小编 Free考研考试 2021-12-25
  • 基于经验小波变换的目标加速度估计算法
    脉冲雷达测速通常采用细谱线跟踪技术,导弹等高动态目标的加速度和加加速度会使回波多普勒谱线展宽甚至出现混叠,导致雷达测速系统很难正确跟踪.因此为了提高脉冲雷达多普勒测速精度,估计目标的加速度和加加速度并进行相位补偿至关重要[1,2].当目标作加速运动时,回波信号为相位具有高阶项的非平稳信号.目标加速度 ...
    本站小编 Free考研考试 2021-12-25
  • 敏捷化AIOps框架及运维数据质量评估方法
    敏捷化AIOps框架及运维数据质量评估方法吴振宇,施畅北京邮电大学收稿日期:2021-03-24修回日期:2021-06-08出版日期:2021-12-28发布日期:2021-11-16通讯作者:施畅E-mail:shichangachang@163.comAgileAIOpsFrameworkan ...
    本站小编 Free考研考试 2021-12-25
  • 频谱聚合中非数据辅助的幅频相估计与补偿
    频谱聚合中非数据辅助的幅频相估计与补偿陈建梅1,仇洪冰1,郑霖1,2,杨超11.桂林电子科技大学广西无线宽带通信和信号处理重点实验室2.通信网信息传输与分发技术重点实验室收稿日期:2021-03-26修回日期:2021-05-31出版日期:2021-10-28发布日期:2021-09-06通讯作者: ...
    本站小编 Free考研考试 2021-12-25
  • 数据驱动的城镇智慧水务日用水量预测算法
    数据驱动的城镇智慧水务日用水量预测算法姚俊良,薛海涛,刘庆西安理工大学自动化与信息工程学院,西安710048收稿日期:2020-08-28出版日期:2021-08-28发布日期:2021-10-13作者简介:姚俊良(1984-),男,副教授,硕士生导师,E-mail:yaojunliang@xaut ...
    本站小编 Free考研考试 2021-12-25
  • 可扩展的融合多源异构数据的推荐模型
    可扩展的融合多源异构数据的推荐模型冀振燕1,吴梦丹1,2,杨春1,李俊东11.北京交通大学软件学院,北京100044;2.中国科学院软件研究所,北京100190收稿日期:2020-11-12发布日期:2021-06-23作者简介:冀振燕(1972-),女,副教授,博士生导师,E-mail:zhyji ...
    本站小编 Free考研考试 2021-12-25
  • 支持泛洪攻击检测的命名数据网PIT
    支持泛洪攻击检测的命名数据网PIT彭鹏1,李卓1,梁纪峰2,马天祥2,刘开华11.天津大学微电子学院,天津300072;2.国网河北省电力有限公司电力科学研究院,石家庄050021收稿日期:2020-08-20发布日期:2021-04-28通讯作者:李卓(1984-),男,副教授,硕士生导师,E-m ...
    本站小编 Free考研考试 2021-12-25
  • 一种信息中心移动自组网中的数据访问控制机制
    一种信息中心移动自组网中的数据访问控制机制刘宁春1,郜帅1,2,侯心迪1,国兴昌11.北京交通大学电子信息工程学院,北京100044;2.鹏城实验室网络通信研究中心,深圳518052收稿日期:2020-10-08发布日期:2021-04-28通讯作者:郜帅(1980-),男,教授,E-mail:sh ...
    本站小编 Free考研考试 2021-12-25
  • NDN数据提供者移动支持策略能耗建模与分析
    NDN数据提供者移动支持策略能耗建模与分析王国卿华北水利水电大学信息工程学院,郑州450045收稿日期:2020-12-28发布日期:2021-04-28作者简介:王国卿(1986-),女,讲师,E-mail:wangguoqing@ncwu.edu.cn.EnergyConsumptionMode ...
    本站小编 Free考研考试 2021-12-25
  • 面向车联网自动驾驶的边缘智能多源数据处理
    面向车联网自动驾驶的边缘智能多源数据处理吕昕晨,张晨宇北京邮电大学移动互联网安全技术国家工程实验室,北京100876收稿日期:2020-12-13发布日期:2021-04-28作者简介:吕昕晨(1992-),男,副研究员,E-mail:lvxinchen@bupt.edu.cn.基金资助:国家自然科 ...
    本站小编 Free考研考试 2021-12-25