删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于中心-对数半长的区间数据主成分分析*

本站小编 Free考研考试/2021-12-25

主成分分析(Principal Component Analysis,PCA)是一种对包含多个变量的平面数据表进行最佳综合简化的多元分析方法[1]。其主要目的是在保证数据信息损失最小的前提下,对多元数据进行降维处理,基本原理是通过正交变换将p个相互关联的变量转换为p个相互无关的"主成分",并省却数据变异不大的方向信息,提取前m(m≤p)个成分来概括数据系统[2]。主成分分析可以将难以可视化的高维空间样本点投影到较为直观的低维空间(如二维平面),从而实现数据的可视化,有助于提取有效信息得以辅助相关决策[3]。然而,传统的主成分分析方法在处理大规模数据时,存在较大的局限性[4]:一方面,海量数据的运算会增加计算机的内存负荷,从而大大降低了主成分分析的计算效率;另一方面,较大的样本数量会对降维后的可视化效果造成影响。
不同于传统的单值数据,区间数据通过"数据打包"的思想将原数据集合处理为若干个高维超矩形[5],区间数据表中的每个单元是一个区间而不是一个数值。区间数据的应用,一方面可以有效地降低样本容量,同时能够有效解决数据中的可变性和不确定性,反映样本群点的集中趋势和离散程度等整体特征[6]。近年来,一系列区间数据主成分分析方法被提出,例如,顶点主成分分析法(Vertices Principal Component Analysis,V-PCA)和中心主成分分析法(Centers Principal Component Analysis,C-PCA)是最经典的2种区间数据主成分分析方法。
具体地,对包含n个样本点、p个变量的n×p维区间数据表Xn×p,V-PCA把每个区间样本点视为具有2p个顶点的超矩形[7-8],将Xn×p展开成(n·2pp维的普通数值型数据表,然后对其进行传统的主成分分析并投影到低维空间中,最后重新组合还原为区间数据。但V-PCA的计算过程随着变量维数p的增大而更加复杂,导致出现"维数灾难"。Cazes等[7]给出一种简化算法,直接计算V-PCA展开后矩阵的相关系数矩阵,可以消除大量的冗余计算。王惠文等[9]比较了V-PCA和简化的V-PCA的计算过程和结果,验证了二者计算结果的等价性以及V-PCA简化方法的高效性。而C-PCA用每个区间的中点代替原始区间[10-11],计算过程与V-PCA类似,对用中点表示的n×p维普通数值型数据表进行传统的主成分分析,相比V-PCA方法,C-PCA的计算量得到有效降低,但同时丢失了更多的数据信息。
此外,郭均鹏和李汶华[12]研究了服从均匀分布的区间数据的经验描述统计量,基于经验相关矩阵对区间数据进行主成分分析,结果与V-PCA和C-PCA类似,但降低了计算复杂度。Palumbo和Lauro[13]提出了中心半长法,将区间样本矩阵分为中心矩阵和半长矩阵,分别进行主成分分析,然后加以综合得到最终的区间主成分,但该方法假设2个矩阵主成分相同,存在一定的理论缺陷。
为解决上述研究方法存在的一些问题,郭均鹏和李汶华[14]提出了基于误差传递公式的区间主成分分析方法,首先得到测量值的主成分,通过误差传递公式得到极限误差,然后组合二者得到最终的区间主成分。Wang等[15]提出了基于全信息的区间数据主成分分析方法,基于区间数据的基本代数算子和运算规则,在计算过程中保留区间样本内部的全部信息,得到能够准确反映区间内部结构特征的主轴。侯自盼和李生刚[16]依据区间矩阵的运算方法得到区间数据样本的协方差矩阵和样本相关矩阵,计算所得对应的特征值和特征向量的分量均为区间数,并且重新定义贡献率,由此给出一种新的区间数据主成分分析方法。刘清贤[17]在服从正态分布区间数的研究基础上,提出了2种改进的算法。
不同于上述方法,本文考虑对区间的半长值取对数,基于中心和对数半长的表达,提出一种新的区间数据主成分分析方法,实现多变量区间数据的降维与可视化。与已有方法相比,本文方法计算复杂度较低,且保证了降维前后样本集合中点点之间相对位置的改变尽可能小。仿真实验也验证了该区间数据主成分分析方法的有效性。
1 基本概念与理论 1.1 区间数据的基本概念 区间数据的取值可表示为一个集合:
(1)

式中:x,称xx分别为区间x的下界和上界; sR表示实数。注意到区间数据的这种表达形式存在一个约束条件,即区间下界必须小于等于上界。
在中心半长法[13]中,区间数据表达为一个由区间中心和半长构成的数组:
(2)

式中:分别表示区间的中心和半长。此种表达形式直接体现了区间数据的位置信息和大小信息,但仍然存在一个约束条件,即区间的半长必须为非负数。
带约束的表达形式极大地限制了多种经典的统计分析方法在区间数据领域的应用。为解决上述问题,考虑对区间的半长进行取自然对数的处理(以下简称为"对数半长"),将区间数据重新表达为由中心和对数半长组成的二维数组:
(3)

式中:表示区间的对数半长;仍表示区间中心。由对数函数的性质可得,对区间半长xr取自然对数的处理可以解除其必须为非负数的约束条件,并且xr与其自然对数值xlnr=ln(xr)是一一对应。需要说明的是,对半长进行取对数的处理适用于半长恒为正数的区间,故本文不考虑区间数据退化为普通数值型数据的情形。
易知,上述区间数据的3种表达形式是互相对应的,且能唯一确定一个区间。若无特殊说明,下文关于区间数据的论述均采用式(3)基于中心-对数半长的表达形式。
n维向量X=[x1, x2, …, xn]′的每个分量均为区间数据,即xi=(xic, xilnr)(1≤in),则称X为区间向量。类似的,若n×p维矩阵Xn×p的每个元素均为区间数据xij=(xijc, xijlnr),则称Xn×p为区间矩阵,记为
(4)

式中:每一行ei为一个区间样本,由p个变量刻画;每一列Xj表示一个区间变量,包含n个独立样本观测;第i行第j列元素xij=(xijc, xijlnr)表示样本点ei对应区间变量Xj的区间观测值。
本文关于区间数据主成分分析的对象正是形如式(4)包含n个独立样本并由p个区间变量描述的区间数据表。
1.2 区间数据的代数运算 基于中心-对数半长的表达形式,对于任意2个区间数据a=(ac, alnr)和b=(bc, blnr),及任意实数λ∈R,定义区间数据加法⊕和数乘⊙的运算法则遵循二维向量的对应运算,即
(5)

(6)

可以看到,2个区间数据相加即2个区间的中心和对数半长分别相加,实数与区间数据的数乘即中心和对数半长分别与实数相乘,加法和数乘运算的结果仍为区间数据。进而可推导减法运算?为
(7)

类似地,根据欧式空间二维向量内积运算规则,给出区间数据内积〈·, ·〉c-lnr的定义如下:
(8)

易证上述内积的定义满足正定性、对称性和线性。进一步,可以得到由内积(8)导出的区间数据的范数||·||c-lnr和距离dc-lnr(·, ·)定义为
(9)

(10)

易证式(9)给出的范数定义满足正定性、齐次性和三角不等式。式(10)在考虑2个区间数据的距离时,同时考虑了区间中心(即位置信息)和对数半长(即长度信息)2个维度的差异,并且满足正定性、对称性和三角不等式。
尽管已有文献提出了一些基于Moore算术的区间数据代数运算,却很少提及区间数据代数体系的零元素。基于中心-对数半长的表达和式(5)~式(10)的运算法则,可定义此框架下区间数据的零元素为ηe=(ηec, ηelnr)=(0, 0),还原为区间上下界的表达形式为[-1, 1],满足对任意区间数据a=(ac, alnr)有:
(11)

1.3 区间向量的代数运算 进而可将上述运算法则推广至区间向量空间。对区间向量A=[a1, a2, …, an]′和B=[b1, b2, …, bn]′,其中对?i=1, 2, …, nai=(aic, ailnr), bi=(bic, bilnr)均为区间数据。则区间向量之间的加法⊕、数乘⊙、内积〈·, ·〉c-lnr、范数||·||c-lnr和距离dc-lnr(·, ·)运算可分别定义为
(12)

(13)

(14)

(15)

(16)

根据式(16)所示区间向量的距离运算,可定义2个n×p维区间矩阵Xn×pYn×p的距离为
(17)

式中:ei=[xi1, xi2, …, xip]′和ξi=[yi1, yi2, …, yip]′分别为区间矩阵Xn×pYn×p的第i行区间向量转置。
此外,定义n×p维区间矩阵Xn×p=(xij)n×pp×m维实数矩阵Up×m=(ujk)p×m(ujkR)相乘仍为一个区间矩阵,记为Wn×m=(wik)n×m=XUWn×m的第i行第k列元素为
(18)

式中:xij为区间矩阵X的第i行第j列元素,为一个区间;ujk为实数矩阵U的第j行第k列元素,为一个实数。
2 区间数据主成分分析的理论推导 2.1 经典的主成分分析 首先简单回顾经典的主成分分析。对于给定的p个变量X1, X2, …, Xp,记其协方差矩阵为S,则第h(1≤hp)个主成分是p个变量的线性组合,即。已知数据所携带信息量的多少可以由变量的方差表示,方差越大,则所含信息越多。因此,为了在信息损失最少的前提下实现对变量的降维,主成分分析要求前m(mp)个主成分的方差之和尽可能大,并满足约束条件:u1, u2, …, um是标准正交的,uh=[u1h, u2h, …, uph]′∈Rp, h=1, 2, …, m。上述优化问题的解恰是协方差矩阵S的前m个最大特征值所对应的m个特征向量,并且第h个最大特征值λh的取值恰好是第h个主成分的方差。综上所述,对变量X1, X2, …, Xp进行主成分分析的过程实际上是对其协方差矩阵S的特征分解过程。
2.2 区间变量的数字特征 在式(4)所示的n×p维区间数据表Xn×p中,每一行ei为一个由p个区间变量刻画的区间样本,每一列表示所有n个样本在第j个区间变量Xj上的观测值,由此可得到区间变量Xj的一些统计特征。
区间变量Xj的样本均值为
(19)

分别表示区间变量Xj中心和对数半长的样本均值。则Xj的样本均值仍为一个二维数组表示的区间数据。
区间变量Xj的样本方差为
(20)

表示区间变量Xj中心的方差, 表示Xj对数半长的方差, 易证
区间变量XjXk的样本协方差为
(21)

区间变量XjXk的样本相关系数为
(22)

从而可以得到区间数据表Xn×p的样本协方差矩阵V和样本相关系数矩阵R,分别表示为
(23)

2.3 区间数据主成分分析理论推导 考虑对形如式(4)的n×p维区间数据表Xn×p进行区间主成分分析,为便于推导,这里假设区间变量X1, X2, …, Xp的样本均值均为零元素。类似于经典的主成分分析,第h(1≤hp)个区间主成Yhp个区间变量的线性组合,即
(24)

式中:uh=[u1h, u2h, …, uph]′∈Rp,并满足约束条件u1, u2, …, up标准正交。此外,对?j=1, 2, …, p,有E(Xj)=(0, 0), 则E(Yh)=(0, 0),结合式(20)~式(23)可得Yh的方差为
(25)

区间数据主成分分析同样要求前m(mp)个区间主成分携带尽可能多的信息,即前m个区间主成分方差之和要达到最大,从而根据式(25)可以转化为一个二次型的极值问题:
(26)

与经典主成分分析类似,由二次型极大值定理可得,极值问题(26)的最优解是Xn×p的样本协方差矩阵V的前m个最大特征值λ1λ2≥…≥λm对应的特征向量u1, u2, …, um,且最优值是
上述基于中心-对数半长的区间数据代数运算框架下的主成分分析方法,以下简称为C-lnR PCA方法。通过C-lnR PCA方法,原始的p维区间数据表投影到m(mp)维空间,从而能够在低维空间上运用多种经典的统计分析方法,进一步提取更多有效信息,同时能够在低维空间(如二维平面)上描绘和分析原始高维空间中的样本点,使得多变量区间数据表的可视化成为可能。
3 区间数据C-lnR PCA的建模过程 3.1 区间变量的相关处理方法 1) 区间变量Xj的中心化处理
xij=(xijc, xijlnr)变换为
(27)

中心化处理对所有观测值进行平移处理,不会改变样本之间的相对位置关系和变量之间的相关关系。记表示区间变量Xj中心化处理后的区间变量,则满足
(28)

(29)

表示区间变量Xk中心化处理后的区间变量,则满足
(30)

2) 区间变量Xj的标准化处理
xij=(xijc, xijlnr)变换为
(31)

标准化处理使区间变量方差变为1,可以更真实地体现样本的离散程度。设表示区间变量Xj经过标准化处理后的区间变量,则满足
(32)

(33)

表示区间变量Xk经过标准化处理后的区间变量,则, 满足
(34)

3.2 C-lnR PCA方法建模步骤 综上,对式(4)所示区间数据表Xn×p进行C-lnR PCA方法的建模步骤如下:
步骤1??对区间数据表Xn×p进行中心化或标准化处理。标准化处理目的是使样本点集合的中心与坐标原点重合,并消除由量纲不同引起的虚假变异信息,得到更加合理的分析结果。为方便起见,仍记中心化或标准化处理后的数据表为Xn×p
步骤2??计算区间数据表Xn×p的协方差矩阵V
步骤3??通过特征分解求解协方差矩阵V的特征值λ1λ2≥…≥λp,以及特征值对应的特征向量u1, u2, …, up(要求是标准正交的)。
步骤4??根据确定主成分个数的一些准则,如Kaiser-Guttman准则或需要的累积贡献率来选取最终保留的主成分的个数m(mp)。
步骤5??对应的u1, u2, …, um称为主轴,可计算样本点ei=[xi1, xi2, …, xip]′在主轴uh=[u1h, u2h, …, uph]′上的投影Fih(h=1, 2, …, m)为
(35)

,可将投影Fih还原为样本点ei在主轴uh上的区间下界和上界分别为
(36)

定理1??对区间数据表Xn×p实施C-lnR PCA,用表示原p维空间中样本点ei在区间主成分分析后的m维空间上的投影,易证
(37)

式中:Trace表示迹函数,即矩阵对角线上的所有元素之和。
对一个确定的区间数据表而言,样本协方差矩阵V是确定的,因此Trace(V)也是确定的,由最优化问题(26)和式(37)可得
(38)

上述定理表明,C-lnR PCA方法将原p维空间降维到一个m维空间后,样本集中点点之间相对位置的改变是尽可能小的,即尽可能地保持降维前后点点之间位置关系的一致性。
4 区间PCA方法有效性比较 4.1 不同区间PCA方法复杂度比较 考虑对区间数据表Xn×p进行区间主成分分析,将经典的V-PCA、C-PCA与本文提出的C-lnR PCA方法进行比较。
关于空间复杂度,经典的V-PCA方法需要首先将Xn×p完全展开为(n·2pp维普通数值型数据表,C-PCA方法的处理对象则是n×p维数值型中心矩阵,而本文提出的C-lnR PCA方法等价于处理2n×p维的中心-对数半长数值型矩阵。显然C-PCA方法和C-lnR PCA方法所需要的存储空间远小于V-PCA方法。
关于时间复杂度,3种区间数据主成分分析方法的比较结果如表 1所示,V-PCA方法的计算量要远大于C-PCA方法和C-lnR PCA方法,后2种方法计算过程较为简单,因此时间复杂度显著较低。
表 1 V-PCA、C-PCA和C-lnR PCA时间复杂度的比较 Table 1 Comparison of time complexity among V-PCA, C-PCA and C-lnR PCA methods
计算步骤 复杂度
V-PCA C-PCA C-lnR PCA
计算Xj均值 n·2p个值参与运算 n个值参与运算 2n个值参与运算
计算Xj方差 n·2p个值参与运算 n个值参与运算 2n个值参与运算
Xj标准化 n·2p个值参与运算 n个值参与运算 2n个值参与运算
计算协方差矩阵 Cp2×(n·2p)次乘法 Cp2×n次乘法 Cp2×(2n)次乘法
计算每个样本的第h区间主成分 p·2p次乘法 2p次乘法 (2p+1)次乘法


表选项






综上所述,C-PCA和C-lnR PCA 2种方法在空间复杂度和时间复杂度上都要优于V-PCA方法。
4.2 区间数据主成分分析的有效性指标 为能够定量地衡量不同区间数据主成分分析方法的有效性,本文参考文献[18]给出一种区间数据PCA的效度指标。对原始区间数据表Xn×p进行某种区间数据主成分分析方法,假设最终选取前m(mp)个主成分,可以得到由对应前m(mp)个最大特征值的特征向量所构成的p×m维正交矩阵Up×m,由Y=XU可得n×m维区间矩阵Yn×m,再根据数据重构的思想由X*=YU计算出Xn×p的拟合区间数据表Xn×p*。由于主成分分析旨在保留原始变量尽可能多的信息,因此拟合区间数据表Xn×p*与原始数据表Xn×p越接近,则区间数据主成分分析的方法越为有效。
定义1??区间数据表Xn×p经过某种区间数据主成分分析方法后得到拟合区间数据表Xn×p*,则定义此种区间数据主成分分析方法的有效性指标为
(39)

式中:0表示每个单元均为ηe=(ηec, ηelnr)=(0, 0)的n×p维区间数据表。由dc-lnr距离的非负性和三角不等式易知有效性指标r满足0≤r≤1。当r越接近1,则Xn×pXn×p*越近似,即区间主成分分析方法越有效;反之,当r越接近0,则区间主成分分析方法有效性越低。
4.3 不同区间PCA方法有效性比较的仿真实验 首先要构造样本区间数据表Xn×p,其中每个元素xij=(xijc, xijlnr)通过产生随机数的方法分别得到服从均匀分布的中心和对数-半长,从而可得对应的区间上下界。其次分别用C-lnR PCA、C-PCA和V-PCA 3种方法对Xn×p进行区间数据主成分分析得到对应的拟合区间数据表Xn×p*,继而由式(39)可计算出每种方法的有效性指标。
为更加全面分析区间数据主成分分析方法的有效性,对每种区间数据主成分分析方法,分别取样本个数为n=6, 12, 24, 48,变量个数为p=4, 8, 12。这里对第j(j=1, 2, …, p)个区间变量Xj,假设其中心和对数半长分别在区间[c, d]和[f, g]上服从均匀分布。在每次实验中,首先对区间变量Xj的中心和对数半长分别随机选择n个单值数据样本,从而构成样本规模为n,变量个数为p的区间数据表;然后用3种方法对区间数据表进行主成分分析,采用Kaiser-Guttman准则决定最终保留的主成分个数,即选取那些特征值大于1的主成分,而舍弃那些比原变量所包含信息更少(特征值小于1)的主成分。
对样本个数和变量个数的每种组合方式分别进行200次重复实验,并计算出200次重复实验的有效性指标的平均值,得到如表 2所示的结果。
表 2 C-lnR PCA、C-PCA和V-PCA有效性指标的平均值 Table 2 Average values of validity index of C-lnR PCA, C-PCA and V-PCA
方法 p=4
n=6 n=12 n=24 n=48
C-lnR PCA 0.717 7 0.664 1 0.657 9 0.627 8
C-PCA 0.668 1 0.644 2 0.638 0 0.623 1
V-PCA 0.626 7 0.623 3 0.616 5 0.603 9
方法 p=8
n=6 n=12 n=24 n=48
C-lnR PCA 0.749 6 0.698 5 0.665 8 0.640 5
C-PCA 0.665 1 0.641 4 0.633 2 0.620 6
V-PCA 0.653 4 0.632 2 0.622 8 0.620 0
方法 p=12
n=6 n=12 n=24 n=48
C-lnR PCA 0.792 9 0.723 0 0.681 9 0.651 8
C-PCA 0.667 6 0.655 4 0.636 6 0.619 9
V-PCA 0.661 3 0.641 8 0.627 0 0.612 5


表选项






表 2中可以得出以下结论:
1) 当区间变量个数不变时,随着样本数目的增加,C-lnR PCA、C-PCA和V-PCA这3种区间数据主成分分析方法的有效性均有所降低。这是由于随着样本量增大,数据集的多样性增加,往往需要提取更多的主成分才能较好地涵盖所有样本的特征,根据Kaiser-Guttman准则,包含信息较少的主成分被舍弃,从而使得数据集中部分信息有所损失,导致3种方法的有效性随着样本量的增加有所下降。
2) 当样本较少时,C-lnR PCA相比于C-PCA和V-PCA的有效性优势较为明显,随着样本量的增加,3种方法的差异逐渐缩小。C-lnR PCA通过中心和对数半长2个特征来构造协方差矩阵,更能充分刻画区间数据表包含的信息,尤其是在样本量较小时有着更好的表现。随着样本量的增大,3种方法提取主成分后损失的信息都随之增加,C-lnR PCA方法仍然优于C-PCA和V-PCA,但优势不再明显。
3) 当区间样本数量不变时,随着区间变量个数的增加,C-lnR PCA、C-PCA和V-PCA这3种方法的有效性指标整体上均呈现上升趋势。
4) 在任何一种样本数量与变量个数组合的情形下,C-lnR PCA的有效性指标都要高于C-PCA和V-PCA方法,即采用C-lnR PCA对区间数据表进行主成分分析的有效性更高。
5 结论 基于中心-对数半长的表达形式,本文将区间数据表征为由中心和对数半长组成的二维数组,建立了区间数据和区间向量的运算法则,并在此框架下提出了一种新的区间数据主成分分析方法,具有以下优点:
1) 对区间半长取对数的处理可以避免出现最终得到的区间主成分半长为负数的不合理情形。
2) 尽可能地保持降维前后点点之间位置关系的一致性。
3) 所需存储空间小,空间复杂度较低;计算过程简单,时间复杂度较低。
4) 与经典的V-PCA和C-PCA相比,对区间数据表进行主成分分析的有效性更好。
5) 原始高维空间被投影至低维空间,多种经典的统计分析方法可以被运用从而进一步提取有效信息,同时能够在低维空间中描绘原始高维空间中的样本点,使得多变量区间数据的可视化成为可能。

参考文献
[1] WOLD S, ESBENSEN K, GELADI, P. Principal component analysis[J]. Chemometrics and Intelligent Laboratory Systems, 1987, 2(1-3): 37-52. DOI:10.1016/0169-7439(87)80084-9
[2] 任若恩, 王惠文. 多元统计数据分析: 理论、方法、实例[M]. 北京: 国防工业出版社, 1997: 92-95.
REN R E, WANG H W. Multivariate statistical data analysis: Theory, method and examples[M]. Beijing: National Defense Industry Press, 1997: 92-95. (in Chinese)
[3] SPETSIERIS P G, MA Y, DHAWAN V, et al. Differential diagnosis of parkinsonian syndromes using PCA-based functional imaging features[J]. NeuroImage, 2009, 45(4): 1241-1252. DOI:10.1016/j.neuroimage.2008.12.063
[4] 胡艳, 王惠文. 一种海量数据的分析技术——符号数据分析及应用[J]. 北京航空航天大学学报, 2002, 17(2): 40-44.
HU Y, WANG H W. A new data mining method based on huge data and its application[J]. Journal of Beijing University of Aeronautics and Astronautics, 2002, 17(2): 40-44. (in Chinese)
[5] DIDAY E. Thinking by classes in data science: The symbolic data analysis paradigm: Symbolic data analysis[J]. Wiley Interdiplinary Reviews: Computational Statistics, 2016, 8(5): 172-205. DOI:10.1002/wics.1384
[6] 张寅, 王岩, 王惠文. 重点学术期刊专项基金管理中的期刊评价——基于简化的区间数据主成分分析方法[J]. 管理科学学报, 2010, 13(7): 92-98.
ZHANG Y, WANG Y, WANG H W. Evaluating of academic journals in management of key academic journal fund: An application of simplified principal component analysis based on interval data[J]. Journal of Management Sciences in China, 2010, 13(7): 92-98. (in Chinese)
[7] CAZES P, CHOUAKRIA A, DIDAY E, et al. Extension de l'analyse en composantes principales à des donnés de type intervalle[J]. Revue de Statistique Apliquée, 1997(3): 5-24.
[8] DIDAY E, BOCK H H. Analysis of symbolic data: Exploratory methods for extracting statistical information from complex data[J]. Journal of Classification, 2000, 18(2): 291-294.
[9] 王惠文, 李岩, 关蓉. 两种区间数据主成分分析方法的比较研究[J]. 北京航空航天大学学报, 2010, 24(4): 86-89.
WANG H W, LI Y, GUAN R. A comparison study of two methods for principal component analysis of interval data[J]. Journal of Beijing University of Aeronautics and Astronautics, 2010, 24(4): 86-89. (in Chinese)
[10] CHOUAKRIA A, DIDAY E, CAZES P. Vertices principal components analysis with an improved factorial representation[C]//Proceedings of the 6th Conference of the International Federation of Classification Societies (IFCS-98). Berlin: Springer, 1998: 397-402.
[11] LAURO C N, PALUMBO F. Principal components analysis of interval data: A symbolic data analysis approach[J]. Computational Statistics, 2000, 15(1): 73-87. DOI:10.1007/s001800050038
[12] 郭均鹏, 李汶华. 基于经验相关矩阵的区间主成分分析[J]. 管理科学学报, 2008, 11(3): 49-52.
GUO J P, LI W H. Interval PCA based on empirical correlation matrix[J]. Journal of Management Sciences in China, 2008, 11(3): 49-52. DOI:10.3321/j.issn:1007-9807.2008.03.005 (in Chinese)
[13] PALUMBO F, LAURO C N. A PCA for interval-valued data based on midpoints and radii[C]//Proceedings of the International Meeting of the Psychometric Society IMPS2001. Berlin: Springer, 2003: 641-648.
[14] 郭均鹏, 李汶华. 基于误差理论的区间主成分分析及其应用[J]. 数理统计与管理, 2007, 26(4): 636-640.
GUO J P, LI W H. Principle component analysis based on error theory and its application[J]. Application of Statistics and Management, 2007, 26(4): 636-640. DOI:10.3969/j.issn.1002-1566.2007.04.012 (in Chinese)
[15] WANG H H, GUAN R, WU J J. CIPCA: Complete-information-based principal component analysis for interval-valued data[J]. Neurocomputing, 2012, 86(5): 158-169.
[16] 侯自盼, 李生刚. 一种针对区间型数据的新主成分分析法[J]. 纺织高校基础科学学报, 2016, 29(2): 184-189.
HOU Z P, LI S G. A new principal component analysis method for interval data[J]. Basic Sciences Journal of Textile Universities, 2016, 29(2): 184-189. (in Chinese)
[17] 刘清贤. 区间型符号数据主成分分析及有效性研究[D]. 西安: 西安科技大学, 2019: 19-24.
LIU Q X. Principal component analysis of interval symbol data and validity study[D]. Xi'an: Xi'an University of Science and Technology, 2019: 19-24(in Chinese).
[18] 郭均鹏, 李汶华. 一种区间PCA的效度分析方法[J]. 系统工程学报, 2009, 24(2): 226-230.
GUO J P, LI W H. Analysis of validity of the PCA for interval data[J]. Journal of Systems Engineering, 2009, 24(2): 226-230. (in Chinese)


相关话题/数据 信息 计算 区间 指标

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于区间电流的SRM功率变换器短路故障诊断*
    开关磁阻电机(SwitchedReluctanceMotor,SRM)是一种新型电机,其结构简单、坚固,系统运行效率高[1-2],且天然具有一定容错能力[3-4]。以SRM为核心的开关磁阻电机调速系统在电/混动汽车、航空航天及家电领域都具有较好的经济指标和运行特征,表现出巨大的优势和潜力,是电气传动 ...
    本站小编 Free考研考试 2021-12-25
  • 连续变迎角试验数据自适应分段拟合滤波方法*
    在常规高超声速风洞测力试验[1-3]中,常采用阶梯变迎角试验方式,即利用模型机构阶梯地改变试验模型的迎角,天平测量每个迎角台阶上试验模型的气动力,取一段时间进行平均,获取该模型在对应迎角的气动载荷。利用模型机构实现阶梯变迎角过程中产生较快的启动、停止,试验模型因而产生较大的振动,需要在每个迎角台阶停 ...
    本站小编 Free考研考试 2021-12-25
  • 基于信息素决策的无人机集群协同搜索算法*
    随着无人机(UAV)技术的蓬勃发展,无人机在侦察探测、搜索救援等方面大量运用。由于无人机集群在机载功能和抗未知因素能力等方面具有优势[1-2],在执行对地目标搜索任务时效率更高、抗毁性更强。针对搜索问题,国内外****进行了深入而广泛的研究。从搜索模型来看,最早开始研究的模型是穷举覆盖航路规划模型, ...
    本站小编 Free考研考试 2021-12-25
  • 融合语义信息的视频摘要生成*
    随着视频拍摄、存储技术和网络传输的飞速发展,互联网上的视频数据呈爆炸性增长[1]。但由于生活节奏越来越快,观众在没有确定视频是否符合他们的期望前,不会轻易花太多时间观看完整视频,观众更期望可以通过视频预告等形式对视频内容产生大致的了解。视频摘要任务从原始视频中提取具有代表性和多样性的简短摘要,使观看 ...
    本站小编 Free考研考试 2021-12-25
  • 基于信息素启发狼群算法的UAV集群火力分配*
    随着无人机(UnmannedAerialVehicle,UAV)技术和人工智能的快速发展,利用大量具有自主作战能力且成本低廉的UAV组成UAV集群突破对手防御体系,对目标实施饱和打击以及对入侵机群进行空中拦截是UAV集群作战的重要手段[1-2]。美军已经开展了多项关于UAV集群研究及试验验证,并将U ...
    本站小编 Free考研考试 2021-12-25
  • 基于趋势符号聚合近似的卫星时序数据分类方法*
    时间序列是按照时间排序的一组随机变量,其通常是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果[1]。在卫星的测控管理过程中,会产生大量的遥测数据,它们以时间序列的形式存储在数据库中。而运行状态监测系统传感器产生的监测数据通过遥测系统传输至地面控制中心,此类数据是地面判断在轨卫星运行 ...
    本站小编 Free考研考试 2021-12-25
  • 飞行器栖落机动的轨迹跟踪控制及吸引域优化计算*
    在自然界中,大型鸟类通过拉大飞行迎角来实现快速、准确的降落,将这种降落方式称为栖落机动。如果固定翼飞行器可以模仿大型鸟类进行栖落机动,即拉大飞行迎角、快速降低飞行速度并最终栖落在目标区域,那么将极大地扩展其应用场合[1-3]。栖落机动不但能保留固定翼飞行器在续航时间、飞行范围和速度等方面的优势,还能 ...
    本站小编 Free考研考试 2021-12-25
  • 评估法兰结构螺栓松动的改进损伤指标研究*
    法兰连接是一种用于管端之间、管端与阀门等部件之间的连接方式,通常采用螺栓对其进行紧固。法兰连接结构广泛应用于航空航天、机械、土木等领域,保证其可靠性至关重要。而基于压电阻抗法的检测技术是一种能够在线监测结构健康状态的技术,因此应用该技术检测法兰连接结构的螺栓松动是可行的[1]。基于压电阻抗法,国内外 ...
    本站小编 Free考研考试 2021-12-25
  • 多表冗余惯导数据融合算法及在自对准中的应用*
    激光陀螺捷联惯导系统(LaserStrapdownInertialNavigationSystem,LSINS)具有动态范围广、耐冲击振动、可靠性高等优点,远征一号、嫦娥探测器等空间飞行器及多数现役火箭均采用LSINS提供姿态、位置等导航信息。多表冗余惯导系统通过仪表冗余设计,显著提高系统的可靠性, ...
    本站小编 Free考研考试 2021-12-25
  • 空地量子密钥分发网络中数据协调方案*
    量子密钥分发(QuantumKeyDistribution,QKD)技术是量子通信中发展比较成熟的一个分支,目前研究人员已经在一些地区设计实验了一些节点数量有限的小型化QKD网络,其中基于量子卫星的QKD网络可以极大地增加通信距离。虽然量子卫星克服了远距离光子损耗的问题,但是通信的实时全方位覆盖和多 ...
    本站小编 Free考研考试 2021-12-25