不同于传统的单值数据,区间数据通过"数据打包"的思想将原数据集合处理为若干个高维超矩形[5],区间数据表中的每个单元是一个区间而不是一个数值。区间数据的应用,一方面可以有效地降低样本容量,同时能够有效解决数据中的可变性和不确定性,反映样本群点的集中趋势和离散程度等整体特征[6]。近年来,一系列区间数据主成分分析方法被提出,例如,顶点主成分分析法(Vertices Principal Component Analysis,V-PCA)和中心主成分分析法(Centers Principal Component Analysis,C-PCA)是最经典的2种区间数据主成分分析方法。
具体地,对包含n个样本点、p个变量的n×p维区间数据表Xn×p,V-PCA把每个区间样本点视为具有2p个顶点的超矩形[7-8],将Xn×p展开成(n·2p)×p维的普通数值型数据表,然后对其进行传统的主成分分析并投影到低维空间中,最后重新组合还原为区间数据。但V-PCA的计算过程随着变量维数p的增大而更加复杂,导致出现"维数灾难"。Cazes等[7]给出一种简化算法,直接计算V-PCA展开后矩阵的相关系数矩阵,可以消除大量的冗余计算。王惠文等[9]比较了V-PCA和简化的V-PCA的计算过程和结果,验证了二者计算结果的等价性以及V-PCA简化方法的高效性。而C-PCA用每个区间的中点代替原始区间[10-11],计算过程与V-PCA类似,对用中点表示的n×p维普通数值型数据表进行传统的主成分分析,相比V-PCA方法,C-PCA的计算量得到有效降低,但同时丢失了更多的数据信息。
此外,郭均鹏和李汶华[12]研究了服从均匀分布的区间数据的经验描述统计量,基于经验相关矩阵对区间数据进行主成分分析,结果与V-PCA和C-PCA类似,但降低了计算复杂度。Palumbo和Lauro[13]提出了中心半长法,将区间样本矩阵分为中心矩阵和半长矩阵,分别进行主成分分析,然后加以综合得到最终的区间主成分,但该方法假设2个矩阵主成分相同,存在一定的理论缺陷。
为解决上述研究方法存在的一些问题,郭均鹏和李汶华[14]提出了基于误差传递公式的区间主成分分析方法,首先得到测量值的主成分,通过误差传递公式得到极限误差,然后组合二者得到最终的区间主成分。Wang等[15]提出了基于全信息的区间数据主成分分析方法,基于区间数据的基本代数算子和运算规则,在计算过程中保留区间样本内部的全部信息,得到能够准确反映区间内部结构特征的主轴。侯自盼和李生刚[16]依据区间矩阵的运算方法得到区间数据样本的协方差矩阵和样本相关矩阵,计算所得对应的特征值和特征向量的分量均为区间数,并且重新定义贡献率,由此给出一种新的区间数据主成分分析方法。刘清贤[17]在服从正态分布区间数的研究基础上,提出了2种改进的算法。
不同于上述方法,本文考虑对区间的半长值取对数,基于中心和对数半长的表达,提出一种新的区间数据主成分分析方法,实现多变量区间数据的降维与可视化。与已有方法相比,本文方法计算复杂度较低,且保证了降维前后样本集合中点点之间相对位置的改变尽可能小。仿真实验也验证了该区间数据主成分分析方法的有效性。
1 基本概念与理论 1.1 区间数据的基本概念 区间数据的取值可表示为一个集合:
(1) |
式中:
在中心半长法[13]中,区间数据表达为一个由区间中心和半长构成的数组:
(2) |
式中:
带约束的表达形式极大地限制了多种经典的统计分析方法在区间数据领域的应用。为解决上述问题,考虑对区间的半长进行取自然对数的处理(以下简称为"对数半长"),将区间数据重新表达为由中心和对数半长组成的二维数组:
(3) |
式中:
易知,上述区间数据的3种表达形式是互相对应的,且能唯一确定一个区间。若无特殊说明,下文关于区间数据的论述均采用式(3)基于中心-对数半长的表达形式。
若n维向量X=[x1, x2, …, xn]′的每个分量均为区间数据,即xi=(xic, xilnr)(1≤i≤n),则称X为区间向量。类似的,若n×p维矩阵Xn×p的每个元素均为区间数据xij=(xijc, xijlnr),则称Xn×p为区间矩阵,记为
(4) |
式中:每一行e′i为一个区间样本,由p个变量刻画;每一列Xj表示一个区间变量,包含n个独立样本观测;第i行第j列元素xij=(xijc, xijlnr)表示样本点e′i对应区间变量Xj的区间观测值。
本文关于区间数据主成分分析的对象正是形如式(4)包含n个独立样本并由p个区间变量描述的区间数据表。
1.2 区间数据的代数运算 基于中心-对数半长的表达形式,对于任意2个区间数据a=(ac, alnr)和b=(bc, blnr),及任意实数λ∈R,定义区间数据加法⊕和数乘⊙的运算法则遵循二维向量的对应运算,即
(5) |
(6) |
可以看到,2个区间数据相加即2个区间的中心和对数半长分别相加,实数与区间数据的数乘即中心和对数半长分别与实数相乘,加法和数乘运算的结果仍为区间数据。进而可推导减法运算?为
(7) |
类似地,根据欧式空间二维向量内积运算规则,给出区间数据内积〈·, ·〉c-lnr的定义如下:
(8) |
易证上述内积的定义满足正定性、对称性和线性。进一步,可以得到由内积(8)导出的区间数据的范数||·||c-lnr和距离dc-lnr(·, ·)定义为
(9) |
(10) |
易证式(9)给出的范数定义满足正定性、齐次性和三角不等式。式(10)在考虑2个区间数据的距离时,同时考虑了区间中心(即位置信息)和对数半长(即长度信息)2个维度的差异,并且满足正定性、对称性和三角不等式。
尽管已有文献提出了一些基于Moore算术的区间数据代数运算,却很少提及区间数据代数体系的零元素。基于中心-对数半长的表达和式(5)~式(10)的运算法则,可定义此框架下区间数据的零元素为ηe=(ηec, ηelnr)=(0, 0),还原为区间上下界的表达形式为[-1, 1],满足对任意区间数据a=(ac, alnr)有:
(11) |
1.3 区间向量的代数运算 进而可将上述运算法则推广至区间向量空间。对区间向量A=[a1, a2, …, an]′和B=[b1, b2, …, bn]′,其中对?i=1, 2, …, n,ai=(aic, ailnr), bi=(bic, bilnr)均为区间数据。则区间向量之间的加法⊕、数乘⊙、内积〈·, ·〉c-lnr、范数||·||c-lnr和距离dc-lnr(·, ·)运算可分别定义为
(12) |
(13) |
(14) |
(15) |
(16) |
根据式(16)所示区间向量的距离运算,可定义2个n×p维区间矩阵Xn×p和Yn×p的距离为
(17) |
式中:ei=[xi1, xi2, …, xip]′和ξi=[yi1, yi2, …, yip]′分别为区间矩阵Xn×p和Yn×p的第i行区间向量转置。
此外,定义n×p维区间矩阵Xn×p=(xij)n×p与p×m维实数矩阵Up×m=(ujk)p×m(ujk∈R)相乘仍为一个区间矩阵,记为Wn×m=(wik)n×m=X ⊙ U,Wn×m的第i行第k列元素为
(18) |
式中:xij为区间矩阵X的第i行第j列元素,为一个区间;ujk为实数矩阵U的第j行第k列元素,为一个实数。
2 区间数据主成分分析的理论推导 2.1 经典的主成分分析 首先简单回顾经典的主成分分析。对于给定的p个变量X1, X2, …, Xp,记其协方差矩阵为S,则第h(1≤h≤p)个主成分是p个变量的线性组合,即
2.2 区间变量的数字特征 在式(4)所示的n×p维区间数据表Xn×p中,每一行e′i为一个由p个区间变量刻画的区间样本,每一列表示所有n个样本在第j个区间变量Xj上的观测值,由此可得到区间变量Xj的一些统计特征。
区间变量Xj的样本均值为
(19) |
记
区间变量Xj的样本方差为
(20) |
记
区间变量Xj和Xk的样本协方差为
(21) |
区间变量Xj和Xk的样本相关系数为
(22) |
从而可以得到区间数据表Xn×p的样本协方差矩阵V和样本相关系数矩阵R,分别表示为
(23) |
2.3 区间数据主成分分析理论推导 考虑对形如式(4)的n×p维区间数据表Xn×p进行区间主成分分析,为便于推导,这里假设区间变量X1, X2, …, Xp的样本均值均为零元素。类似于经典的主成分分析,第h(1≤h≤p)个区间主成Yh是p个区间变量的线性组合,即
(24) |
式中:uh=[u1h, u2h, …, uph]′∈Rp,并满足约束条件u1, u2, …, up标准正交。此外,对?j=1, 2, …, p,有E(Xj)=(0, 0), 则E(Yh)=(0, 0),结合式(20)~式(23)可得Yh的方差为
(25) |
区间数据主成分分析同样要求前m(m≤p)个区间主成分携带尽可能多的信息,即前m个区间主成分方差之和要达到最大,从而根据式(25)可以转化为一个二次型的极值问题:
(26) |
与经典主成分分析类似,由二次型极大值定理可得,极值问题(26)的最优解是Xn×p的样本协方差矩阵V的前m个最大特征值λ1≥λ2≥…≥λm对应的特征向量u1, u2, …, um,且最优值是
上述基于中心-对数半长的区间数据代数运算框架下的主成分分析方法,以下简称为C-lnR PCA方法。通过C-lnR PCA方法,原始的p维区间数据表投影到m(m≤p)维空间,从而能够在低维空间上运用多种经典的统计分析方法,进一步提取更多有效信息,同时能够在低维空间(如二维平面)上描绘和分析原始高维空间中的样本点,使得多变量区间数据表的可视化成为可能。
3 区间数据C-lnR PCA的建模过程 3.1 区间变量的相关处理方法 1) 区间变量Xj的中心化处理
将xij=(xijc, xijlnr)变换为
(27) |
中心化处理对所有观测值进行平移处理,不会改变样本之间的相对位置关系和变量之间的相关关系。记
(28) |
(29) |
记
(30) |
2) 区间变量Xj的标准化处理
将xij=(xijc, xijlnr)变换为
(31) |
标准化处理使区间变量方差变为1,可以更真实地体现样本的离散程度。设
(32) |
(33) |
记
(34) |
3.2 C-lnR PCA方法建模步骤 综上,对式(4)所示区间数据表Xn×p进行C-lnR PCA方法的建模步骤如下:
步骤1??对区间数据表Xn×p进行中心化或标准化处理。标准化处理目的是使样本点集合的中心与坐标原点重合,并消除由量纲不同引起的虚假变异信息,得到更加合理的分析结果。为方便起见,仍记中心化或标准化处理后的数据表为Xn×p。
步骤2??计算区间数据表Xn×p的协方差矩阵V。
步骤3??通过特征分解求解协方差矩阵V的特征值λ1≥λ2≥…≥λp,以及特征值对应的特征向量u1, u2, …, up(要求是标准正交的)。
步骤4??根据确定主成分个数的一些准则,如Kaiser-Guttman准则或需要的累积贡献率来选取最终保留的主成分的个数m(m≤p)。
步骤5??对应的u1, u2, …, um称为主轴,可计算样本点ei=[xi1, xi2, …, xip]′在主轴uh=[u1h, u2h, …, uph]′上的投影Fih(h=1, 2, …, m)为
(35) |
记
(36) |
定理1??对区间数据表Xn×p实施C-lnR PCA,用
(37) |
式中:Trace表示迹函数,即矩阵对角线上的所有元素之和。
对一个确定的区间数据表而言,样本协方差矩阵V是确定的,因此Trace(V)也是确定的,由最优化问题(26)和式(37)可得
(38) |
上述定理表明,C-lnR PCA方法将原p维空间降维到一个m维空间后,样本集中点点之间相对位置的改变是尽可能小的,即尽可能地保持降维前后点点之间位置关系的一致性。
4 区间PCA方法有效性比较 4.1 不同区间PCA方法复杂度比较 考虑对区间数据表Xn×p进行区间主成分分析,将经典的V-PCA、C-PCA与本文提出的C-lnR PCA方法进行比较。
关于空间复杂度,经典的V-PCA方法需要首先将Xn×p完全展开为(n·2p)×p维普通数值型数据表,C-PCA方法的处理对象则是n×p维数值型中心矩阵,而本文提出的C-lnR PCA方法等价于处理2n×p维的中心-对数半长数值型矩阵。显然C-PCA方法和C-lnR PCA方法所需要的存储空间远小于V-PCA方法。
关于时间复杂度,3种区间数据主成分分析方法的比较结果如表 1所示,V-PCA方法的计算量要远大于C-PCA方法和C-lnR PCA方法,后2种方法计算过程较为简单,因此时间复杂度显著较低。
表 1 V-PCA、C-PCA和C-lnR PCA时间复杂度的比较 Table 1 Comparison of time complexity among V-PCA, C-PCA and C-lnR PCA methods
计算步骤 | 复杂度 | ||
V-PCA | C-PCA | C-lnR PCA | |
计算Xj均值 | n·2p个值参与运算 | n个值参与运算 | 2n个值参与运算 |
计算Xj方差 | n·2p个值参与运算 | n个值参与运算 | 2n个值参与运算 |
对Xj标准化 | n·2p个值参与运算 | n个值参与运算 | 2n个值参与运算 |
计算协方差矩阵 | Cp2×(n·2p)次乘法 | Cp2×n次乘法 | Cp2×(2n)次乘法 |
计算每个样本的第h区间主成分 | p·2p次乘法 | 2p次乘法 | (2p+1)次乘法 |
表选项
综上所述,C-PCA和C-lnR PCA 2种方法在空间复杂度和时间复杂度上都要优于V-PCA方法。
4.2 区间数据主成分分析的有效性指标 为能够定量地衡量不同区间数据主成分分析方法的有效性,本文参考文献[18]给出一种区间数据PCA的效度指标。对原始区间数据表Xn×p进行某种区间数据主成分分析方法,假设最终选取前m(m≤p)个主成分,可以得到由对应前m(m≤p)个最大特征值的特征向量所构成的p×m维正交矩阵Up×m,由Y=X ⊙ U可得n×m维区间矩阵Yn×m,再根据数据重构的思想由X*=Y ⊙ U′计算出Xn×p的拟合区间数据表Xn×p*。由于主成分分析旨在保留原始变量尽可能多的信息,因此拟合区间数据表Xn×p*与原始数据表Xn×p越接近,则区间数据主成分分析的方法越为有效。
定义1??区间数据表Xn×p经过某种区间数据主成分分析方法后得到拟合区间数据表Xn×p*,则定义此种区间数据主成分分析方法的有效性指标为
(39) |
式中:0表示每个单元均为ηe=(ηec, ηelnr)=(0, 0)的n×p维区间数据表。由dc-lnr距离的非负性和三角不等式易知有效性指标r满足0≤r≤1。当r越接近1,则Xn×p与Xn×p*越近似,即区间主成分分析方法越有效;反之,当r越接近0,则区间主成分分析方法有效性越低。
4.3 不同区间PCA方法有效性比较的仿真实验 首先要构造样本区间数据表Xn×p,其中每个元素xij=(xijc, xijlnr)通过产生随机数的方法分别得到服从均匀分布的中心和对数-半长,从而可得对应的区间上下界。其次分别用C-lnR PCA、C-PCA和V-PCA 3种方法对Xn×p进行区间数据主成分分析得到对应的拟合区间数据表Xn×p*,继而由式(39)可计算出每种方法的有效性指标。
为更加全面分析区间数据主成分分析方法的有效性,对每种区间数据主成分分析方法,分别取样本个数为n=6, 12, 24, 48,变量个数为p=4, 8, 12。这里对第j(j=1, 2, …, p)个区间变量Xj,假设其中心和对数半长分别在区间[c, d]和[f, g]上服从均匀分布。在每次实验中,首先对区间变量Xj的中心和对数半长分别随机选择n个单值数据样本,从而构成样本规模为n,变量个数为p的区间数据表;然后用3种方法对区间数据表进行主成分分析,采用Kaiser-Guttman准则决定最终保留的主成分个数,即选取那些特征值大于1的主成分,而舍弃那些比原变量所包含信息更少(特征值小于1)的主成分。
对样本个数和变量个数的每种组合方式分别进行200次重复实验,并计算出200次重复实验的有效性指标的平均值,得到如表 2所示的结果。
表 2 C-lnR PCA、C-PCA和V-PCA有效性指标的平均值 Table 2 Average values of validity index of C-lnR PCA, C-PCA and V-PCA
方法 | p=4 | |||
n=6 | n=12 | n=24 | n=48 | |
C-lnR PCA | 0.717 7 | 0.664 1 | 0.657 9 | 0.627 8 |
C-PCA | 0.668 1 | 0.644 2 | 0.638 0 | 0.623 1 |
V-PCA | 0.626 7 | 0.623 3 | 0.616 5 | 0.603 9 |
方法 | p=8 | |||
n=6 | n=12 | n=24 | n=48 | |
C-lnR PCA | 0.749 6 | 0.698 5 | 0.665 8 | 0.640 5 |
C-PCA | 0.665 1 | 0.641 4 | 0.633 2 | 0.620 6 |
V-PCA | 0.653 4 | 0.632 2 | 0.622 8 | 0.620 0 |
方法 | p=12 | |||
n=6 | n=12 | n=24 | n=48 | |
C-lnR PCA | 0.792 9 | 0.723 0 | 0.681 9 | 0.651 8 |
C-PCA | 0.667 6 | 0.655 4 | 0.636 6 | 0.619 9 |
V-PCA | 0.661 3 | 0.641 8 | 0.627 0 | 0.612 5 |
表选项
从表 2中可以得出以下结论:
1) 当区间变量个数不变时,随着样本数目的增加,C-lnR PCA、C-PCA和V-PCA这3种区间数据主成分分析方法的有效性均有所降低。这是由于随着样本量增大,数据集的多样性增加,往往需要提取更多的主成分才能较好地涵盖所有样本的特征,根据Kaiser-Guttman准则,包含信息较少的主成分被舍弃,从而使得数据集中部分信息有所损失,导致3种方法的有效性随着样本量的增加有所下降。
2) 当样本较少时,C-lnR PCA相比于C-PCA和V-PCA的有效性优势较为明显,随着样本量的增加,3种方法的差异逐渐缩小。C-lnR PCA通过中心和对数半长2个特征来构造协方差矩阵,更能充分刻画区间数据表包含的信息,尤其是在样本量较小时有着更好的表现。随着样本量的增大,3种方法提取主成分后损失的信息都随之增加,C-lnR PCA方法仍然优于C-PCA和V-PCA,但优势不再明显。
3) 当区间样本数量不变时,随着区间变量个数的增加,C-lnR PCA、C-PCA和V-PCA这3种方法的有效性指标整体上均呈现上升趋势。
4) 在任何一种样本数量与变量个数组合的情形下,C-lnR PCA的有效性指标都要高于C-PCA和V-PCA方法,即采用C-lnR PCA对区间数据表进行主成分分析的有效性更高。
5 结论 基于中心-对数半长的表达形式,本文将区间数据表征为由中心和对数半长组成的二维数组,建立了区间数据和区间向量的运算法则,并在此框架下提出了一种新的区间数据主成分分析方法,具有以下优点:
1) 对区间半长取对数的处理可以避免出现最终得到的区间主成分半长为负数的不合理情形。
2) 尽可能地保持降维前后点点之间位置关系的一致性。
3) 所需存储空间小,空间复杂度较低;计算过程简单,时间复杂度较低。
4) 与经典的V-PCA和C-PCA相比,对区间数据表进行主成分分析的有效性更好。
5) 原始高维空间被投影至低维空间,多种经典的统计分析方法可以被运用从而进一步提取有效信息,同时能够在低维空间中描绘原始高维空间中的样本点,使得多变量区间数据的可视化成为可能。
参考文献
[1] | WOLD S, ESBENSEN K, GELADI, P. Principal component analysis[J]. Chemometrics and Intelligent Laboratory Systems, 1987, 2(1-3): 37-52. DOI:10.1016/0169-7439(87)80084-9 |
[2] | 任若恩, 王惠文. 多元统计数据分析: 理论、方法、实例[M]. 北京: 国防工业出版社, 1997: 92-95. REN R E, WANG H W. Multivariate statistical data analysis: Theory, method and examples[M]. Beijing: National Defense Industry Press, 1997: 92-95. (in Chinese) |
[3] | SPETSIERIS P G, MA Y, DHAWAN V, et al. Differential diagnosis of parkinsonian syndromes using PCA-based functional imaging features[J]. NeuroImage, 2009, 45(4): 1241-1252. DOI:10.1016/j.neuroimage.2008.12.063 |
[4] | 胡艳, 王惠文. 一种海量数据的分析技术——符号数据分析及应用[J]. 北京航空航天大学学报, 2002, 17(2): 40-44. HU Y, WANG H W. A new data mining method based on huge data and its application[J]. Journal of Beijing University of Aeronautics and Astronautics, 2002, 17(2): 40-44. (in Chinese) |
[5] | DIDAY E. Thinking by classes in data science: The symbolic data analysis paradigm: Symbolic data analysis[J]. Wiley Interdiplinary Reviews: Computational Statistics, 2016, 8(5): 172-205. DOI:10.1002/wics.1384 |
[6] | 张寅, 王岩, 王惠文. 重点学术期刊专项基金管理中的期刊评价——基于简化的区间数据主成分分析方法[J]. 管理科学学报, 2010, 13(7): 92-98. ZHANG Y, WANG Y, WANG H W. Evaluating of academic journals in management of key academic journal fund: An application of simplified principal component analysis based on interval data[J]. Journal of Management Sciences in China, 2010, 13(7): 92-98. (in Chinese) |
[7] | CAZES P, CHOUAKRIA A, DIDAY E, et al. Extension de l'analyse en composantes principales à des donnés de type intervalle[J]. Revue de Statistique Apliquée, 1997(3): 5-24. |
[8] | DIDAY E, BOCK H H. Analysis of symbolic data: Exploratory methods for extracting statistical information from complex data[J]. Journal of Classification, 2000, 18(2): 291-294. |
[9] | 王惠文, 李岩, 关蓉. 两种区间数据主成分分析方法的比较研究[J]. 北京航空航天大学学报, 2010, 24(4): 86-89. WANG H W, LI Y, GUAN R. A comparison study of two methods for principal component analysis of interval data[J]. Journal of Beijing University of Aeronautics and Astronautics, 2010, 24(4): 86-89. (in Chinese) |
[10] | CHOUAKRIA A, DIDAY E, CAZES P. Vertices principal components analysis with an improved factorial representation[C]//Proceedings of the 6th Conference of the International Federation of Classification Societies (IFCS-98). Berlin: Springer, 1998: 397-402. |
[11] | LAURO C N, PALUMBO F. Principal components analysis of interval data: A symbolic data analysis approach[J]. Computational Statistics, 2000, 15(1): 73-87. DOI:10.1007/s001800050038 |
[12] | 郭均鹏, 李汶华. 基于经验相关矩阵的区间主成分分析[J]. 管理科学学报, 2008, 11(3): 49-52. GUO J P, LI W H. Interval PCA based on empirical correlation matrix[J]. Journal of Management Sciences in China, 2008, 11(3): 49-52. DOI:10.3321/j.issn:1007-9807.2008.03.005 (in Chinese) |
[13] | PALUMBO F, LAURO C N. A PCA for interval-valued data based on midpoints and radii[C]//Proceedings of the International Meeting of the Psychometric Society IMPS2001. Berlin: Springer, 2003: 641-648. |
[14] | 郭均鹏, 李汶华. 基于误差理论的区间主成分分析及其应用[J]. 数理统计与管理, 2007, 26(4): 636-640. GUO J P, LI W H. Principle component analysis based on error theory and its application[J]. Application of Statistics and Management, 2007, 26(4): 636-640. DOI:10.3969/j.issn.1002-1566.2007.04.012 (in Chinese) |
[15] | WANG H H, GUAN R, WU J J. CIPCA: Complete-information-based principal component analysis for interval-valued data[J]. Neurocomputing, 2012, 86(5): 158-169. |
[16] | 侯自盼, 李生刚. 一种针对区间型数据的新主成分分析法[J]. 纺织高校基础科学学报, 2016, 29(2): 184-189. HOU Z P, LI S G. A new principal component analysis method for interval data[J]. Basic Sciences Journal of Textile Universities, 2016, 29(2): 184-189. (in Chinese) |
[17] | 刘清贤. 区间型符号数据主成分分析及有效性研究[D]. 西安: 西安科技大学, 2019: 19-24. LIU Q X. Principal component analysis of interval symbol data and validity study[D]. Xi'an: Xi'an University of Science and Technology, 2019: 19-24(in Chinese). |
[18] | 郭均鹏, 李汶华. 一种区间PCA的效度分析方法[J]. 系统工程学报, 2009, 24(2): 226-230. GUO J P, LI W H. Analysis of validity of the PCA for interval data[J]. Journal of Systems Engineering, 2009, 24(2): 226-230. (in Chinese) |