在识别过程中,航天器电特性检测系统仍然存在很多问题需要解决,这些问题主要有识别率比较低、特征维数较高、测试数据量大、计算较为复杂等。在之前的研究中,如Liu等[5-7]采用基于离线模糊聚类(FCM)和在线支持向量机(SVM)分类的方法对航天器电信号数据进行识别,还采用了加权近似支持向量机(WPSVM)的方法对电特性信号进行分类识别,在识别过程中也采用了主成分分析(PCA)的特征提取方法对数据进行降维,都得到了较好的分类识别结果。但是在电信号识别过程中,所用到的电信号样本集类别少,数据量小,分类精度一般。当实际诊断中输入过多电特性数据时,会极大地提高过拟合度和训练复杂度。对于复杂高维特征系统,数据量过大使得样本分类和训练效率以及识别准确率下降,怎么从高维状态特征中得到敏感特征是电特性信号快速准确识别的瓶颈之一[8-9]。
本文应用PCA与随机森林(Random Forest, RF)相结合的航天器电特性信号的识别诊断方式。PCA方法用来对采样样本进行分析,RF算法再作出分类识别。RF算法在当前的很多数据集上,相对其他算法有着很大的优势,这一算法对于非线性样本数据可以做到更好的分类和学习,并且在处理大样本数据时,有着非常棒的学习能力。PCA方法是一种有效的数据分析和处理方法,主要用于抽取局部特征,有着计算简单、存储容量小等特点,在图形处理、人类自然语言的处理研究中有着广泛的应用[10]。本文方法可以解决航天器电特性数据高维特征选取困难和计算效率低的问题,改善分类器识别效果,实验表明,该方法在航天器电特性信号的识别判断中具有优越的性能。
1 系统流程 本文算法设计流程包括数据采集、特征提取和信号识别3部分。在对数据进行采集以及预处理之后,采用PCA方法分别对训练集和测试集进行特征提取得到特征向量,然后采用RF算法针对训练集建立模型,再通过导入测试集,来对信号进行识别和分类,以此算出分类的准确率。设计流程如图 1所示。
图 1 本文算法设计流程 Fig. 1 Design flowchart of proposed algorithm |
图选项 |
2 算法设计 2.1 PCA方法 PCA方法是统计学中分析数据的一种方法,作用是经过一个特别的向量矩阵,将数据从原来的高维空间投影到一个低维的向量空间中,经过降维后其数据的主要信息并没有损失,从而使数据更易于处理[11-12]。图 2为本文提出的PCA方法流程。
图 2 PCA方法流程 Fig. 2 Flowchart of PCA method |
图选项 |
将航天器电特性数据序列中的每一段电特性表示成向量的形式:
(1) |
式中:Xk=(xk, 1, xk, 2, …, xk, r)(1≤k≤n)为第k个样本,该样本的采样点数为r,总样本个数为n。可以得出其协方差阵为
(2) |
式中:X为均值向量;S为r×r的矩阵。计算S的特征值[λ1, λ2, …, λn](λ1≥λ2≥…≥λn)以及对应的特征向量T=[u1, u2, …, un],航天器电特性数据的正交基即为以上特征向量,若想增大特征向量重构时的贡献,只需增大特征向量对应的特征值即可,通过归一化计算方法得出贡献度的值,量化特征值λk所对应的特征向量的贡献度Pk后得到:
(3) |
所以,可以舍弃那些小特征值的特征向量。为了重建模型,可以使用前d个主分量,在此设定阈值为P,使得前d个分量的贡献度之和比P大,即
(4) |
式中:ui为特征值λi对应的特征向量。
2.2 RF算法 RF算法最初由Breiman和Cutler提出,其是一种统计学习理论的、自然的非线性建模工具,训练多个树状的分类器,组合多棵决策树的预测,最终通过投票得出预测结果。RF算法流程如图 3所示。
图 3 RF算法流程 Fig. 3 Flowchart of RF algorithm |
图选项 |
2.3 决策树的生成 使用RF算法完成整个决策树分类器时,采用自助法重采样技术。单个决策树的生成过程如下:从最初的样本数据中抽取随机样本,使用有放回的抽样方法,反复k(树的数目ntree值为k)次得到一个新的训练数据集,从而得到一颗分类树。
单个自助样本集生长为单棵分类树,单棵分类树的所有训练数据就是自助样本集。假设有N个输入特征,则在树的每个节点处,从N个特征中随机挑选m个特征,遵照节点不纯度最小的原则从这m个特征中选出一个特征进行分支生长,之后构造各个分支通过分别递归调用上述过程,直到使用过所有属性,或训练集能够被这棵树准确地分类[13-14]。
图 4表示了决策树的3个部分,分别为构成的分类、根源和终端节点,起点分类由根节点代表,而将数据分成2个不同部分的是分裂节点,得到数据分类最终结果的是终端节点。图 4中:A为分裂节点;Y为终端节点。
图 4 决策树结构 Fig. 4 Structure of decision tree |
图选项 |
2.4 RF生成步骤 RF是一种分类器,其集成了多个决策树,假如把一个决策树当作分类任务中的一个专家,那么RF就是多个专家共同对某种任务进行分类[15-17]。生成RF的步骤如下:
1) 应用bootstrap方法从原始训练数据集中有放回地随机抽取K个新的自主样本集,并由此构建K棵决策树,每次未抽到的样本组成了K个袋外数据(Out-of-Bag, OOB)。
2) 设有N个特征,则在每一棵树的每个节点处随机抽取mtry个特征(mtry≤N),通过计算每个特征蕴含的信息量,在mtry个特征中选择一个最具有分类能力的特征进行节点分裂。
3) 每棵树最大限度地生长,不做任何裁剪。
4) 将生成的多棵树组成RF,用RF对新的数据进行分类,分类结果按树分类器的投票多少而定。
3 实验结果 3.1 训练数据获取 实验数据来源于航天器用电设备电子负载的典型供电电压电特性数据,在航天器负载测试过程中,通过电特性监测平台对航天器电子负载母线进行监测,记录原始数据,从航天器13种飞行模式产生的数据中选取19个不同信号的数据,并手动添加样本标签,获得22 800个样本,每个样本包含1 000个特性,部分样本数据的物理意义如图 5所示。
图 5 部分电特性数据的物理意义 Fig. 5 Physical meaning of some electrical characteristic data |
图选项 |
3.2 决策树数目的选择 图 6为决策树数目与分类误差率的关系。可以看出,分类误差率随着决策树数目的增加而减小,在达到100棵树之后分类误差趋于稳定(在0.01左右)。然而,模型训练时间会随着决策树数目的增加而增加,因此,考虑到时间复杂度问题,选取100棵决策树组成RF对此电信号样本集进行分类预测,既保证了分类准确率,又缩短了训练和分类所需要的时间。
图 6 决策树数目与分类误差率曲线 Fig. 6 Curves for number of decision trees and classification error rate |
图选项 |
3.3 算法比较 分类准确率和分类时间是评价算法优劣的重要标志。本文实验分别采用朴素贝叶斯(Naive Bayesian Model, NBM)、K最近邻(K-Nearest Neighbor, KNN)、SVM和RF等算法对航天器电信号数据进行分类预测,得到不同算法的分类结果。同时运用PCA方法对数据进行特征提取,使用降维后的数据采用以上算法对数据进行分类预测。比较不同算法在对数据进行特征提取前后的性能优劣。
表 1为不同算法对本文多类数据的分裂结果。实验表明,在没有对数据进行PCA特征提取之前,RF算法较其他算法具有更高的准确性。由于数据的复杂性以及算法的复杂性,NBM算法和KNN算法训练所需时间较短,RF算法所需训练时间稍长,由于类与类之间均要建立分类器,增加了算法复杂度,所以SVM算法训练所需时间较长。在对数据进行PCA特征提取之后,减少了数据量,降低了数据维度,使得计算速度和准确率都有明显的提升,特征提取前后,RF算法均表现出优异的分类性能,在提升了运行速度的同时,准确率也得到了保证。综合算法运行结果的数据表明,RF算法具有较高的稳定性,在本文多类别电特性信号识别中具有最优的分类预测性能。
表 1 训练时间和预测准确率对比 Table 1 Comparison of training time and prediction accuracy
算法 | 准确率/% | 训练时间/s |
NBM | 79.02 | |
KNN | 85.43 | 127.36 |
SVM | 88.23 | 1 873.80 |
RF | 98.90 | 189.93 |
PCA-NBM | 81.41 | |
PCA-KNN | 94.34 | 11.33 |
PCA-SVM | 91.59 | 29.32 |
PCA-RF | 98.33 | 36.40 |
表选项
4 结论 本文利用数理统计的方法,在电特性识别过程中利用主成分分析方法对原始数据的主要进行了提取,实现了对高维航天器电特性数据的降维。然后采用随机森林算法对航天器电特性数据进行识别。
1) 减少了计算所需的时间,进一步增强了分类器的性能,该算法是对某航天器的电信号测试采集数据进行的仿真实验,可以直接应用于航天器电信号数据的分类识别。
2) 通过多次实验,可以验证PCA-RF的识别方法具有比较好的识别效率以及较高的分类准确率。
3) 随机森林算法在对数据的处理上具有诸多优点,在处理具体规则模糊的数据上有很大的灵活性和自适应性。
针对本文算法模型,计算复杂度依然较大,在未来的研究中,可以尝试与其他降维方法相结合,进一步优化对不同数据集测试方法的有效性,以构造更高性能的分类器。
参考文献
[1] | 魏传锋, 贾阳, 王浚. 航天器在轨自主热故障诊断专家系统研究[J].装备环境工程, 2006, 3(3): 54–57. WEI C F, JIA Y, WANG J. Research on in-orbit spacecraft thermal fault diagnosis expert system[J].Equipment Environmental Engineering, 2006, 3(3): 54–57.(in Chinese) |
[2] | SHAW S R.System identification techniques and modeling for nonintrusive load diagnostics[D].Cambrige:Massachusetts Institute of Technology, 2000. |
[3] | 李可. 多参数环境模拟系统的智能控制方法与仿真研究[J].北京航空航天大学学报, 2007, 33(5): 535–538. LI K. System model simulation and control method used in environmental simulation chambers[J].Journal of Beijing University of Aeronautics and Astronautics, 2007, 33(5): 535–538.(in Chinese) |
[4] | LUO R. Analysis of PHM technology for spacecraft[J].Spacecraft Engineering, 2013, 22(4): 95–102. |
[5] | LIU Y, LI K, HUANG Y.Spacecraft electrical characteristics identification study based on offline FCM clustering and online SVM classifier[C]//International Conference on Multisensor Fusion and Information Integration for Intelligent Systems (MFI).Piscataway, NJ:IEEE Press, 2014:1-4. |
[6] | LI K, LIU Y, WANG Q. A spacecraft electrical characteristics multi-label classification method based on off-line FCM clustering and on-line WPSVM[J].Plos One, 2015, 10(11): 1413–1423. |
[7] | 李可, 刘祎, 杜少毅. 基于PCA和WPSVM的航天器电特性识别方法[J].北京航空航天大学学报, 2015, 41(7): 1177–1182. LI K, LIU Y, DU S Y. Spacecraft electrical characteristics identification method based on PCA feature extraction and WPSVM[J].Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(7): 1177–1182.(in Chinese) |
[8] | 鄢仁武, 叶轻舟, 周理. 基于随机森林的电力电子电路故障诊断技术[J].武汉大学学报(工学版), 2013, 46(6): 742–746. YAN R W, YE Q Z, ZHOU L. Application of random forests algorithm to fault diagnosis of power electronic circuit[J].Engineering Journal of Wuhan University, 2013, 46(6): 742–746.(in Chinese) |
[9] | 庄进发, 罗键, 彭彦卿, 等. 基于改进随机森林的故障诊断方法研究[J].计算机集成制造系统, 2009, 15(4): 777–785. ZHUANG J F, LUO J, PENG Y Q, et al. Fault diagnosis method based on modified random forests[J].Computer Integrated Manufacturing Systems, 2009, 15(4): 777–785.(in Chinese) |
[10] | LI K, LIU W K, WANG J, et al. An intelligent control method for a large multi-parameter environmental simulation cabin[J].Chinese Journal of Aeronautics, 2013, 26(6): 1360–1369.DOI:10.1016/j.cja.2013.07.006 |
[11] | LI K, LIU W K, WANG J, et al. Multi-parameter decoupling and slope tracking control strategy of a large-scale high altitude environment simulation test cabin[J].Chinese Journal of Aeronautics, 2014, 27(6): 1390–1400.DOI:10.1016/j.cja.2014.10.005 |
[12] | LIU Y, LI K, SONG S M, et al.The research of spacecraft electrical characteristics identification and diagnosis using PCA feature extraction[C]//IEEE International Conference on Signal Processing.Piscataway, NJ:IEEE Press, 2014:1413-1417. |
[13] | 刘小虎, 李生. 决策树的优化算法[J].软件学报, 1998, 9(10): 797–800. LIU X H, LI S. Optimization algorithm of decision tree[J].Journal of Software, 1998, 9(10): 797–800.(in Chinese) |
[14] | PATAKI B, TOTH N. Classification confidence weighted majority voting using decision tree classifiers[J].International Journal of Intelligent Computing & Cybernetics, 2008, 1(2): 169–192. |
[15] | PAL M. Random forest classifier for remote sensing classification[J].International Journal of Remote Sensing, 2005, 26(1): 217–222.DOI:10.1080/01431160412331269698 |
[16] | DENG H, RUNGER G. Gene selection with guided regularized random forest[J].Pattern Recognition, 2013, 46(12): 3483–3489.DOI:10.1016/j.patcog.2013.05.018 |
[17] | KHAING H K T. Detection model for daniel-of-service attacks using random forest and k-nearest neighbors[J].International Journal of Advanced Research in Computer Engineering & Technology, 2013, 2(5): 1855–1860. |