东北大学 机械工程与自动化学院, 辽宁 沈阳 110819
收稿日期:2020-10-26
基金项目:中央高校基本科研业务费专项资金资助项目(N2023023);北京卫星环境工程研究所CAST-BISEE项目(CAST-BISEE2019-019);河北省自然科学基金资助项目(E2020501013)。
作者简介:王新刚(1979-),男,黑龙江齐齐哈尔人,东北大学教授,博士生导师。
摘要:针对目前大多数基于人工智能的轴承剩余使用寿命(remaining useful life, RUL)预测方法不能很好地预测不同工况下轴承剩余寿命的问题, 提出了一种基于迁移学习的寿命预测方法,对不同工况下的轴承进行剩余寿命预测.对采集的轴承原始振动信号进行傅里叶变换得到频域信号, 以卷积神经网络和长短时记忆网络作为特征提取器对轴承频域信号进行特征提取并挖掘数据之间的时序信息, 采用全局和局部域适应相结合的方法降低不同工况下轴承数据的分布差异.通过现有多种工况下轴承运行数据验证了该方法的有效性.与传统深度学习模型相比, 所提方法提高了不同工况下轴承RUL预测精度.
关键词:轴承剩余使用寿命深度学习迁移学习领域适应
Bearing Remaining Useful Life Prediction Method Based on Transfer Learning
WANG Xin-gang, HAN Kai-zhong, WANG Chao, LI Lin
School of Mechanical Engineering & Automation, Northeastern University, Shenyang 110819, China
Corresponding author: WANG Xin-gang, E-mail: xgwang@neuq.edu.cn.
Abstract: To address the problem that most bearing remaining useful life (RUL) prediction methods based on artificial intelligence cannot well predict bearing RUL under different working conditions, a transfer learning method was proposed to predict bearing RUL under different working conditions. Fourier transform was applied to the raw vibration signals of the bearing to obtain the frequency-domain signals, and convolutional neural network (CNN) and long short-term memory network(LSTM) were used to extract the features between data of the bearing′s frequency-domain signals and mine temporal information. The method of combining global and local domain adaption was adopted to reduce the distribution differences of the bearing data under different working conditions. The effectiveness of the method was verified by the existing bearing data. Compared with the traditional deep learning models, the proposed method improves the accuracy of bearing RUL prediction under different working conditions.
Key words: bearingremaining useful life (RUL)deep learningtransfer learningdomain adaptation
滚动轴承是旋转机械中的关键部件, 在现代工业中得到了广泛的应用.对轴承进行精确的剩余寿命估计, 可以显著提高机械系统的可靠性和运行安全性, 避免严重的故障, 减小维修成本.近年来基于深度学习的轴承剩余使用寿命(remaining useful life,RUL)预测取得了较大的进步, Babu等[1]将卷积神经网络(CNN)应用于RUL领域, 采用两个卷积层和两个池化层提取原始信号的特征, 同时结合多层感知机(MLP)实现了轴承RUL的预测, Ren等[2]提出了一种结合时域和频域特征的轴承RUL协同预测深度学习模型, 轴承RUL试验表明所提方法优于传统的深度学习方法.Zhu等[3]利用连续小波变换将轴承信号转化为时频图像, 然后将图像输入CNN进行训练, 实现了轴承的RUL预测, 但整体准确率略低.Li等[4]将轴承振动信号进行短时傅里叶变换得到时频特征, 然后利用多个连续时刻的时频特征和CNN模型进行轴承RUL预测, 由于利用了邻近信号之间的潜在关联性, 取得了较好的预测结果.Yang等[5]提出了一种双重深度CNN模型, 先利用第1个CNN模型判断轴承的开始退化时间, 然后利用第2个CNN模型对轴承进行RUL预测, 并对轴承退化模式进行了分类.
尽管上述方法已经取得了令人满意的效果, 但仍存在一个关键问题.大多数轴承RUL预测模型的训练集和测试集来自同一种工况下的轴承, 数据具有相同的分布, 只有在同工况下模型才会有较好的性能.然而在实际的工业应用中, 大多数轴承的工况会发生变化, 数据分布呈现一定的差异性, 这将导致RUL预测模型的性能出现急剧下降.通常解决此问题的方法是为目标任务重新训练或者微调模型参数, 这是一种有监督的训练过程, 需要带有标签的目标数据集, 但在实时预测任务中很难获得带标签的数据, 因此需要更有效的模型预测不同工况下的轴承寿命.迁移学习能够将从源域学到的知识推广到目标域中[6], 无监督领域自适应(unsupervised domain adaptation, UDA)作为迁移学习领域的一个重要分支, 能够学习跨域不变的特征, 可以有效地减少源域和目标域之间的分布差异.
目前已经出现了一些基于迁移学习的故障诊断方法, Wen等[7]利用自动编码器提取特征, 并应用最大均值差异(MMD)减小源域数据集和目标域数据集的分布差异, 实现了不同工况轴承的故障诊断.Li等[8]通过最小化多核最大均值差异(MK-MMD), 实现跨域滚动轴承故障诊断.Han等[9]利用对抗性学习策略减小源域数据和目标域数据的分布差异, 用于机器故障诊断.但是在机械寿命预测领域, 迁移学习应用相对较少.
因此, 为解决不同工况下轴承寿命预测的问题, 提出了一种用于轴承寿命预测的无监督域适应模型.该模型包括特征提取器、RUL预测模块和领域自适应模块, 特征提取器和RUL预测模块用于寻找轴承数据特征和对应RUL之间的关系, 领域自适应模块用于降低不同工况轴承数据间的分布差异.通过这三个模块, 可以有效地提高不同工况下轴承RUL预测的精度, 并采用不同工况下的轴承数据集验证了该模型的性能.
1 无监督迁移学习模型1.1 CNNLSTM模型评估轴承性能退化问题时, 历史数据对当前时刻状态有着重要的影响.长短时记忆网络(LSTM)是由循环神经网络(RNN)改进而来, 具有强大的记忆功能和序列数据处理能力, 广泛应用在语音识别和文本生成等领域.LSTM单元包括三个门结构: 遗忘门、输入门和输出门.LSTM单元结构如图 1所示, 其单元状态更新包括以下几个步骤: 遗忘门负责决定哪些信息将从单元状态中丢弃, 然后输入门决定当前输入的哪些信息保留在单元状态中, 最后输出门决定单元将输出哪些信息, 通过这种方式有效地克服了梯度消失或爆炸等问题.
图 1(Fig. 1)
图 1 LSTM单元Fig.1 LSTM unit |
根据图 1, LSTM单元的数学表达式为
(1) |
LSTM的隐藏层通常由全连接层构成, 对于轴承振动信号等高维数据直接进行特征提取效果并不理想.CNN通过卷积层和池化层提取特征并降低数据维度, 非常适合处理高维问题.结合CNN和LSTM各自的优势, 在LSTM网络之前加入CNN网络形成CNNLSTM模型.如图 2所示, 首先卷积神经网络对输入的数据进行特征提取, 然后LSTM进一步挖掘特征的时序信息, 最后经过全连接层输出提取的特征.
图 2(Fig. 2)
图 2 CNNLSTM模型Fig.2 CNNLSTM model |
1.2 领域自适应学习在无监督领域自适应学习中, 定义一个源域Ds={(xis, yis)}i=1ns和一个目标域Dt={xjt}j=1nt, 其中源域有ns个带标签数据, 目标域有nt个无标签数据, Ds和Dt的标签值在同一个范围内, 两个域的数据分布不相等, 即Ps(xs)≠Pt(xt).迁移学习的目的是利用模型从源域学习到知识提高对目标域的预测能力.
域对抗自适应网络(DANN)[10]借用了生成式对抗网络(GAN)[11]的思想通过混淆域判别器降低源域和目标域的分布偏移, 特征提取器Gf用于提取数据的特征, 域判别器Gd用于区分数据的来源, 分类器Gc用于输出分类结果.损失函数为
(2) |
然而在实际问题中, 源域和目标域的数据分布通常包含复杂的结构, 仅使用单个域判别器对齐源域和目标域全局分布是不够的, 当局部领域的分布错误对齐时可能会发生负迁移[12].为解决此问题, 动态对抗适应网络(DAAN)[13]引入了全局域判别器和局部域判别器实现源域和目标域全局对齐和局部对齐.
DAAN的分类器损失为
(3) |
(4) |
(5) |
DAAN的训练目标是最小化源域数据集上的分类误差, 最大化全局域判别器和局部域判别器分类误差.整体损失函数最终可以表示为
(6) |
1.3 寿命预测模型寿命预测模型采用CNNLSTM-DAAN网络结构, 如图 3所示, 包括特征提取器Gf, 寿命预测模块Gy, 分类器Gc, 全局域判别器Gd和局部域判别器Gdk|k=1K.
图 3(Fig. 3)
图 3 CNNLSTM-DAAN网络结构Fig.3 CNNLSTM-DAAN network structure |
为有效利用轴承数据的时序信息, 使用一维CNN和多层LSTM网络作为特征提取器, 如图 4所示.首先一维CNN对输入数据进行特征提取, 然后LSTM进一步挖掘特征的时序信息, 最后经过全连接层输出提取的特征.每次需要多个连续时刻的特征序列作为一个样本输入模型, 采用并行一维卷积神经网络分别对其进行卷积操作, 生成包含时间维度信息的特征,具体参数如表 1所示.
图 4(Fig. 4)
图 4 特征提取器Fig.4 Feature extractor |
表 1(Table 1)
表 1 CNNLSTM模型参数Table 1 CNNLSTM model parameters
| 表 1 CNNLSTM模型参数 Table 1 CNNLSTM model parameters |
寿命预测模块由3层全连接层组成, 神经元个数分别是32, 16, 1, 前两层使用Relu激活函数, 损失函数采用均方误差.全局域判别器由3层全连接层组成, 神经元个数分别是32, 16, 1, 前两层使用Relu激活, 最后一层使用Sigmoid激活, 损失函数采用交叉熵.局部域判别器由10个和全局域判别器结构相同的网络组成.分类器由两层全连接层组成, 神经元个数分别是32, 10, 第一层使用Relu激活, 第二层使用Softmax激活, 损失函数采用交叉熵.
整体损失函数如式(7)所示:
(7) |
模型参数优化目标为
(8) |
表 2(Table 2)
表 2 实验数据说明Table 2 Descriptions of the experiment data
| 表 2 实验数据说明 Table 2 Descriptions of the experiment data |
表 3(Table 3)
表 3 迁移学习数据集划分Table 3 Transfer learning dataset partition
| 表 3 迁移学习数据集划分 Table 3 Transfer learning dataset partition |
2.2 数据预处理采集轴承原始振动信号后, 利用快速傅里叶变换将时域信号转换为频域信号用作模型的输入.为充分利用数据之间潜在的时序信息, 将数据集重新排列, 用Xi表示第i时刻信号的频域特征, Xi=(xi1, xi2, …, xin), n为每个时刻样本的特征个数, 这里每个时刻的频域信号包含1 280个特征.整理后的数据集为(X1, X2, …, Xm)T, m表示样本的个数, 经过对准确率和计算效率综合考虑, 这里将5个连续时刻的特征序列作为一个样本输入模型, 即同时利用了前4个时刻和当前时刻的数据预测当前时刻的状态, 数据集的排列方式为
(9) |
(10) |
(11) |
2.3 寿命预测过程首先仅使用源域数据集及其标签对特征提取器和寿命预测模块进行预训练, 采用反向传播算法更新模型参数, 执行随机梯度下降优化算法(SGD)以迭代方式最小化总体误差, 域适应模块学习率和λ设置为0, 其余部分学习率设置为0.001, 每次训练输入32个样本, 训练迭代次数为100.
将训练好的参数作为整体模型的初始化参数, 工况1域适应工况2时, 利用源域数据集和工况2数据集进行无监督域适应训练微调模型参数, 全局域判别器和局部域判别器加入梯度反转层(GRL)[10]更新参数.固定特征提取器CNN层和LSTM层的参数, 全连接层和寿命预测模块学习率设置为0.000 1, 域适应模块学习率设置为0.001, λ按照文献[10]设置为动态值, 每次训练输入32个样本, 训练迭代次数为50.模型训练完成以后, 可以预测工况2测试数据集的RUL.工况1域适应工况3的过程相同, 两个测试数据集轴承的全寿命周期振动信号如图 5, 图 6所示, 开始和结束时刻的频域信号如图 7, 图 8所示.
图 5(Fig. 5)
图 5 bearing 2-6的振动信号Fig.5 Vibration signal of bearing 2-6 |
图 6(Fig. 6)
图 6 bearing 3-3振动信号Fig.6 Vibration signal of bearing 3-3 |
图 7(Fig. 7)
图 7 bearing 2-6开始0.1 s时刻和失效0.1 s时刻频域信号Fig.7 Frequency domain signals at first 0.1 s and last 0.1 s of bearing 2-6 (a)—开始时刻频域信号;(b)—失效开始时刻频域信号. |
图 8(Fig. 8)
图 8 bearing 3-3开始时刻0.1 s和失效0.1 s时刻频域信号Fig.8 Frequency domain signals at first 0.1 s and last 0.1 s of bearing 3-3 (a)—开始时刻频域信号;(b)—失效开始时刻频域信号. |
将处理好的测试数据集输入至寿命预测模型进行RUL预测.未进行域适应训练的预测结果如图 9所示, 使用域适应训练的预测结果如图 10所示.从图中可以看出, 域适应学习的作用明显, 所提出的方法对于检测不同工况下轴承的退化趋势和估计RUL非常有效.
图 9(Fig. 9)
图 9 未进行域适应学习剩余寿命预测结果Fig.9 RUL prediction results without domain adaption (a)—bearing 2-6; (b)—bearing 3-3 |
图 10(Fig. 10)
图 10 域适应学习剩余寿命预测结果Fig.10 RUL prediction results with domain adaption (a)—bearing 2-6; (b)—bearing 3-3 |
2.4 特征提取器性能对比CNNLSTM-DAAN模型的特征提取器主要由CNN和LSTM两部分组成, 为了验证特征提取器的性能, 将模型与单一的LSTM网络和单一的CNN网络进行对比.采用3种特征提取器分别对测试集进行RUL预测, bearing 2-6的预测结果如图 11所示, bearing 3-3的预测结果如图 12所示.
图 11(Fig. 11)
图 11 不同特征提取器对bearing 2-6预测结果Fig.11 Prediction results of bearing 2-6 with different feature extractors |
图 12(Fig. 12)
图 12 不同特征提取器对bearing 3-3预测结果Fig.12 Prediction results of bearing 3-3 with different feature extractors |
从图 11和图 12可以看出, 使用CNNLSTM作为特征提取器预测的轴承RUL结果最接近实际值, 其他两种方法误差较大.
常用的性能比较指标是平均绝对误差(mean absolute error, MAE)和均方根误差(root mean squared error, RMSE):
(12) |
(13) |
表 4(Table 4)
表 4 不同特征提取器预测误差Table 4 Prediction error of different feature extractors
| 表 4 不同特征提取器预测误差 Table 4 Prediction error of different feature extractors |
从表 4可以看出, 对于不同的度量标准, 即MAE和RMSE, CNNLSTM在两种不同工况下的预测误差都是最小的, 表明CNNLSTM特征提取器能够有效地捕捉轴承信号中的退化特征.在bearing 2-6寿命预测结果中, CNN比LSTM误差小, 而在bearing 3-3寿命预测结果中, LSTM比CNN表现更好, 说明单一结构的特征提取器不够稳定, CNNLSTM特征提取器具有较强的鲁棒性.
2.5 域适应模块性能对比为了对轴承RUL预测模型的域适应模块性能进行综合评价, 将RUL预测结果与其他4种方法进行对比:
1) 不使用域适应模块;
2) 仅使用全局域判别器;
3) 仅使用局部域判别器;
4) 使用深度适应网络(deep adaptation network, DAN)[15], 最小化MK-MMD.
4种域适应方法的寿命预测误差对比结果如表 5所示.
表 5(Table 5)
表 5 不同域适应模块预测误差Table 5 Prediction error of different domain adaptation modules
| 表 5 不同域适应模块预测误差 Table 5 Prediction error of different domain adaptation modules |
从表 5可以看出, 本文所使用的域适应模块相比于其余4种方法, 预测性能均有提升, 不同工况轴承RUL预测值比其他方法更接近实际值.
3 结论1) 模型的特征提取器采用CNNLSTM模型, 结合CNN和LSTM各自的优势, 能够高效提取高维振动信号的退化特征和时序信息, 实验结果表明比单一结构的特征提取器更加有效.
2) 针对不同工况下轴承RUL预测问题, 提出了一种基于迁移学习的寿命预测模型, 利用已标记轴承数据和部分未标记数据训练的模型可以有效地对不同工况下的轴承进行RUL预测, 并获得了较高的预测精度.
3) 在不同工况下轴承RUL预测性能测试中, 本文模型使用的域适应模块可以有效减少不同工况轴承数据之间的全局和局部分布差异, 与其他三种广泛使用的域适应方法进行了对比, 结果表明了本文模型的可行性和优越性.
参考文献
[1] | Babu G S, Zhao P, Li X L. Deep convolutional neural network based regression approach for estimation of remaining useful life[C]//International Conference on Database Systems for Advanced Applications. Cham, 2016: 214-228. |
[2] | Ren L, Cui J, Sun Y, et al. Multi-bearing remaining useful life collaborative prediction: a deep learning approach[J]. Journal of Manufacturing Systems, 2017, 43: 248-256. DOI:10.1016/j.jmsy.2017.02.013 |
[3] | Zhu J, Chen N, Peng W. Estimation of bearing remaining useful life based on multiscale convolutional neural network[J]. IEEE Transactions on Industrial Electronics, 2018, 66(4): 3208-3216. |
[4] | Li X, Zhang W, Ding Q. Deep learning-based remaining useful life estimation of bearings using multi-scale feature extraction[J]. Reliability Engineering & System Safety, 2019, 182: 208-218. |
[5] | Yang B, Liu R, Zio E. Remaining useful life prediction based on a double-convolutional neural network architecture[J]. IEEE Transactions on Industrial Electronics, 2019, 66(12): 9521-9530. DOI:10.1109/TIE.2019.2924605 |
[6] | Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345-1359. |
[7] | Wen L, Gao L, Li X. A new deep transfer learning based on sparse auto-encoder for fault diagnosis[J]. IEEE Transactions on Systems, Man, and Cybernetics, 2017, 49(1): 136-144. |
[8] | Li X, Zhang W, Ding Q, et al. Multi-layer domain adaptation method for rolling bearing fault diagnosis[J]. Signal Processing, 2019, 157: 180-197. DOI:10.1016/j.sigpro.2018.12.005 |
[9] | Han T, Liu C, Yang W, et al. A novel adversarial learning framework in deep convolutional neural network for intelligent diagnosis of mechanical faults[J]. Knowledge-Based Systems, 2019, 165: 474-487. DOI:10.1016/j.knosys.2018.12.019 |
[10] | Ganin Y, Ustinova E, Ajakan H, et al. Domain-adversarial training of neural networks[J]. The Journal of Machine Learning Research, 2016, 17(1): 2096-2030. |
[11] | Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. Montreal, 2014: 2672-2680. |
[12] | Cao Z, Long M, Wang J, et al. Partial transfer learning with selective adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 2724-2732. |
[13] | Yu C, Wang J, Chen Y, et al. Transfer learning with dynamic adversarial adaptation network[C]//2019 IEEE International Conference on Data Mining (ICDM). Beijing: IEEE, 2019: 778-786. |
[14] | Nectoux P, Gouriveau R, Medjaher K, et al. PRONOSTIA: an experimental platform for bearings accelerated degradation tests[C]//IEEE International Conference on Prognostics and Health Management, PHM'12. Denver: IEEE Catalog Number, 2012: 1-8. |
[15] | Long M, Cao Y, Wang J, et al. Learning transferable features with deep adaptation networks[C]//International Conference on Machine Learning. Berlin, 2015: 97-105. |