1. 东北大学 信息科学与工程学院, 辽宁 沈阳 110819;
2. 大连天籁安全风险管理技术有限公司,辽宁 大连 116021
收稿日期:2020-09-06
基金项目:国家自然科学基金资助项目(61973057);矿冶过程自动控制技术国家(北京市)重点实验室开放课题(BGRIMM-KZSKL-2018-09)。
作者简介:王姝(1979-), 女, 辽宁沈阳人,东北大学副教授。
摘要:针对贝叶斯网络参数迁移过程中对源域及目标域限定条件较多等问题, 在考虑源域-目标域多种信息形式的情况下, 提出一种基于贝叶斯网络参数迁移学习的统一框架.该方法综合考虑了源域结构和数据量在迁移中的作用, 在结构相似性的基础上, 探讨了备选源域数据量对参数迁移的影响.在迁移过程中引入与目标域数据相关的平衡系数.通过平衡系数将目标域数据与迁移过程联系起来, 实现平衡系数的自动调节.Asia网络验证了本文方法的准确性.
关键词:贝叶斯网络参数学习迁移学习结构相似性平衡系数
Bayesian Network Parameter Learning Method Based on Transfer Learning
WANG Shu1, GUAN Zhan-xu1, WANG Jing1, SUN Xiao-hui2
1. School of Information Science & Engineering, Northeastern University, Shenyang 110819, China;
2. Dalian Tianlai Security Risk Management Technology Limited Company, Dalian 116021, China
Corresponding author: WANG Shu, E-mail: wangshu@mail.neu.edu.cn.
Abstract: In order to solve the problem that there are many restrictions on the source domain and the target domain in the process of Bayesian network parameter transfer, a unified framework based on Bayesian network parameter transfer learning was proposed under the condition of considering multiple information forms of source domain and target domain. The method considers the role of source domain structure and data volume in the migration. On the basis of structural similarity, the influence of alternative source domain data volume on parameter migration was discussed. The balance coefficient related to the target domain data was introduced in the migration process. According to the balance coefficient, the target domain data was linked with the migration process to realize the automatic adjustment of the balance coefficient. The Asia network verifies the accuracy of the method in this paper.
Key words: Bayesian networkparameter learningtransfer learningstructural similarityequilibrium coefficient
贝叶斯网络(Bayesian networks)又被称为信度网络, 由有向无环图(directed acyclic graph, DAG)和条件概率表(condition probability table, CPT)组成.贝叶斯网络可以很好地说明知识和数据的不确定性, 是不确定信息表达和推理的有效工具[1-3], 被广泛应用于故障诊断、模式识别等领域[4-5].
一直以来, 对于贝叶斯网络的研究主要集中在结构学习方面, 目前已经提出大量的智能优化算法及相应理论, 促进了贝叶斯网络的发展和应用.除了利用样本数据学习到准确的网络结构外, 确定网络中各节点的条件概率表对整个网络性能不仅十分重要, 甚至在贝叶斯网络推理和应用中起到决定性作用[6].在样本数据较为充分的情况下, 采用极大似然估计法(maximum likelihood estimation, MLE)进行参数学习是最简单有效的方法.在实际应用中, 从相关系统中获取确定节点参数的数据不仅难度较大, 而且耗费大量时间、资源等仍不能得到网络所需的足量数据[7].
为解决以上实际问题, 迁移学习成为获取足量学习数据的有效途径.目前针对贝叶斯网络参数迁移学习的研究, 提出了一些理论方法但都存在一定的局限性.文献[8]在源域-目标域结构一致性的前提下, 通过各源域数据量所占比重不同, 利用源域及目标域数据进行参数的迁移学习.虽然该方法对源域及目标域数据进行了充分考虑, 但在结构完全一致的条件下进行迁移学习具有很大的局限性.文献[9-10]均是以电熔镁炉异常工况识别为背景, 依据源域与目标域的结构差异性, 提出相应的相似性评价指标进行参数的迁移学习, 很好地表达了贝叶斯网络的迁移学习与其他方法迁移学习的区别, 即贝叶斯网络的迁移中应涉及其最基本的结构问题.在后续的实验中均设置源域数据量相同, 即评判指标和实验中未能充分考虑数据量不同对迁移结果的影响.文献[11]在构建辅助标记数据的初始贝叶斯网络模型的基础上根据最大期望EM算法依次对模型结构和参数进行修正及迁移学习.该方法同时涉及了结构迁移和参数迁移, 不过该方法只能用于树形贝叶斯网络的学习.文献[12]也同时提出了贝叶斯网络结构迁移和参数迁移的相应方法, 该方法在结构学习得到目标域结构的基础上进行参数迁移学习, 具有很好的整体性, 但其参数学习同样仅依赖于源域及目标域的结构, 使得评判标准过于单一.
针对以上方法的局限性, 在综合考虑源域数据及结构的基础上, 根据源域与目标域可能存在的多种情况, 提出一种基于贝叶斯网络参数学习的整体框架.该方法首先根据源域与目标域结构判断是否具有相同的局部结构, 利用具有相似结构的备选源域的数据直接学习目标域参数.然后对各备选源域综合考虑了源域结构及数据一体化的评价指标, 通过平衡系数引入目标域数据, 使其不再仅局限于求取目标域参数, 而是对整个迁移过程产生影响.该方法的优势在于同时考虑源域结构和数据在迁移中的作用, 使得评价指标更加丰富.利用设计的平衡系数有效引入了目标域数据, 实现了平衡系数的自动调节.在此基础上提出参数迁移的整体框架, 考虑了源域-目标域多种迁移的可能, 有利于该方法在不同背景和限定下的表达和应用.
1 理论基础1.1 贝叶斯网络在图论中, 若图中的每条边都是有方向的, 称之为有向图.若从一个节点出发, 无法经过若干条边回到该节点, 这样的有向图称为有向无环图.贝叶斯网络的形式为有向无环图, 其中节点代表变量, 节点间的有向弧用于表征变量间的关联关系.贝叶斯网络的定义采用二元组的形式表示:
(1) |
1.2 贝叶斯网络参数学习贝叶斯网络参数学习是指在其结构已知的条件下, 通过统计的方法从数据样本中估计参数的过程[13].在样本数据较为充足的情况下, 采用极大似然估计法(MLE)进行参数学习能够获得精度较高的样本估计参数, 参数θijk的极大似然估计值为
(2) |
1.3 贝叶斯网络参数迁移学习在贝叶斯网络参数迁移学习背景下, 领域Domain={V, G, D}包含3个主要成分: V={X1, X2, …, Xn}为贝叶斯网络节点; D为与变量相关的数据; G为变量间的统计依赖关系, 其形式是有向无环图.每个变量在结构G中给定父节点下的条件概率分布.本文讨论的问题均是在一个目标域Domaint={Vt, Gt, Dt}和多个源域的基础上进行的, 其中各源域表示为Domains={Vs, Gs, Ds}.在贝叶斯网络迁移学习背景下, 目标域的数据即使存在也是相当有限.
本文提出的贝叶斯网络迁移学习方法, 针对不同情形的信息形式, 如源域与目标域可能有不同的条件概率分布; 多源域及目标域可利用的有效信息可能有不同的状态, 即有时源域和目标域数据均已知, 有时仅仅已知其中一方面的信息等.根据不同的信息形式, 需要提出不同的迁移学习策略, 因此, 以源域与目标域确定的结构为基础, 综合考虑不同情形的可利用信息, 提出贝叶斯网络参数学习的整体框架, 以利于在不同条件和背景下的迁移应用.本文提出的贝叶斯网络迁移学习方法满足以下假设: 源域结构与目标域结构已知但并不相同; 源域与目标域的变量相同, Vs=Vt.
2 贝叶斯网络参数迁移学习统一框架针对贝叶斯网络参数迁移问题已经提出了一些有效的方法, 但这些方法均面临约束过多等问题, 只适用于其具体的研究内容, 难以对其他环境背景进行推广应用.基于以上分析, 提出一种贝叶斯网络参数迁移的统一框架, 如图 1所示.
图 1(Fig. 1)
图 1 贝叶斯网络参数迁移学习框架Fig.1 Bayesian network framework for parameter transfer learning |
本文方法的创新点及贡献主要体现在以下方面: ①为避免目前单一迁移评价指标的缺陷, 提出了包含源域结构与数据的综合评价指标; ②构造一种新的平衡系数表达方法以实现系数的自动调节, 并通过该平衡系数将目标域数据有效引入迁移过程; ③在前两部分的基础上, 对于各种不同可利用信息, 分别提出适应不同条件的迁移方法.本文方法综合考虑了结构和数据对贝叶斯网络迁移学习的影响并提出相应评判指标, 进而提出贝叶斯网络参数学习的统一框架, 对可能面临的各种迁移情况, 均具有良好的适用性, 具体步骤如下:
步骤1 ? 在进行参数迁移学习之前需要明确除前提条件之外的源域及目标域的可利用信息, 对能够进行迁移学习的源域个数S、贝叶斯网络节点个数n及阈值Z等信息进行确定.
步骤2 ?源域与目标域结构关系判断: 目标域和多个源域可能仅拥有局部相同的结构.针对目标域中的各个节点Xi, 对比源域和目标域结构, 当节点Xi在源域及目标域中拥有不相同的父节点集pa(Xi)时, 该节点在此源域中的参数将有很小的可能性与目标域拥有相同的概率分布.通过对比源域和目标域结构, 寻找与目标域节点拥有相同父节点集的源域作为参数迁移学习的备选信息.针对目标域中的每个节点, 所有源域都应该用同样的方式分别进行评估.因此, 针对不同的节点, 备选源域S′可能是不同的.
步骤3 ?对与目标域具有相同结构的源域可作为备选源域, 记录备选源域数目S′及各备选源域的数据量Ds(若某一备选源域没有可利用的数据, 则Ds=0).
步骤4 ?计算备选源域与目标域结构的相似性Sims, t,
(3) |
步骤5 ?计算各备选源域结构权重ωsg,
(4) |
(5) |
(6) |
步骤9 ?根据目标域信息学习得到目标域参数θDtt判断目标域数据Dt是否存在.若答案为“是”, 则利用目标域数据通过MLE方法学习得到目标域参数并计算平衡系数, 平衡系数的计算方法如式(7)、式(8)所示.若答案为“否”, 则直接转向步骤10.
(7) |
(8) |
步骤10 ?确定目标域最终参数θt.对于源域数据与目标域数据的不同情况, 可采取不同的迁移策略:
1) 各源域数据Ds与目标域数据Dt均存在, 可通过MLE方法分别获得源域数据学习到的目标域参数估计值θDst及目标域数据学习到的目标域参数估计值θDtt, 由式(9)可得目标域最终参数θt:
(9) |
(10) |
(11) |
步骤11 ?在得到一个节点的θt后, 需要判断该节点是否为需要迁移的最后节点, 若“是”, 则整个网络参数迁移结束; 若“否”, 则转到步骤2.
3 仿真分析通过Asia网络对本文提出的方法进行验证.Asia网络是经典的BN网络模型, 被广泛应用于各种BN算法的验证中.本文以图 2所示的Asia网络真实结构作为目标域结构并由此构造如图 3所示的两个相似结构作为源域结构进行以下具体分析.
图 2(Fig. 2)
图 2 目标域结构Fig.2 Structure of target domain |
图 3(Fig. 3)
图 3 源域结构Fig.3 Structure of the source domain (a)—源域1结构;(b)—源域2结构. |
根据图 3所示结构, 分别对源域及目标域采集相同数量的样本数据, 利用MLE算法对采集到的样本数据依次以目标域结构为基础进行参数学习, 所得参数如表 1所示.
表 1(Table 1)
表 1 源域-目标域在不同样本数据下学习的部分节点参数对比Table 1 Comparison of partial node parameters between source domain and target domain under different data
| 表 1 源域-目标域在不同样本数据下学习的部分节点参数对比 Table 1 Comparison of partial node parameters between source domain and target domain under different data |
从表 1可以看出, 无论数据量如何变化, 源域1与目标域对于节点3的参数学习结果始终差异较大, 而对于节点2和节点5, 则具有相近的学习结果.由图 2和图 3可知, 源域1与目标域中对于节点3拥有不同的父节点数(局部结构不同).同理, 节点8在源域2与目标域中也具有不同的局部结构, 导致该节点参数学习结果不准确.
由表 1中部分节点对比结果的较大差异性可知, 局部结构是否相同对该节点参数学习结果的准确性具有很大影响.因此, 本文参数迁移学习方法首先对比源域-目标域结构, 对每一节点均判断是否具有相同的父节点数, 只有局部结构相同才会进行该节点的参数迁移, 从而保证结果的准确性.在此之上, 对于具有相同局部结构的节点, 源域数据直接对目标域结构进行参数学习, 所得结果与相同数量下目标域数据学习结果相近.基于以上分析, 说明本文所提方法的思想是可行有效的.
在实际参数迁移过程中, 应先设置阈值, 即目标域数据量应远小于阈值才被认为需要通过源域迁移来获取所需参数, 否则通过目标域参数学习直接获得目标域参数.因此, 首先设置阈值Z=1 000, 两源域数据量D1=1 500, D2=1 500, 在该前提下经计算可得ω1=ω2=0.5, 即在两源域所占比重相同的情况下, 不断改变目标域数据量Dt, 以此说明目标域数据量的改变对迁移过程产生的影响, 以及验证本文将目标域数据引入平衡系数中的变权重方法的效果.对所得结果求KL散度值并与定权重方法相比, 结果如图 4所示.
图 4(Fig. 4)
图 4 本文方法与定权重方法对比Fig.4 Comparison of the method in this paper and the method of fixed weight |
由图 4可知, 在参数迁移过程中, 在不改变源域信息的基础上, 随目标域数据量的不断增加, KL散度值不断减小, 即通过迁移学习得到的参数越来越接近目标真实参数.由于起始进行学习的目标域数据量很少, 目标域能够产生的作用十分有限, 此时增加目标域数据, 其KL散度值变化较大.随着数据的不断增加, 利用目标域数据学习到的目标域参数趋近于稳定值, 在不改变源域信息的基础上得到的目标域最终参数也趋于一个稳定值, 因此图形变化趋于平缓, KL散度值不再有很大改变.由于数据量增加使得学习结果更加准确及样本随机性等综合原因, 导致目标域数据为320时本文方法的散度值略高于定权重0.2时的散度值, 但整体来看本文方法的KL散度值低于定权重的方法, 且始终维持在一个较平缓的曲线附近, 说明本文提出的将目标域数据引入平衡系数的变权重方法随着目标域数据的改变, 始终具有良好的迁移效果.基于以上分析, 说明本文方法具有良好适用性的同时还具有良好的解释性.
在确定目标域数据及平衡系数有效作用的基础上, 进一步说明源域信息对参数迁移过程的影响.由图 3可知, 在已知源域结构模型的前提下, 各源域所占的结构权重为已知.设阈值Z=1 000, 源域1数据量D1=500, 目标域数据Dt=100, 通过改变源域2的数据量, 即不断对各源域权重进行改变, 得到的效果如图 5所示.
图 5(Fig. 5)
图 5 两种方法在源域2不同数据量下的对比Fig.5 Comparison of two methods under different data of source domain 2 |
由图 5中两条曲线的对比可知, 源域结构与数据权重法的效果优于现存的仅以结构为评判指标的方法.原因如下: 随着源域2数据量的增加, 源域2数据学习到的目标域参数也更加准确, 因此, 两条曲线均呈下降趋势.仅以结构作为评判指标的方法忽视了源域1数据量并未改变的实际情况, 因此无论源域2数据如何增加, 两源域所占权重不会变化.而本文的混合权重法随着源域2数据量的增加, 源域2学习到的参数更加准确, 所占权重也逐渐上升, 其效果也优于其他方法方法.基于以上说明, 理论分析与实验证明了本文方法的优势.
4 结论1) 在综合考虑源域-目标域可利用信息的情况下, 提出一种新的贝叶斯网络参数迁移学习方法.该方法首先将目标域数据有效引入平衡系数中, 实现平衡系数的动态变化.
2) 提出包括源域结构和数据的综合评价指标, 使得源域信息的迁移更加合理化, 避免了单一指标的局限性.
3) 在提出的参数迁移学习方法的基础上, 进一步提出贝叶斯网络参数迁移学习的统一框架, 使该方法能够在不同背景下推广应用.
4) 仿真实验说明了本文方法的有效性, 与其他方法对比证明了本文方法的优势, 为贝叶斯网络参数获取提供了一种新的方式.
参考文献
[1] | Amin M T, Khan F, Ahmed S, et al. A novel data-driven methodology for fault detection and dynamic risk assessment[J]. Canadian Journal of Chemical Engineering, 2020. DOI:10.1002/cjce.23760 |
[2] | Scanagatta M, Corani G, Zaffalon M, et al. Efficient learning of bounded-tree width Bayesian networks from complete and incomplete data sets[J]. International Journal of Approximate Reasoning, 2018, 95: 152-166. DOI:10.1016/j.ijar.2018.02.004 |
[3] | Incerti D, Curtis J R, Shafrin J, et al. A flexible open-source decision model for value assessment of biologic treatment for rheumatoid arthritis[J]. Pharmaco Economics, 2019, 37(1): 829-843. DOI:10.1007/s40273-018-00765-2 |
[4] | Amin M T, Khan F, Imtiza S. Fault detection and pathway analysis using a dynamic Bayesian network[J]. Chemical Engineering Science, 2019, 195(23): 777-790. |
[5] | Sun H W, Xie X F, Sun T, et al. Threat assessment method of warships formation air defense based on DBN under the condition of small sample data missing[J]. Systems Engineering and Electronics, 2019, 41(6): 1300-1308. |
[6] | Li Z D, Liao S Z. Bayesian network parameter learning method on small samples[J]. Computer Engineering, 2016, 42(8): 153-159, 165. |
[7] | Zeng Q, Huang Z, Wei S H. Bayesian network parameter learning method based on expert priori knowledge and monotonic constraints[J]. Systems Engineering and Electronics, 2020, 42(3): 646-652. |
[8] | 郭文强, 徐成, 肖秦琨, 等. 基于变权重迁移学习的BN参数学习算法[J]. 计算机应用研究, 2020, 38(1). (Guo Wen-qiang, Xu Cheng, Xiao Qin-kun, et al. BN parameter learning algorithm based on dynamic weighted transfer learning[J]. Application Research of Computers, 2020, 38(1). DOI:10.19734/j.issn.1001-3695.2019.10.0600) |
[9] | Yuan P, Sun Y F, Li H, et al. Abnormal condition identification modeling method based on Bayesian network parameters transfer learning for the electro-fused magnesia smelting process[J]. IEEE Access, 2019, 7: 149764-149775. DOI:10.1109/ACCESS.2019.2947499 |
[10] | 闫浩, 王福利, 孙钰沣, 等. 基于贝叶斯网络参数迁移学习的电熔镁炉异常工况识别[J]. 自动化学报, 2020. (Yan Hao, Wang Fu-Li, Sun Yu-feng, et al. Abnormal condition identification based on Bayesian network parameters transfer learning for the electro-fused magnesia[J]. Acta Automatica Sinica, 2020. DOI:10.16383/j.aas.c200104) |
[11] | Liu A H, Cheng Z H, Jiang J. Bayesian network learning for classification via transfer method[J]. IEEE Computer Society, 2019, 1102-1109. |
[12] | Li H, Wang F L, Li H R, et al. Safety control modeling method based on Bayesian network transfer[J]. Knowledge-Based Systems, 2020. DOI:10.1016/j.knosys.2019.105297 |
[13] | Gao X G, Ye S M, Di R H, et al. Bayesian network structure learning based on fusion prior method[J]. Systems Engineering and Electronics, 2018, 40(4): 790-796. |