基于类别混合嵌入的电力文本层次化分类方法
陈晓娜, 高鹏飞, 梁越, 马应龙? 华北电力大学控制与计算机工程学院, 北京 102206收稿日期:
2021-05-31修回日期:
2021-08-14出版日期:
2022-01-20基金资助:
国家重点研发计划课题(2018YFC0831404)资助A Category Hybrid Embedding Based Approach for PowerText Hierarchical Classification
CHEN Xiaona, GAO Pengfei, LIANG Yue, MA Yinglong? School of Control and Computer Engineering, North China Electric Power University, Beijing 102206Received:
2021-05-31Revised:
2021-08-14Published:
2022-01-20摘要/Abstract
摘要: 针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题, 提出一种基于层次化分类模型的电力文本分类方法。首先, 利用采集的电力成果非结构化文档, 采用自动化信息提取技术和标注技术, 构建电力文本多标签分类训练集, 并结合领域知识分析, 构建类别标签之间的层次化关系。然后, 提出基于类别结构和标签语义混合嵌入的文本分类模型 HONLSTM-BERT, 利用类别标签之间的层次化结构关系进行自顶向下的层次化文本分类。最后, 通过实验与当前流行的文本分类模型进行对比分析, 结果表明HONLSTM-BERT方法具有更好的分类准确率, 可有效地提高电力文本自动分类性能。
引用本文
陈晓娜, 高鹏飞, 梁越, 马应龙. 基于类别混合嵌入的电力文本层次化分类方法[J]. 北京大学学报自然科学版, 2022, 58(1): 77-82.
CHEN Xiaona, GAO Pengfei, LIANG Yue, MA Yinglong. A Category Hybrid Embedding Based Approach for PowerText Hierarchical Classification[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(1): 77-82.
PDF全文下载地址:
http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3701