基于数据增强的中文医疗命名实体识别
王蓬辉, 李明正, 李思北京邮电大学 人工智能学院, 北京 100876
收稿日期:
2020-03-24发布日期:
2021-03-11通讯作者:
李思(1985-),女,副教授,E-mail:lisi@bupt.edu.cn.E-mail:lisi@bupt.edu.cn作者简介:
王蓬辉(1996-),男,硕士生.基金资助:
国家自然科学基金项目(61702047)Data Augmentation for Chinese Clinical Named Entity Recognition
WANG Peng-hui, LI Ming-zheng, LI SiSchool of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China
Received:
2020-03-24Published:
2021-03-11摘要/Abstract
摘要: 由于缺乏大量已标注数据,在中文医疗命名实体识别中,主要利用外部资源来改善医疗实体识别的性能,这需要大量的时间和有效的规则加入外部资源.为了解决标注数据不足的问题,提出了一种基于生成对抗网络的数据增强算法,自动生成大量标注数据,提高医疗实体识别的性能.实验结果表明,该算法在性能方面优于实验中的基准模型,证明了该算法在医疗实体识别上的有效性.
中图分类号:
TP181
引用本文
王蓬辉, 李明正, 李思. 基于数据增强的中文医疗命名实体识别[J]. 北京邮电大学学报, 2020, 43(5): 84-90.
WANG Peng-hui, LI Ming-zheng, LI Si. Data Augmentation for Chinese Clinical Named Entity Recognition[J]. Journal of Beijing University of Posts and Telecommunications, 2020, 43(5): 84-90.
PDF全文下载地址:
https://journal.bupt.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4769