删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于语境相似度的中文分词一致性检验研究

本站小编 Free考研考试/2022-11-27

基于语境相似度的中文分词一致性检验研究

刘伟, 黄锴宇, 余浩, 黄德根?
大连理工大学计算机科学与技术学院, 大连 116023

收稿日期:2021-06-08修回日期:2021-08-14出版日期:2022-01-20

基金资助:国家科技创新2030—“新一代人工智能”重大项目(2020AAA0108004)和国家自然科学基金(U1936109, 61672127)资助

Consistency Check for Chinese Word Segmentation via Contextual Similarity

LIU Wei, HUANG Kaiyu, YU Hao, HUANG Degen?
School of Computer Science and Technology, Dalian University of Technology, Dalian 116023

Received:2021-06-08Revised:2021-08-14Published:2022-01-20






摘要/Abstract


摘要: 提出一种基于语境相似度的中文分词一致性检验方法。首先利用词法和句法层面的特征, 设计基于构词、词性和依存句法的分类规则, 再使用预训练词向量, 对不一致字串所在语境的语义信息进行编码, 通过语境间的语义相似度对不一致字串进行分类。在人工构建的36万字分词语料库中进行分词一致性检验, 结果表明该方法能够有效地提高中文分词一致性检验的准确率。进一步地, 使用3 种主流中文分词模型在修正一致性后的分词语料中重新训练和测试, 结果表明该方法可以有效地提高分词语料库的质量, 3种中文分词模型的F1值分别提高1.18%, 1.25%和1.04%。

引用本文



刘伟, 黄锴宇, 余浩, 黄德根. 基于语境相似度的中文分词一致性检验研究[J]. 北京大学学报自然科学版, 2022, 58(1): 99-105.
LIU Wei, HUANG Kaiyu, YU Hao, HUANG Degen. Consistency Check for Chinese Word Segmentation via Contextual Similarity[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(1): 99-105.





PDF全文下载地址:

http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3704
相关话题/

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19