基于网络文本的汉语多词表达抽取方法
龚双双,陈钰枫*,徐金安,张玉洁北京交通大学计算机与信息技术学院, 北京 100044
收稿日期:
2017-12-12出版日期:
2018-09-20发布日期:
2018-09-10作者简介:
龚双双(1990— ),女,硕士研究生,研究方向为自然语言处理、信息抽取. E-mail:15120393@bjtu.edu.cn*通信作者简介:陈钰枫(1981— ),女,博士,副教授,研究方向为自然语言处理、人工智能. E-mail:chenyf@bjtu.edu.cn基金资助:
国家自然科学基金资助项目(61473294,61370130);北京市自然科学基金资助项目(4172047);中央高校基本科研业务费专项资金资助项目(2015JBM033)Extraction of Chinese multiword expressions based on Web text
GONG Shuang-shuang, CHEN Yu-feng*, XU Jin-an, ZHANG Yu-jieCollege of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China
Received:
2017-12-12Online:
2018-09-20Published:
2018-09-10摘要/Abstract
摘要: 多词表达(multiword expressions, MWEs)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现,给分词和后续文本理解带来了巨大挑战,因此,面向网络文本提出了一种双层抽取策略来实现多词表达的识别。第一层次,利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,在第一层次获得的多词表达候选列表的基础上,利用SVM分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验测试,在5 000条微博语料上,第一层次获得的多词表达的F值为84.92%,第二层次多词表达识别的F值为89.58%,相比于基线系统,性能有很大的提升。实验结果表明,双层抽取策略能够实现网络多词表达的有效抽取,并能有效改善分词结果。
PDF全文下载地址:
http://lxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2833