删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于改进最大匹配算法的中文分词粗分方法

中国人民大学 辅仁网/2017-07-05

文献详情
基于改进最大匹配算法的中文分词粗分方法
外文标题:Method of Chinese words rough segmentation based on improving maximum match algorithm
文献类型:期刊
作者:周俊[1]郑中华[2]张炜[3]
机构:[1]华中科技大学模具技术国家重点实验室
[2]安徽博约信息科技有限责任公司
[3]中国人民大学教育学院

年:2014
期刊名称:计算机工程与应用
卷:50
期:2
页码范围:124-128
增刊:增刊
收录情况:中国科技核心期刊CSCD(CSCD:5056622)
所属部门:教育学院
语言:中文
ISSN:1002-8331
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjgcyyy201402026.aspx
DOI:10.3778/j.issn.1002-8331.1203-0002
基金:国家自然科学基金(No.70773052)。
关键词:中文分词;最大匹配;广义词;诱导词集
摘要:中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。
作者其他论文



新闻敲诈的失范因素和治理路径.周俊;白元琪.中国记者.2014,31-32.
基于多种DEA模型和Gini准则的效率评价方法--兼对我国高校运营绩效的评价.薛晖;郑中华;谢启伟.中国管理科学.2014,22(4),98-104.
传媒监督也需要遵循"标准"--谈京华时报有关农夫山泉报道中的职业规范问题.周俊;颜一力.青年记者.2013,15-16.
网络社区中用户的身份认同建构--以豆瓣网为例.周俊;毛湛文.当代传播.2012,74-76.
巴西国际传播的发展与特点.周俊;毛湛文.中国记者.2012,118-119.

相关话题/中文 汉语 过程 教育学院 文献