摘要目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2660
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于CRF和半监督学习的维吾尔文命名实体识别
本站小编 Free考研考试/2022-01-02
相关话题/结构 实验 优化 信息 维吾尔
维吾尔语词缀变体搭配规则研究及算法实现
摘要该文介绍了维吾尔语词干结构特征、词缀结构特征及维吾尔语语音和谐律;以维吾尔语语音和谐律为基础,在充分考虑基本搭配规则和特殊规则的前提下,提出一种基于词干、词缀结构特征的维吾尔语词缀变体搭配算法;验证词干、词缀结构特征提取的正确性和完整性,并对500个名词词干和300个动词词干进行词缀变体搭配,分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于BiLSTM-CRF模型的汉语否定信息识别
摘要否定信息识别是将自然语言中的肯定信息与否定信息分离,它对信息检索、文本挖掘、情感分析等都有重要作用。该文主要对汉语否定信息中的触发词识别和覆盖域识别进行研究,采用双向长短期记忆网络结合条件随机场(BiLSTM-CRF)为模型,预训练的词向量为输入特征对触发词进行识别,在此基础上添加已知触发词特征 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向语言信息处理的藏语短语及其分类方法研究
摘要短语作为语言分析的一个层次,占有十分重要的位置。有效的短语分析对降低其后句法分析的难度,缩小句法分析器的搜索空间,提高机器翻译的翻译正确率是很有帮助的。而目前面向信息处理的藏语短语的研究刚刚起步,有待于进一步发展。该文在藏语短语与藏语句子的界线研究的基础上,根据藏语信息处理的特点和要求,按照语法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于文体和词表的突发事件信息抽取研究
摘要非结构化数据的结构化任务是大数据环境下管理信息系统面临的新课题。该文从文体的角度研究自由文本的特性,提出了从Web新闻中抽取突发事件属性的方法,该方法首先分析研究了Web文本和新闻文体的特征,利用GoogleWord2Vec对领域专家构建的词表进行扩展,针对突发事件的不同属性制定了不同的抽取方法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02异质信息网络中基于元路径的社团发现算法研究
摘要实际的网络化数据往往包含多种类型的对象和关系,采用异质信息网络可以更好地对其建模,因此异质信息网络分析逐渐成为数据挖掘的研究热点。虽然同质信息网络中的社团发现已经被深入研究,但是异质信息网络中的社团发现还很少被研究。该文研究异质信息网络中的社团发现问题,提出了一个新的社团发现算法框架HCD(he ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于Bi-tagged特征的维吾尔文情感分类方法研究
摘要现有的维吾尔文文本情感分类方法以从空格分词中得到的unigram特征作为文本表示,因而无法挖掘与情感表达相关的深层语言现象。该文从维吾尔文词汇之间的顺序依赖关系入手,总结若干个词性组合规则,提取能够表达丰富情感信息的Bi-tagged特征,并基于支持向量机(SVM)分类器对维吾尔文情感语料库进行 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02蒙古文信息检索系统的设计与实现
摘要该文针对传统蒙古文与西里尔蒙古文设计开发了一个功能完备的信息检索系统。在网页抓取方面,采用MD5算法对爬虫进行了改进,提升了爬虫的速度。在预处理阶段,对蒙古文文档进行了编码转换、词缀切分转换等操作。在检索方面,使用向量空间模型实现了对蒙古文文档的检索。在该文系统中加入了西里尔蒙古文到传统蒙古文转 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向拓片信息的甲骨字网络构建与分析
摘要未识甲骨字的考释是甲骨文研究最重要的内容,也是历史学家和计算机学家研究甲骨文遇到的最大瓶颈。甲骨文研究积累的数据已体现出海量化和系统化。因此,该文以甲骨文拓片为基础数据,通过建模定义甲骨字之间的距离,进而构建甲骨字网络。在此网络之上,分析网络的度分布、局部连接比率、聚类系数、模块度等相关特性。结 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02结合短语结构句法的语义角色标注
摘要该文提出一种结合短语结构句法的语义角色标注方法。结合短语结构句法对句子进行剪枝、子句抽取处理,然后,对处理过的句子进行语义角色分析并还原。最后,结合短语树对还原后的论元边界进行修正。其中,剪枝包括并列结构、插入语的剪枝,子句抽取针对不同形式的子句有不同的处理方式。边界修正主要是针对某些类型论元进 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合先验信息的蒙汉神经网络机器翻译模型
摘要神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果。神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示。该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02