删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

融合词典特征的Bi-LSTM-WCRF中文人名识别

本站小编 Free考研考试/2022-01-02

摘要受限于标注语料的领域和规模以及类别不均衡,中文人名识别性能偏低。相比人名识别训练语料,人名词典获取较为容易,利用词典提升人名识别性能有待进一步研究。该文提取人名词典特征,融入到双向长短期记忆(Bi-LSTM)网络模型中,在损失函数中提高人名标签权重,设计加权条件随机场(WCRF)。从人名词典中获取姓和名相关的特征信息,Bi-LSTM网络捕获句子中上下文信息,WCRF提高人名识别的召回率。在《人民日报》语料和工程法律领域语料上进行实验,结果表明: 在领域测试语料上,与基于隐马尔可夫模型的方法相比,人名识别的F1值提高18.34%,与传统Bi-LSTM-CRF模型相比,召回率提高15.53%,F1提高8.83%。WCRF还可以应用到其他类别不均衡的序列标注或分类问题中。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2932
相关话题/网络 信息 序列 测试 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于非对称孪生网络的新闻与案件相关性分析
    摘要新闻与案件的相关性分析是法律领域新闻舆情分析的重要环节,可转化为新闻文本与案件文本的相似度计算任务。借助孪生网络计算文本相似度是一种有效途径,其对平衡样本具有良好的学习能力,但在新闻与案件的相关性计算中面临文本不平衡和新闻文本冗余的问题,因此,该文提出了基于非对称孪生网络的新闻与案件相关性计算方 ...
    本站小编 Free考研考试 2022-01-02
  • 基于隐含主题协同注意力网络的领域分类方法
    摘要基于注意力机制的神经网络模型在文本分类任务中显示出了很好的效果。然而当训练数据的规模有限,或者测试数据与训练数据的分布有较大差异时,一些有价值的信息词很难在训练中被模型捕捉到。为此,该文提出了一种新的基于协同注意力(co-attention)网络的领域分类方法。该文利用隐含主题模型学习隐含主题注 ...
    本站小编 Free考研考试 2022-01-02
  • 基于稳健词素序列和LSTM的维吾尔语短文本分类
    摘要维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的。其中,词干是有实际意义的词汇单元,词缀提供语法功能。该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短文本分类技术。用基于词-词素平行训练语料的稳健词素切分和词干提取方法,从互联网下载的文本中提取其词干,以此构建词干序列文本语料 ...
    本站小编 Free考研考试 2022-01-02
  • 基于transformer神经网络的汉蒙机构名翻译研究
    摘要机构名翻译是机器翻译的研究内容之一,在机器翻译任务中机构名翻译的准确度,直接影响着翻译性能。在很多任务上,神经机器翻译性能优于传统的统计机器翻译性能,该文中使用基于transformer神经网络模型与传统的基于短语的统计机器翻译模型和改进后的基于语块的机器翻译模型做了对比试验。实验结果表明,在汉 ...
    本站小编 Free考研考试 2022-01-02
  • 基于胶囊网络的药物相互作用关系抽取方法
    摘要药物相互作用是指药物之间存在的抑制或促进等作用。针对目前药物关系抽取模型在长语句中抽取效果较差以及高层特征信息丢失的问题,该文提出了一种结合最短依存路径的胶囊网络关系抽取模型,该方法首先根据原语句解析出两个药物之间的最短依存路径,然后利用双向长短期记忆网络分别获取原语句和最短依存路径的低层语义表 ...
    本站小编 Free考研考试 2022-01-02
  • 融入丰富信息的高性能神经实体链接
    摘要歧义的存在使得实体链接任务需要大量信息的支撑。已有研究主要使用两类信息,即实体表述所在的文本信息和外部的知识库信息。但已有研究对信息的使用存在以下两个问题:首先,最新通用知识库规模更大、覆盖面更广,但目前的实体链接模型却未从中受益,其性能没有得到相应提升;其次,表述所在的文本信息既包含表述所处的 ...
    本站小编 Free考研考试 2022-01-02
  • 基于循环卷积神经网络的藏文句类识别
    摘要句子是语言的最小使用单位,句类识别是为了进一步细化句法和句义研究。由于藏文句尾通常没有特殊的标点符号来识别不同句类,因此这一藏文语言特性就变成了一大难题。该文提出了基于语境和功能特征为一体的句子用途分类方案。首先,该文介绍了文法中藏文句子分类及其特征。其次,收集了大量藏文句子并对其进行了人工标注 ...
    本站小编 Free考研考试 2022-01-02
  • 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
    摘要在神经机器翻译中,因词表受限导致的集外词问题很大程度上影响了翻译系统的准确性。对于训练语料较少的资源稀缺型语言的神经机器翻译,这种问题表现得更为严重。近几年,受到外部知识融入的启发,该文在RNNSearch模型基础上,提出了一种融入分类词典的汉越混合网络神经机器翻译集外词处理方法。对于给定的源语 ...
    本站小编 Free考研考试 2022-01-02
  • 基于多通道双向长短期记忆网络的情感分析
    摘要当前存在着大量的语言知识和情感资源,但在基于深度学习的情感分析研究中,这些特有的情感信息,没有在情感分析任务中得到充分利用。针对以上问题,该文提出了一种基于多通道双向长短期记忆网络的情感分析模型(multi-channelsbidirectionallongshorttermmemorynetw ...
    本站小编 Free考研考试 2022-01-02
  • 神经网络机器翻译研究热点与前沿趋势分析
    摘要机器翻译是指利用计算机将一种语言文本转换成具有相同语义的另一种语言文本的过程。它是人工智能领域的一项重要研究课题。近年来,随着深度学习研究和应用的快速发展,神经网络机器翻译成为机器翻译领域的重要发展方向。该文首先简要介绍近一年神经网络机器翻译在学术界和产业界的影响,然后对当前的神经网络机器翻译的 ...
    本站小编 Free考研考试 2022-01-02