删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

融合字词模型的中文命名实体识别研究

本站小编 Free考研考试/2022-01-02

摘要命名实体识别(NER)是自然语言处理中一项非常重要的基础任务。传统的机器学习方法在处理该任务时,主要依赖于人们的专业领域知识和人工提取的特征。为了在不需要人工特征的条件下获得较好的结果,该文提出了一种融合字词BiLSTM模型的命名实体识别方法。首先分别用BiLSTM-CRF训练得到基于字的模型Char-NER和基于词的模型Word-NER,然后将两个模型得到的分值向量进行运算和拼接,将拼接后的向量作为特征送入SVM进行训练,使用SVM对Char-NER和Word-NER进行模型融合。实验结果表明,该方法在不需要人工特征的条件下,在1998年《人民日报》语料和MSRA语料上对人名、地名、机构名识别的F值分别达到了94.04%、92.15%、87.05%和91.73%、93.20%、83.15%。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2865
相关话题/实验 知识 基础 模型 语料

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 中文医学知识图谱CMeKG构建初探
    摘要医学知识图谱是智慧医疗应用的基石,可以为机器阅读理解医学文本、智能咨询、智能诊断提供知识基础。现有的医学知识图谱从规模化、规范化、体系性、形式化等方面还不足以满足智慧医疗应用的需求。此外,对复杂医学知识的精准描述更是构建医学知识图谱面临的重要挑战。针对上述问题,该文利用自然语言处理与文本挖掘技术 ...
    本站小编 Free考研考试 2022-01-02
  • 面向知识库问答的实体链接方法
    摘要面向知识库问答的实体链接是指将自然语言问句中实体指称链接到知识库中实体的方法。目前主要面临两个问题:第一是自然语言问句短,实体指称上下文不充分;第二是结构化知识库中实体的文本描述信息少。因此,该文提出了分别利用候选实体的类别、关系和邻近实体作为候选实体表示的方法,弥补知识库实体描述信息不足的问题 ...
    本站小编 Free考研考试 2022-01-02
  • 会议场景下融合外部词典知识的领域个性化机器翻译方法
    摘要会议场景下通过语音识别和机器翻译技术实现从演讲人语音到另外一种语言文字的翻译,对于跨语言信息交流具有重要意义,成为当前研究热点之一。该文针对由于会议行业属性带来的专业术语和行业用语的翻译问题,提出了一种融合外部词典知识的领域个性化方法。具体而言,首先采用联合占位符和拼接融合的编码策略,通过引入外 ...
    本站小编 Free考研考试 2022-01-02
  • 基于Gate-ResNet-D模型的远程监督关系提取方法
    摘要在实体关系抽取任务中,通常采用远程监督(distantsupervision,DS)数据集,远程监督方法能通过大规模语料库自动标注数据来扩张数据集,但这无疑会使数据集充满大量的噪声。为此,该文将深度残差网络(deepresidualnetwork,ResNet)应用到关系提取的远程监督数据集上, ...
    本站小编 Free考研考试 2022-01-02
  • MCA-Reader:基于多重联结机制的注意力阅读理解模型
    摘要机器阅读理解是当下自然语言处理的一个热门任务,其内容是:在给定文本的基础上,提出问题,机器要在给定文本中寻找并给出最终问题的答案。片段抽取式阅读理解是当前机器阅读理解研究的一个典型的方向,机器通过预测答案在文章中的起始和结束位置来定位答案。在此过程中,注意力机制起着不可或缺的作用。该文为了更好地 ...
    本站小编 Free考研考试 2022-01-02
  • 融合注意力机制的多通道卷积与双向GRU模型的文本情感分析研究
    摘要文本情感分析作为自然语言处理领域的一大分支,具有非常高的研究价值。该文提出了一种基于多通道卷积与双向GRU网络的情感分析模型。该模型首先使用多通道卷积神经网络对文本不同粒度的特征信息进行提取,提取后的特征信息经过融合送入双向GRU中,结合注意力机制获得文本的上下文情感特征,最后由分类器给出文本的 ...
    本站小编 Free考研考试 2022-01-02
  • 基于膨胀卷积神经网络模型的中文分词方法
    摘要目前,许多深度神经网络模型以双向长短时记忆网络结构处理中文分词任务,存在输入特征不够丰富、语义理解不全、计算速度慢的问题。针对以上问题,该文提出一种基于膨胀卷积神经网络模型的中文分词方法。通过加入汉字字根信息并用卷积神经网络提取特征来丰富输入特征;使用膨胀卷积神经网络模型并加入残差结构进行训练, ...
    本站小编 Free考研考试 2022-01-02
  • 一种基于小字典不对等语料的跨语言词嵌入方法
    摘要双语词嵌入通常采用从源语言空间到目标语言空间映射,通过源语言映射嵌入到目标语言空间的最小距离线性变换实现跨语言词嵌入。然而大型的平行语料难以获得,词嵌入的准确率难以提高。针对语料数量不对等、双语语料稀缺情况下的跨语言词嵌入问题,该文提出一种基于小字典不对等语料的跨语言词嵌入方法,首先对单语词向量 ...
    本站小编 Free考研考试 2022-01-02
  • 基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究
    摘要词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾 ...
    本站小编 Free考研考试 2022-01-02
  • 基于置信度的藏文人名识别的主动学习模型研究
    摘要训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(activelearning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示:选择置 ...
    本站小编 Free考研考试 2022-01-02