删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于深度学习的中文短语复述抽取技术研究

本站小编 Free考研考试/2022-01-02

摘要复述抽取是自然语言处理任务中的一个重要分支,高质量的复述资源对于提升信息检索、问答系统、机器翻译等任务的效果有很大帮助。该文将任务限定在中文短语复述抽取,提出了基于2BiLSTM+CNN+CRF的序列标注模型,用于单语中文语料短语划分,通过若干过滤规则获取优质中文短语。之后又提出了基于表示学习的候选复述获取方法,通过BattRAE模型获取中文短语向量表示,并使用余弦相似度计算短语间的语义距离。该文根据语义距离对短语对进行过滤,将语义距离相近的短语视作候选的复述短语,再通过规则过滤掉错误的候选复述。在最后的结果中,随机抽取出500条短语复述资源进行人工评价,达到了0.814的精确度以及0.826的MRR值。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3087
相关话题/中文 资源 系统 计算 序列

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 中文词汇增长研究
    摘要词汇增长研究能够分析文本的TTR在不同时期的变化,该文选取1954—2018年的中国政府工作报告为语料,分析文本中词例与词种的曲线变化,挖掘政府工作报告中的词汇丰富度与政策的相互关系。该文首先对语料进行了分词,然后根据曲线拟合效果选择拟合更好的Heaps模型进行预测。以中国的“五年计划”作为基础 ...
    本站小编 Free考研考试 2022-01-02
  • 基于序列模型的单文档标题生成研究
    摘要中文单文档摘要是把一篇文档压缩成一个更短描述的过程。随着互联网数据量的增长,文档压缩技术对文本分析、数据浏览等有着重大的应用价值。但在基于序列模型的单文档单句摘要生成即标题生成领域中仍然存在数据使用率不高的问题。该文提出基于关键信息指导的标题生成算法。算法中的关键信息除了主流方法中使用的新闻首段 ...
    本站小编 Free考研考试 2022-01-02
  • 一种基于门控空洞卷积的高效中文命名实体识别方法
    摘要近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致GPU的并行计算能力无法被充分利用。普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险。针对以上问题,该文采用可通过参数调节感受野范围的空洞卷积,并引入 ...
    本站小编 Free考研考试 2022-01-02
  • 基于Transformer网络的中文单字词检错方法研究
    摘要错别字自动识别是自然语言处理中一项重要的研究任务,在搜索引擎、自动问答等应用中具有重要价值。尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低。该文提出了一种基于Transformer网络的中文单字词检错方法。首先,该文通过充分 ...
    本站小编 Free考研考试 2022-01-02
  • 基于篇章主题的中文宏观篇章主次关系识别方法
    摘要篇章分析是自然语言处理领域研究的热点和重点。作为篇章分析的任务之一,篇章主次关系研究篇章的主要和次要内容,从而更好地理解和把握篇章的核心内容。该文重点研究宏观领域的中文篇章主次关系,提出了一种基于篇章主题的中文宏观篇章主次关系识别方法。该方法利用篇章单元间、篇章单元与篇章主题间的语义交互来识别主 ...
    本站小编 Free考研考试 2022-01-02
  • 部首感知的中文医疗命名实体识别
    摘要人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移 ...
    本站小编 Free考研考试 2022-01-02
  • 一个面向中文古诗词理解难易度的人工标注数据集
    摘要向读者推荐阅读难度合适的古诗词有助于提升读者的诗词鉴赏能力。现阶段,围绕古诗词可读性自动化分析的相关研究的突出局限之一是缺乏大规模高质量的数据集。针对该问题,该文研究面向古诗词可读性自动化分析的数据集构建。该文作者对外开放了包含1915篇古诗词的标注阅读理解难度的数据集①。该文首先将数据集划分成 ...
    本站小编 Free考研考试 2022-01-02
  • 精细化的中文词性标注评测集的研制
    摘要该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5873句、涵盖了2326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精 ...
    本站小编 Free考研考试 2022-01-02
  • 基于长时间跨度语料的词义演变计算研究
    摘要该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两类方法展开研究,计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语。针对历时语料上不同时间段的词向量对齐 ...
    本站小编 Free考研考试 2022-01-02
  • 汉语委婉语语言资源建设
    摘要委婉语是语言交流中不可或缺的交际手段,委婉语研究一直是语言学界的热门话题之一,但在自然语言处理领域,尚未有委婉语相关研究。该文借助现有纸质词典,基于语料库检索和专家人工判别的方式,初步构建了规模为63000余条语料的汉语委婉语语言资源;并根据自然语言处理的相关任务需求,结合词典释义对委婉语进行分 ...
    本站小编 Free考研考试 2022-01-02