摘要中文单文档摘要是把一篇文档压缩成一个更短描述的过程。随着互联网数据量的增长,文档压缩技术对文本分析、数据浏览等有着重大的应用价值。但在基于序列模型的单文档单句摘要生成即标题生成领域中仍然存在数据使用率不高的问题。该文提出基于关键信息指导的标题生成算法。算法中的关键信息除了主流方法中使用的新闻首段句子之外,还包括新闻后续内容中有实质信息的句子,以及新闻中的重点词语。该算法将这些关键信息作为序列模型的输入,指导其生成标题,使得生成的标题能够覆盖更多的新闻信息。实验表明,在基于序列模型生成标题时,使用关键信息能够提升新闻标题生成的效果。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3073
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于序列模型的单文档标题生成研究
本站小编 Free考研考试/2022-01-02
相关话题/信息 新闻 数据 序列 中文
一种基于门控空洞卷积的高效中文命名实体识别方法
摘要近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致GPU的并行计算能力无法被充分利用。普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险。针对以上问题,该文采用可通过参数调节感受野范围的空洞卷积,并引入 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于命名实体敏感的分层新闻故事线生成方法
摘要社会网络中海量、无序且碎片化的新闻数据,使得人们无法从细粒度感知新闻事件,更无法多视角把握事件发展脉络。为了解决这个问题,该文提出基于命名实体敏感的分层新闻故事线生成方法,在无监督的情况下,充分利用新闻信息构造层次化、多视点的事件脉络。该方法主要通过以下3个步骤实现:①基于事件主题信息与隐式语义 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于Transformer网络的中文单字词检错方法研究
摘要错别字自动识别是自然语言处理中一项重要的研究任务,在搜索引擎、自动问答等应用中具有重要价值。尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低。该文提出了一种基于Transformer网络的中文单字词检错方法。首先,该文通过充分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于篇章主题的中文宏观篇章主次关系识别方法
摘要篇章分析是自然语言处理领域研究的热点和重点。作为篇章分析的任务之一,篇章主次关系研究篇章的主要和次要内容,从而更好地理解和把握篇章的核心内容。该文重点研究宏观领域的中文篇章主次关系,提出了一种基于篇章主题的中文宏观篇章主次关系识别方法。该方法利用篇章单元间、篇章单元与篇章主题间的语义交互来识别主 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02部首感知的中文医疗命名实体识别
摘要人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一个面向中文古诗词理解难易度的人工标注数据集
摘要向读者推荐阅读难度合适的古诗词有助于提升读者的诗词鉴赏能力。现阶段,围绕古诗词可读性自动化分析的相关研究的突出局限之一是缺乏大规模高质量的数据集。针对该问题,该文研究面向古诗词可读性自动化分析的数据集构建。该文作者对外开放了包含1915篇古诗词的标注阅读理解难度的数据集①。该文首先将数据集划分成 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向临床科研的医疗事件模型与开放数据集合构建
摘要基于电子病历观察性数据的真实世界研究成为目前临床科研的热点。然而关系数据模型无法直接支撑起科研应用中医疗事件的时序关系表示以及知识融合的查询需求。针对上述问题,该文提出了一种新的基于RDF的医疗观察性数据表示模型,该模型可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。对来源于 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于地理空间数据的知识图谱构建技术研究
摘要随着3S技术迅猛发展,地理空间数据呈现出爆发式增长趋势,基于地理空间数据构建知识图谱,实现数据到空间知识的转换成为亟待解决的科学问题。针对通用知识图谱仅以属性和语义关系表示空间知识,以及空间关系相对缺失等问题,该文首先描述了空间关系的表示方法;其次,提出了基于空间关系的知识图谱构建技术流程,重点 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02精细化的中文词性标注评测集的研制
摘要该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5873句、涵盖了2326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于粗糙数据推理的TextRank关键词提取算法
摘要基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02