摘要该文针对2018机器阅读理解技术竞赛提出一个基于双向注意流(BiDAF)BiDAF的阅读理解模型,实作于DuReader中文问答数据集。该文观察到基线系统采用与问题最相近的段落,作为预测的筛选条件,而改以完整段落来预测答案,结果证实优于原方法。并利用fastText训练词向量以强化上下文信息,最后通过集成学习优化结果,提升效能与稳定性。此外,针对DuReader的是非类题型,该文集成两个分类模型,分别基于注意力机制(attention)与相似性机制(similarity)来预测答案类别。该模型最终在“2018机器阅读理解技术竞赛”的评比中得到了ROUGE-L 56.57与 BLEU-4 48.03。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2675
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
D-Reader:一种以全文预测的阅读理解模型
本站小编 Free考研考试/2022-01-02
相关话题/技术 中文 数据 系统 优化
地理社会网络数据可视化分析研究综述
摘要随着移动互联网与社会网络的深度融合,基于位置服务(LocationBasedService,LBS)的社交媒体应用更加流行,成为地理社会网络(Geo-SocialNetworks,GSN)的研究重点。基于位置信息的社会网络(LocationBasedSocialNetwork,LBSN)由于具有 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02适应多领域多来源文本的汉语依存句法数据标注规范
摘要近十年来,依存句法分析由于具有表示形式简单、灵活、分析效率高等特点,得到了学术界广泛关注。为了支持汉语依存句法分析研究,国内同行分别标注了几个汉语依存句法树库。然而,目前还没有一个公开、完整、系统的汉语依存句法数据标注规范,并且已有的树库标注工作对网络文本中的特殊语言现象考虑较少。为此,该文充分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-022018机器阅读理解技术竞赛总体报告
摘要机器阅读理解是自然语言处理和人工智能领域的前沿课题,“2018机器阅读理解技术竞赛”旨在推动相关技术研究和应用的发展。竞赛发布了最大规模的中文阅读理解数据集,提供了先进的开源基线系统,采用改进的自动评价指标,吸引了国内外千余支队伍参与,参赛系统效果提升显著。该文详细介绍技术竞赛的总体情况、竞赛设 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于TDNN-FSMN的蒙古语语音识别技术研究
摘要为了提高蒙古语语音识别性能,该文首先将时延神经网络融合前馈型序列记忆网络应用于蒙古语语音识别任务中,通过对长序列语音帧建模来充分挖掘上下文相关信息;此外研究了前馈型序列记忆网络“记忆”模块中历史信息和未来信息长度对模型的影响;最后分析了融合的网络结构中隐藏层个数及隐藏层节点数对声学模型性能的影响 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种基于局部—全局主题关系的演化式摘要系统
摘要带有时间标志的演化式摘要是近年来提出的自然语言处理任务,其本质是多文档自动文摘,它的研究对象是互联网上连续报道的热点新闻文档。针对互联网新闻事件报道的动态演化、动态关联和信息重复等特点,该文提出了一种基于局部—全局主题关系的演化式摘要方法,该方法将新闻事件划分为多个不同的子主题,在考虑时间演化的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02利用准私密社交网络文本数据检测抑郁用户的可行性分析
摘要社交媒体的发展为抑郁用户的检测提供了一条新的途径。已有的相关研究通常是利用用户在Twitter、微博等社交网络平台上的用户行为数据或公开发表的文本内容,较少有利用微信朋友圈、QQ空间这种相对比较私密的社交网络数据。直观地,这类准私密社交网络数据更能反映用户的心理健康状况。该文主要讨论利用准私密社 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02跨数据源论文集成
摘要该文研究跨数据源的论文集成问题,旨在将不同数据源中的同一论文匹配起来。该文提出了两个算法来解决论文匹配的问题,第一个算法(MHash)利用哈希算法来加速匹配,第二个算法(MCNN)利用卷积神经网络(CNN)来提高匹配的准确率。实验表明,结合论文的各种属性,MHash能够在快速得到匹配结果的同时, ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向中文网络评论情感分类的集成学习框架
摘要该文针对中文网络评论情感分类任务,提出了一种集成学习框架。首先针对中文网络评论复杂多样的特点,采用词性组合模式、频繁词序列模式和保序子矩阵模式作为输入特征。然后采用基于信息增益的随机子空间算法解决文本特征繁多的问题,同时提高基分类器的分类性能。最后基于产品属性构造基分类器算法综合评论文本中每个属 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文嵌套命名实体识别语料库的构建
摘要嵌套命名实体含有丰富的实体和实体间语义关系,有助于提高信息抽取的效率。由于缺少统一的标准中文嵌套命名实体语料库,目前中文嵌套命名实体的研究工作难于比较。该文在已有命名实体语料的基础上采用半自动化方法构建了两个中文嵌套命名实体语料库。首先利用已有中文命名实体语料库中的标注信息自动地构造出尽可能多的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02大规模中文实体情感知识的自动获取
摘要目前中文情感分析的主要资源以情感词典为主,缺乏针对实体或属性的情感知识资源。该文主要研究如何从大规模文本语料中自动获取实体情感知识。在该文方法中,用情感表达组合来表示实体情感知识。首先,基于二部图排序算法对情感表达组合候选集合进行排序。然后,提出了一种基于语义相似的提炼算法对于排序靠后的表达组合 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02