删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向非任务型对话系统的人工标注中文数据集

本站小编 Free考研考试/2022-01-02

摘要该文针对非任务导向型对话的回复质量构建了一个大规模的人工标注中文数据集,该数据集包含了从社交媒体收集到的超过27 000个对话问题以及超过82 000个对话问题的回复。为了产生高质量的标注数据,邀请了专业人员根据对话回复的相关性、连贯性、信息性、趣味性,以及是否潜在地具有让对话继续延续的特性进行标注,在标注中定义了一个五级评分方法,分别是: 极差的、较差的、一般的、较好的、极好的。为了测试标注产生的数据集是否具有有效性和实用性,以对话回复选择为任务,在标注数据集上测试了多种无监督和有监督模型。实验结果表明,该数据集对于提升对话回复选择的质量有显著效果。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2727
相关话题/数据 质量 测试 媒体 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 利用领域外数据对口语风格短文本的相近语种识别研究
    摘要该文以维吾尔语和哈萨克语这一组相近语言为例,在哈语语料受限的情况下,使用领域外语料增补原始语料,经同化后提高了在口语风格短文本上进行语种识别的精确度。该文分析了维、哈两种语言的词形学特点,设计了多种特征,构建了一个最大熵分类器,在测试集上识别维语和哈语口语风格短文本的精确度达到95.7%,而CN ...
    本站小编 Free考研考试 2022-01-02
  • 一种基于数据重构和富特征的神经网络机器阅读理解模型
    摘要该文描述了ZWYC团队在“2018机器阅读理解技术竞赛”上提出的机器理解模型。所提出模型将机器阅读理解问题建模成连续文本片段抽取问题,提出基于富语义特征的神经交互网络模型。为了充分使用答案标注信息,模型首先对数据进行细致的重构,让人工标注的多个答案信息都能融合到数据中。通过特征工程,对每个词构建 ...
    本站小编 Free考研考试 2022-01-02
  • 地理社会网络数据可视化分析研究综述
    摘要随着移动互联网与社会网络的深度融合,基于位置服务(LocationBasedService,LBS)的社交媒体应用更加流行,成为地理社会网络(Geo-SocialNetworks,GSN)的研究重点。基于位置信息的社会网络(LocationBasedSocialNetwork,LBSN)由于具有 ...
    本站小编 Free考研考试 2022-01-02
  • 适应多领域多来源文本的汉语依存句法数据标注规范
    摘要近十年来,依存句法分析由于具有表示形式简单、灵活、分析效率高等特点,得到了学术界广泛关注。为了支持汉语依存句法分析研究,国内同行分别标注了几个汉语依存句法树库。然而,目前还没有一个公开、完整、系统的汉语依存句法数据标注规范,并且已有的树库标注工作对网络文本中的特殊语言现象考虑较少。为此,该文充分 ...
    本站小编 Free考研考试 2022-01-02
  • 基于社交媒体的企业行为事件挖掘
    摘要社交媒体快速发展,越来越多的企业利用它发布信息,这些信息具有重要的商业和研究价值。但是社交媒体数据具有强噪音、多类型、多主题等特点,这导致企业行为演化分析面临巨大挑战。为此,该文提出了一种企业行为识别及演化分析的方法。首先利用识别方法对企业信息进行行为识别,然后再运用已识别企业行为数据进行企业行 ...
    本站小编 Free考研考试 2022-01-02
  • 利用准私密社交网络文本数据检测抑郁用户的可行性分析
    摘要社交媒体的发展为抑郁用户的检测提供了一条新的途径。已有的相关研究通常是利用用户在Twitter、微博等社交网络平台上的用户行为数据或公开发表的文本内容,较少有利用微信朋友圈、QQ空间这种相对比较私密的社交网络数据。直观地,这类准私密社交网络数据更能反映用户的心理健康状况。该文主要讨论利用准私密社 ...
    本站小编 Free考研考试 2022-01-02
  • 跨数据源论文集成
    摘要该文研究跨数据源的论文集成问题,旨在将不同数据源中的同一论文匹配起来。该文提出了两个算法来解决论文匹配的问题,第一个算法(MHash)利用哈希算法来加速匹配,第二个算法(MCNN)利用卷积神经网络(CNN)来提高匹配的准确率。实验表明,结合论文的各种属性,MHash能够在快速得到匹配结果的同时, ...
    本站小编 Free考研考试 2022-01-02
  • 神经机器翻译中数据泛化与短语生成方法研究
    摘要该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨 ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据增强技术的神经机器翻译
    摘要神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模 ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据并行的神经语言模型多卡训练分析
    摘要数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIATITANX(Pascal)GPU设备在循环 ...
    本站小编 Free考研考试 2022-01-02