删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向文本数据的正则化交叉验证方法

本站小编 Free考研考试/2022-01-02

摘要面向文本数据建模时,交叉验证方法是特征选择及模型比较任务中的常用方法。许多研究表明,文本数据模型的性能估计对交叉验证的数据切分方式较为敏感,不合理的切分方式可能会导致不稳定的性能估计值,使得实验结果可复现性差。该文试图论证基于多次重复(m次)的2折交叉验证,通过引入对训练集、验证集分布差异的约束,所构造的正则化m×2交叉验证方法(简记为m×2 BCV)可以改善模型的性能指标的估计,适宜于模型比较。该文首先针对文本数据引入训练集与验证集分布差异的卡方度量,基于该度量构建数据切分的正则化条件,以最大化模型性能指标的信噪比为目标,给出了满足正则化条件的m×2 BCV的数据切分优化算法。最后,以自然语言处理中汉语框架语义角色标注任务为例,验证了基于m×2 BCV方法的有效性。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2765
相关话题/数据 实验 优化 汉语 切分

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 面向非任务型对话系统的人工标注中文数据集
    摘要该文针对非任务导向型对话的回复质量构建了一个大规模的人工标注中文数据集,该数据集包含了从社交媒体收集到的超过27000个对话问题以及超过82000个对话问题的回复。为了产生高质量的标注数据,邀请了专业人员根据对话回复的相关性、连贯性、信息性、趣味性,以及是否潜在地具有让对话继续延续的特性进行标注 ...
    本站小编 Free考研考试 2022-01-02
  • 利用领域外数据对口语风格短文本的相近语种识别研究
    摘要该文以维吾尔语和哈萨克语这一组相近语言为例,在哈语语料受限的情况下,使用领域外语料增补原始语料,经同化后提高了在口语风格短文本上进行语种识别的精确度。该文分析了维、哈两种语言的词形学特点,设计了多种特征,构建了一个最大熵分类器,在测试集上识别维语和哈语口语风格短文本的精确度达到95.7%,而CN ...
    本站小编 Free考研考试 2022-01-02
  • 汉语逻辑补足义标注框架研究
    摘要逻辑补足义是指附加在以谓词为中心的基本命题成分之上的否定、程度、时体、模态和语气等,具体表现为逻辑语义算子对谓词的语义约束关系,是基本命题成分所表达语义关系的有效补充。在句子中,逻辑补足义所表达的语义是句子深度语义理解的重要层面。该文以深层语义理解为目标,在逻辑补足义已有的研究基础上,建立了否定 ...
    本站小编 Free考研考试 2022-01-02
  • 面向ELAN软件的手语汉语平行语料库构建
    摘要建立手语汉语平行语料库的目的是用于机器翻译和语言对比研究,并且能够系统地保存手语资源,保护手语和聋人文化。手语汉语平行语料库存储的内容主要包括手语视频、被采集者信息和标注者信息,以及通过多媒体标注软件ELAN转写的十四层标注信息,包括手控和非手控信息。该文采用基于向量空间的余弦相似性算法,实现了 ...
    本站小编 Free考研考试 2022-01-02
  • 面向多领域多来源文本的汉语依存句法树库构建
    摘要为了支持汉语句法分析研究,目前句法分析领域已经标注了多个汉语依存句法树库。然而,已有树库主要针对较规范文本,而对各种网络文本如博客、微博、微信等考虑较少。为此,该文基于近期研制的标注规范及可视化在线标注系统,开展了大规模数据标注。聘请了15名兼职标注者,并采用严格的标注流程保证标注质量,目前,已 ...
    本站小编 Free考研考试 2022-01-02
  • 采用Stack-Tree LSTM的汉语一体化依存分析模型
    摘要在汉语一体化依存分析中,如何利用分词、词性标注和句法分析的中间结果作为分析特征成为核心问题,也是三个任务相互制约协调、共同提高性能的关键所在。目前无论基于特征工程的方法还是基于深度学习的方法尚无法充分利用分析过程中依存子树的完整信息,而依存子树作为中间结果的主要成分对三个任务的后续分析具有重要的 ...
    本站小编 Free考研考试 2022-01-02
  • 基于古汉语语料的新词发现方法
    摘要新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步。该文提出一种基于古汉语料的新词识别方法,称为AP-LSTM-CRF算法。该算法分为三个步骤。第一步,基于ApacheSpark分布式并行计算框架实现的并行化的Apriori改进算法,能够高效地从大规模原始语料中产生 ...
    本站小编 Free考研考试 2022-01-02
  • 子字粒度切分在蒙汉神经机器翻译中的应用
    摘要在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果。该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究。通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成相对高频的子字片段,来缓解数据稀疏问题,从而在有限的数据和硬件资源条件下, ...
    本站小编 Free考研考试 2022-01-02
  • 基于BiLSTM-CRF模型的汉语否定信息识别
    摘要否定信息识别是将自然语言中的肯定信息与否定信息分离,它对信息检索、文本挖掘、情感分析等都有重要作用。该文主要对汉语否定信息中的触发词识别和覆盖域识别进行研究,采用双向长短期记忆网络结合条件随机场(BiLSTM-CRF)为模型,预训练的词向量为输入特征对触发词进行识别,在此基础上添加已知触发词特征 ...
    本站小编 Free考研考试 2022-01-02
  • 一种基于数据重构和富特征的神经网络机器阅读理解模型
    摘要该文描述了ZWYC团队在“2018机器阅读理解技术竞赛”上提出的机器理解模型。所提出模型将机器阅读理解问题建模成连续文本片段抽取问题,提出基于富语义特征的神经交互网络模型。为了充分使用答案标注信息,模型首先对数据进行细致的重构,让人工标注的多个答案信息都能融合到数据中。通过特征工程,对每个词构建 ...
    本站小编 Free考研考试 2022-01-02