删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于词向量预训练的不平衡文本情绪分类

本站小编 Free考研考试/2022-01-02

摘要深度学习中处理不平衡问题的方法多为代价敏感和采样。该文在词向量迁移的基础上提出预训练任务选择方法。用利于小类别区分的预训练词向量来初始化目标模型,并结合均衡过采样充分利用样本信息保持模型在大类别上的精度,使模型提取的文本特征在大小类别上具有公平性,从特征层面实现了平衡效果。实验结果表明,在文本情绪分类任务中,对比过采样方法,该方法在大部分无严重过拟合情况下有更好的平衡效果。当存在较严重过拟合时,该方法在目标分类数为三时平衡效果显著,并通过实验验证了预训练方法可与代价敏感方法相结合提升平衡性能。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2773
相关话题/实验 信息 方法 向量 模型

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于领域知识的增强约束词向量
    摘要词向量是一种词语的数字化的表达。基于神经网络模型,利用语料中词语之间的上下文关系这一约束条件,通过大量训练得到词向量。词向量在表达词的语义上的表现给人以无限的希望与想象空间,基于词向量的文本分类、人机对话、智能检索等得到了广泛的研究。该文针对校园信息查询的特定应用,建立了所涉及词语的分类本体,除 ...
    本站小编 Free考研考试 2022-01-02
  • 注意力的端到端模型生成藏文律诗
    摘要文本自动撰写在自然语言处理中是一个重要的研究领域,可通过人工智能的方法来提升文本的生成结果。目前主流的生成方法是基于深度学习的方法,而该文则提出了一种基于注意力的端到端模型生成藏文律诗法。该方法基本框架是一个双向LSTM的编码—解码模型,在此基础上引入了藏文字嵌入、注意力机制和多任务学习法。实验 ...
    本站小编 Free考研考试 2022-01-02
  • 基于混合表示的中文事件检测方法研究
    摘要传统中文事件检测方法采用人工定义的特征表示候选触发词,耗时耗力。基于神经网络的特征学习方法在中英文事件检测任务中得到了验证。现有的基于神经网络的中文事件检测方法初步探索了字信息对解决分词错误的作用。字是中文的最小结构单元和语义表示单元。词语的字符级信息能够提供词语的结构性信息和辅助词语级语义。该 ...
    本站小编 Free考研考试 2022-01-02
  • 基于卷积神经网络与篇章结构的足球新闻自动生成方法
    摘要当前的足球比赛新闻通常是由专家或记者手工撰写的,足球比赛新闻的手工写作既费时又低效。随着在线直播平台与社交媒体的流行,体育网络直播脚本大幅增加,但网络直播脚本通常只记载一场比赛的流水,具有冗长且重点模糊的特性,不适宜于赛后直接阅读。为了解决以上问题,在比赛之后,可以基于直播脚本撰写和发布足球比赛 ...
    本站小编 Free考研考试 2022-01-02
  • 基于声学音素向量和孪生网络的二语者发音偏误确认
    摘要随着自动大规模语音识别的不断发展,以自动语音识别为基础的计算机辅助发音教学也随之进步,作为传统教学方法的补充,它极大地弥补了传统教育资源不足以及传统教育方法无法及时给学习者反馈的缺陷。二语学习者的发音偏误确认和评价在计算机辅助发音训练中是较为重要的研究课题之一。针对二语者发音偏误的确认任务中缺少 ...
    本站小编 Free考研考试 2022-01-02
  • 面向问答文本的属性分类方法
    摘要属性分类是属性级情感分析中的一个重要任务。该任务旨在对文本包含的某些具体属性进行自动分类。已有的属性分类方法研究基本都是面向新闻、评论等文本类型。与已有研究不同的是,该文的研究主要面向问答文本的属性分类任务。针对问答文本的属性分类问题,该文提出了一种多维文本表示的方法。首先,该方法进行中文句子切 ...
    本站小编 Free考研考试 2022-01-02
  • 基于宏观语义表示的宏观篇章关系识别方法
    摘要宏观篇章分析旨在分析相邻段落或段落群之间的语义联系,是自然语言处理领域其他任务的工作基础。该文研究了宏观篇章分析中的关系识别问题,提出了一个宏观篇章关系识别模型。该模型利用基于词向量的宏观篇章语义表示方法和适用于宏观篇章关系识别的结构特征,从两个层面提高了模型分辨宏观篇章关系的能力。在汉语宏观篇 ...
    本站小编 Free考研考试 2022-01-02
  • 一种针对成分树的混合神经网络模型
    摘要为了提高自然语言处理的准确度,很多工作将句法成分树与LSTM相结合,提出了各种针对成分树的LSTM模型(文中用C-TreeLSTM统称这类模型)。考虑到C-TreeLSTM模型在计算内部节点隐藏状态的过程中,由于一个重要信息来源(即单词)的缺失导致文本建模的准确度不高,该文提出一种针对成分树的混 ...
    本站小编 Free考研考试 2022-01-02
  • 神经机器翻译中英语单词及其大小写联合预测模型
    摘要英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方式是抽取包含大小写的词表,但这种方式扩大了词表,增加了模型参数。该文提出了一 ...
    本站小编 Free考研考试 2022-01-02
  • 面向神经机器翻译的集成学习方法分析
    摘要集成学习是一种联合多个学习器进行协同决策的机器学习方法,应用在机器翻译任务的推断过程中可以有效整合多个模型预测的概率分布,达到提升翻译系统准确性的目的。虽然该方法的有效性已在机器翻译评测中得到了广泛验证,但关于子模型的选择与融合的策略仍鲜有研究。该文主要针对机器翻译任务中的参数平均与模型融合两种 ...
    本站小编 Free考研考试 2022-01-02