删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于多卷积核DPCNN的维吾尔语文本分类联合模型

本站小编 Free考研考试/2022-01-02

摘要由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通过组合池化的CNN进一步加强局部语义学习,同时以双通道的方式使用多卷积核DPCNN捕获文本语义信息,最后融合两种模型提取到的信息完成文本分类任务。为验证该模型的有效性,该文分别采用中文、英文和维吾尔文短、长文本数据集进行实验,实验结果表明,该模型在多个分类任务中取得的性能都高于现有主流深度学习模型,验证了该模型在不同语种、语义表达稀疏和语义丰富各种情况下的鲁棒性。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3162
相关话题/信息 实验 数据 英文 中文

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 面向专业领域的多头注意力中文分词模型——以西藏畜牧业为例
    摘要专业领域语料往往比通用领域语料涵盖更多未登录词,如西藏畜牧业领域语料包含大量直接音译或者合成的人名、地名、牲畜名、牧草名等未登录词,是造成分词准确率低的最主要原因。针对该问题,该文提出面向专业领域的多头注意力机制中文分词模型,该模型把字向量表示的语句作为输入,利用双向门控循环神经网络与多头注意力 ...
    本站小编 Free考研考试 2022-01-02
  • 面向中文成语的阅读理解方法研究
    摘要在自然语言处理领域,全局注意力机制通过考虑编码器的所有隐藏状态来捕获信息,从而帮助预测结果。然而在理解汉语成语这种复杂的语言现象时,模型往往会因特定语境的干扰而产生错误的决定和认知。因此,为了使模型更好地感知成语在不同语境下的语法功能,该文提出了一种增强型的全局注意力机制,通过对每个位置空间产生 ...
    本站小编 Free考研考试 2022-01-02
  • 多目标情感分类中文数据集构建及分析研究
    摘要目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身 ...
    本站小编 Free考研考试 2022-01-02
  • CDCPP:跨领域中文标点符号预测
    摘要在中文文本特别是在社交媒体及问答领域文本中,存在非常多的标点符号错误或缺失的情况,这严重影响对文本进行语义分析及机器翻译等各项自然语言处理的效果。当前对标点符号进行预测的相关研究多集中于英文对话的语音转写文本,缺少对社交媒体及问答领域文本进行标点符号预测的相关研究,也没有这些领域公开的数据集。该 ...
    本站小编 Free考研考试 2022-01-02
  • CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法
    摘要由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能。CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测, ...
    本站小编 Free考研考试 2022-01-02
  • 聚合邻域信息的联合知识表示模型
    摘要知识表示学习在关系抽取、自动问答等自然语言处理任务中获得了广泛关注,该技术旨在将知识库中的实体与关系表示为稠密低维实值向量。然而,已有的模型在建模知识库中的三元组时,或是忽略三元组的邻域信息,导致无法处理关联知识较少的罕见实体,或是在引入邻域信息时不能自适应地为每个实体抽取最相关的邻节点属性,导 ...
    本站小编 Free考研考试 2022-01-02
  • 基于深度学习的中文生物医学实体关系抽取系统
    摘要在生物医学文本挖掘领域,生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺,这给中文生物医学领域的信息抽取任务带来许多挑战。该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料,结合翻译技术和人工标注方法构建了中文生物医学 ...
    本站小编 Free考研考试 2022-01-02
  • 基于部分标签数据和经验分布的命名实体识别
    摘要近年来,基于数据驱动的命名实体识别方法在新闻、生物医疗等领域上取得了很大的成功,然而许多领域缺少标签,且人工标注成本高昂。为了降低标注成本,该文尝试使用含有噪声的部分标签数据进行命名实体识别,提出了一种基于部分标签数据和经验分布的方法。首先介绍基于部分标签数据的建模方法,然后引入标签经验分布的假 ...
    本站小编 Free考研考试 2022-01-02
  • 融合粗细粒度信息的长答案选择神经网络模型
    摘要答案选择是问答系统中的关键技术之一,而长答案选择在社区问答系统、开放域问答系统等非实体问答系统中有着重要地位。该文提出了一个结合粗粒度(句子级别)和细粒度(单词或n元单词级)信息的模型,缓解了传统句子建模方式应用于长答案选择时不能把握住句子的全部重要信息的不足和使用比较-聚合框架处理该类问题时不 ...
    本站小编 Free考研考试 2022-01-02
  • 基于视觉-语义中间综合属性特征的图像中文描述生成算法
    摘要图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少。图像视觉信息在图像描述算法中没有得到足够的重视 ...
    本站小编 Free考研考试 2022-01-02