摘要神经机器翻译(NMT)模型通常具有庞大的参数量,例如,Transformer在词表设为3万时有将近1亿的神经元,模型的参数量越大,模型越难优化,且存储模型的资源需求也越高。该文提出了一种压缩方法,用于将复杂且参数量大的NMT模型压缩为精简参数量小的NMT模型。该文同时提出半知识蒸馏方法和递进式半知识蒸馏方法,其中半知识蒸馏是从参数多、性能好的教师模型中获取半部分的权重作为精简、参数少的学生模型训练的起点;递进式半知识蒸馏方法指运用过一次半知识蒸馏方法压缩以后,再把当前的半知识蒸馏压缩的模型作为新的教师模型,再次运用半知识蒸馏方法得到全压缩模型。在广泛使用的中英和日英数据集上进行实验,结果表明,该方法对NMT系统有积极影响。在日英数据集上,该文方法的最佳性能比基准模型高2.16个BLEU值,比词级别知识蒸馏方法高1.15个BLEU值,并且高于句子级别的知识蒸馏方法0.28个BLEU值。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3086
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于递进式半知识蒸馏的神经机器翻译
本站小编 Free考研考试/2022-01-02
相关话题/知识 数据 优化 资源 神经
基于神经自回归分布估计的涉案新闻主题模型构建方法
摘要神经主题模型能有效获取文本的深层语义特征,但现有的神经主题模型忽略了外部知识对获取主题分布的帮助。因此,针对涉案主题分析任务,该文提出了一种基于神经自回归分布估计的涉案新闻主题模型构建方法。以案件要素作为外部知识对iDocNADEe模型进行了扩展,通过计算案件要素与主题词的相关度来构建注意力机制 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合通道特征的混合神经网络文本分类模型
摘要基于卷积神经网络与循环神经网络的混合文本分类模型通常使用单通道词嵌入。单通道词嵌入空间维度低,特征表示单一,导致一维卷积神经网络不能充分学习文本的空间特征,影响了模型的性能。因此,该文提出一种融合通道特征的混合神经网络文本分类模型。该模型使用了双通道词嵌入丰富文本表示,增加了空间维度,在卷积的过 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于知识拷贝机制的生成式对话模型
摘要基于“编码—解码”结构的端到端生成式对话模型所生成的回复多样性差、信息量少,这在很大程度上阻碍了对话的进一步扩展和深入。而知识图谱作为一种高度结构化的知识,能够为对话提供相关知识以及话题转移关系,可以用来提升对话质量。因此,该文提出了一种基于知识拷贝机制的生成式对话模型,首先使用基于知识图谱的映 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合多特征的分段卷积神经网络对象级情感分类方法
摘要对象级情感分类旨在判断句子中特定对象的情感极性类别。在现有基于卷积神经网络的研究中,常在模型的池化层采用最大池化操作提取文本特征作为句子表示,该操作未考虑由对象所划分的上下文,因此无法得到更细粒度的对象上下文特征。针对该问题,该文提出一种融合多特征的分段卷积神经网络(multi-featurep ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于树形语义框架的神经语义解析方法
摘要语义解析的目标是将自然语言表达映射为机器可理解的逻辑表达,该任务的关键挑战在于难以刻画自然语言中蕴含的组合语义。目前,结合深度神经网络模型的语义解析方法已经成为该领域的主流方法,该类方法通常采用编码器—解码器框架,通过设计树形结构的解码器或者在解码器中添加语法限制,从语法层面上提升逻辑表达生成的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种融入实体描述的自适应知识表示模型
摘要知识表示学习旨在在连续的低维向量空间中表示知识图谱的实体和关系,但是现有的表示模型大多仅利用三元组的结构信息,而忽略了具有丰富语义的实体描述信息。为此,该文提出了一种基于实体描述的联合表示模型(jointrepresentationbasedonentitydescriptions,JRED)。 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于大规模语料库的现代汉语动宾搭配知识库构建
摘要汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要。各种搭配中,动宾搭配能够反映句子轮廓,并在数量和多样性方面具有优势地位,故该文聚焦于构建现代汉语动宾搭配知识库,以期为自然语言 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02结合平移关系嵌入和CNN的知识图谱补全
摘要为解决基于翻译机制的知识图谱补全模型在处理复杂关系时的性能局限,该文提出一种ATREC(algorithmbasedontransitionalrelationembeddingviaCNN)算法,将三元组的实体和关系映射至低维向量空间,并将不同的关系特征与头/尾实体融合,将原始三元组和融合三元 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于神经网络融合标签相关性的多标签情感预测研究
摘要近年来,多标签分类任务(MLC)受到了广泛关注。传统的情感预测被视为一种单标签的监督学习,而忽视了多种情感可能在同一实例中共存的问题。以往的多标签情感预测方法没有同时提取文本的局部特征和全局语义信息,或未考虑标签之间的相关性。基于此,该文提出了一种基于神经网络融合标签相关性的多标签情感预测模型( ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于多源知识图谱融合的智能导诊算法
摘要患者网上挂号时常有挂错科室的现象,因此需要科室推荐应用,功能类似线下医院的护士台预诊。然而,由于医院科室设置不尽相同,患者各项特征和科室之间的关系也不明确,给自动科室推荐带来挑战。因此,该文首先定义了带权重的知识图谱,用于描述症状、疾病以及性别等特征与科室和医院之间复杂的量化关系。其次,利用区域 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02