删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

训练语料的不同利用方式对神经机器翻译模型的影响

本站小编 Free考研考试/2022-01-02

摘要神经机器翻译(NMT)是近两年刚出现的一种新型机器翻译方法,是一种端到端的翻译模型。目前,影响NMT模型效果的因素有很多,其一,当训练语料规模较大时,梯度下降更新方法会对机器的内存要求很高,因此大多研究工作中采用随机梯度下降(SGD)的方法来更新模型的训练参数,即每输入一定数量(批:batch)的训练样例,就利用局部的训练样例更新一次模型参数;其二,参数dropout可以防止系统训练时出现过拟合,提高系统泛化能力;其三,数据打乱(shuffle)也对翻译结果有着重要影响。因此,该文的研究内容主要是探索批、dropout和打乱这三个因素在训练神经机器翻译模型中对模型翻译质量的影响,并得出以下三条结论: 一是批的大小将影响神经机器翻译(NMT)模型的收敛速度,二是dropout可以提升神经机器翻译模型的性能,三是数据打乱可以在一定程度上提升神经机器翻译(NMT)系统的翻译质量。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2615
相关话题/神经 翻译 系统 质量 数据

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于RNN和CNN的蒙汉神经机器翻译研究
    摘要该文探讨了基于RNN和CNN的蒙汉神经机器翻译模型,分别采用蒙古语的词模型、切分模型和子词模型作为翻译系统的输入信号,并与传统的基于短语的SMT进行了比较分析。实验结果表明,子词模型可以有效地提高RNNNMT和CNNNMT的翻译质量。同时实验结果也表明,基于RNN的蒙汉NMT模型的翻译性能已经超 ...
    本站小编 Free考研考试 2022-01-02
  • 基于门控循环神经网络词性标注的蒙汉机器翻译研究
    摘要统计机器翻译可以通过统计方法预测出目标词,但没有充分理解原文语义关系,因而得到的译文质量不高。针对该问题,利用一种基于门控单元循环神经网络结构来对蒙汉神经机器翻译系统进行建模,引入注意力机制来获取双语词语的对齐信息,并在构建字典过程中对双语词语进行词性标注来强化语义,以此来缓解因欠训练导致的错译 ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据增强技术的神经机器翻译
    摘要神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模 ...
    本站小编 Free考研考试 2022-01-02
  • 蒙古文信息检索系统的设计与实现
    摘要该文针对传统蒙古文与西里尔蒙古文设计开发了一个功能完备的信息检索系统。在网页抓取方面,采用MD5算法对爬虫进行了改进,提升了爬虫的速度。在预处理阶段,对蒙古文文档进行了编码转换、词缀切分转换等操作。在检索方面,使用向量空间模型实现了对蒙古文文档的检索。在该文系统中加入了西里尔蒙古文到传统蒙古文转 ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据并行的神经语言模型多卡训练分析
    摘要数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIATITANX(Pascal)GPU设备在循环 ...
    本站小编 Free考研考试 2022-01-02
  • 面向领域的高质量微博用户发现
    摘要在微博系统中,寻找高质量微博用户进行关注是获取高质量信息的前提。该文研究高质量微博用户发现问题,即给定领域词查询,系统根据用户质量返回相关用户排序列表。将该问题分解成两个子问题:一是领域相关用户的检索问题,二是微博用户排序问题。针对用户检索问题,提出了基于用户标签的用户表示方法以及基于维基百科的 ...
    本站小编 Free考研考试 2022-01-02
  • 融合先验信息的蒙汉神经网络机器翻译模型
    摘要神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果。神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示。该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法 ...
    本站小编 Free考研考试 2022-01-02
  • 基于卷积神经网络的缅甸语分词方法
    摘要音节是缅甸语的最小构词单位。当前主流的基于统计的分词方法效果严重依赖于预先标注的训练样本集规模及人工方式选取特征的质量,然而,缅甸语属于稀缺资源语言,分词语料标注及特征选取面临较大困难。该文提出一种基于卷积神经网络的缅甸语分词方法,首先将缅甸语音节结构特征应用于缅甸语音节词向量特征分布式表示,然 ...
    本站小编 Free考研考试 2022-01-02
  • 基于统计的蒙汉机器翻译中词对齐方法研究
    摘要蒙古语属于小语种,蒙古语到汉语机器翻译相关研究进展缓慢。所以,实现高质量的蒙汉机器翻译对我国少数民族地区信息化发展有着重要意义。其中,词语对齐对机器翻译质量起着至关重要的作用。该文提出了一种基于蒙古语切分的词干词缀为基本单位的蒙汉机器翻译词对齐方法。该方法利用词干词缀表和逆向最大匹配算法来实现蒙 ...
    本站小编 Free考研考试 2022-01-02
  • 基于CNN词根形态选择模型的改进蒙汉机器翻译研究
    摘要随着科学技术的发展,以循环神经网络为基础的机器翻译方法由于翻译质量更好而逐渐取代统计机器翻译方法,特别是在国际大语种之间的互译方面,RNN在对语料编码时能够提取更好的特征,这对翻译质量好坏至关重要。然而在蒙古语这类小语种的翻译方面,由于语料不足导致的数据稀疏和RNN模型训练梯度消失等问题,很难从 ...
    本站小编 Free考研考试 2022-01-02