删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

神经机器翻译中数据泛化与短语生成方法研究

本站小编 Free考研考试/2022-01-02

摘要该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨论和说明。针对数据泛化的处理方法,提出了一致性检测方法和解码优化方法。由于标准的神经机器翻译模型以词汇为基础进行翻译建模,因此该文提出了一种规模可控的短语生成方法,通过使用该文方法生成的源语言短语,神经机器翻译的翻译性能进一步提高。最终,在汉英和英汉翻译任务上,翻译性能与基线翻译系统相比分别提高了1.3和1.2个BLEU值。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2614
相关话题/翻译 数据 神经 优化 基础

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于RNN和CNN的蒙汉神经机器翻译研究
    摘要该文探讨了基于RNN和CNN的蒙汉神经机器翻译模型,分别采用蒙古语的词模型、切分模型和子词模型作为翻译系统的输入信号,并与传统的基于短语的SMT进行了比较分析。实验结果表明,子词模型可以有效地提高RNNNMT和CNNNMT的翻译质量。同时实验结果也表明,基于RNN的蒙汉NMT模型的翻译性能已经超 ...
    本站小编 Free考研考试 2022-01-02
  • 训练语料的不同利用方式对神经机器翻译模型的影响
    摘要神经机器翻译(NMT)是近两年刚出现的一种新型机器翻译方法,是一种端到端的翻译模型。目前,影响NMT模型效果的因素有很多,其一,当训练语料规模较大时,梯度下降更新方法会对机器的内存要求很高,因此大多研究工作中采用随机梯度下降(SGD)的方法来更新模型的训练参数,即每输入一定数量(批:batch) ...
    本站小编 Free考研考试 2022-01-02
  • 基于门控循环神经网络词性标注的蒙汉机器翻译研究
    摘要统计机器翻译可以通过统计方法预测出目标词,但没有充分理解原文语义关系,因而得到的译文质量不高。针对该问题,利用一种基于门控单元循环神经网络结构来对蒙汉神经机器翻译系统进行建模,引入注意力机制来获取双语词语的对齐信息,并在构建字典过程中对双语词语进行词性标注来强化语义,以此来缓解因欠训练导致的错译 ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据增强技术的神经机器翻译
    摘要神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模 ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据并行的神经语言模型多卡训练分析
    摘要数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIATITANX(Pascal)GPU设备在循环 ...
    本站小编 Free考研考试 2022-01-02
  • 融合先验信息的蒙汉神经网络机器翻译模型
    摘要神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果。神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示。该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法 ...
    本站小编 Free考研考试 2022-01-02
  • 基于卷积神经网络的缅甸语分词方法
    摘要音节是缅甸语的最小构词单位。当前主流的基于统计的分词方法效果严重依赖于预先标注的训练样本集规模及人工方式选取特征的质量,然而,缅甸语属于稀缺资源语言,分词语料标注及特征选取面临较大困难。该文提出一种基于卷积神经网络的缅甸语分词方法,首先将缅甸语音节结构特征应用于缅甸语音节词向量特征分布式表示,然 ...
    本站小编 Free考研考试 2022-01-02
  • 基于统计的蒙汉机器翻译中词对齐方法研究
    摘要蒙古语属于小语种,蒙古语到汉语机器翻译相关研究进展缓慢。所以,实现高质量的蒙汉机器翻译对我国少数民族地区信息化发展有着重要意义。其中,词语对齐对机器翻译质量起着至关重要的作用。该文提出了一种基于蒙古语切分的词干词缀为基本单位的蒙汉机器翻译词对齐方法。该方法利用词干词缀表和逆向最大匹配算法来实现蒙 ...
    本站小编 Free考研考试 2022-01-02
  • 基于循环神经网络的藏语语音识别声学模型
    摘要探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网 ...
    本站小编 Free考研考试 2022-01-02
  • 基于CNN词根形态选择模型的改进蒙汉机器翻译研究
    摘要随着科学技术的发展,以循环神经网络为基础的机器翻译方法由于翻译质量更好而逐渐取代统计机器翻译方法,特别是在国际大语种之间的互译方面,RNN在对语料编码时能够提取更好的特征,这对翻译质量好坏至关重要。然而在蒙古语这类小语种的翻译方面,由于语料不足导致的数据稀疏和RNN模型训练梯度消失等问题,很难从 ...
    本站小编 Free考研考试 2022-01-02