摘要神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模只有10万平行句对时,相较于基准系统,在两种语言对上均获得了4个BLEU值的提高。实验表明,数据增强技术可以有效地解决神经机器翻译因为训练数据太少而导致的泛化能力不足问题。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2595
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于数据增强技术的神经机器翻译
本站小编 Free考研考试/2022-01-02
相关话题/数据 神经 实验 语言 技术
基于数据并行的神经语言模型多卡训练分析
摘要数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIATITANX(Pascal)GPU设备在循环 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02在线技术社区的用户技能与兴趣发现
摘要在线技术社区是技术爱好者或者从业者进行技术交流、咨询和分享的重要平台。社区运营者如果能够准确掌握每个用户的技能和兴趣,对用户进行画像,将有助于为用户提供精准的推荐和个性化服务,从而增加用户的黏性和社区的活跃度。考虑到社区用户既是内容的生产者(作者)又是内容的消费者(读者),生产者体现用户技能,消 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合先验信息的蒙汉神经网络机器翻译模型
摘要神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果。神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示。该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于卷积神经网络的缅甸语分词方法
摘要音节是缅甸语的最小构词单位。当前主流的基于统计的分词方法效果严重依赖于预先标注的训练样本集规模及人工方式选取特征的质量,然而,缅甸语属于稀缺资源语言,分词语料标注及特征选取面临较大困难。该文提出一种基于卷积神经网络的缅甸语分词方法,首先将缅甸语音节结构特征应用于缅甸语音节词向量特征分布式表示,然 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中亚语言自然语言处理综述
摘要该文对中亚地区属于同一个语族的土耳其语、哈萨克语等诸语言的自然语言处理现状进行了综述。首先分别回顾土耳其语、哈萨克语和其他中亚语言在词法分析、句法分析、命名实体识别、机器翻译方面的研究进展,随后讨论了与具体语言无关的黏着语词法分析方面的研究情况,最后指出国内外中亚诸语言处理自然语言领域中所面临的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于循环神经网络的藏语语音识别声学模型
摘要探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02试题知识点预测:一种教研知识强化的卷积神经网络模型
摘要在各类在线学习系统中,为了给学生提供优质的学习服务,一个基础性的任务是试题知识点预测,即预测一道试题所考察的知识概念、能力等。在这个任务中,已有方法通常基于人工专家标注或者传统机器学习方法。然而,这些传统方法要么耗时耗力,要么仅关注试题资源的浅层特征,忽略了试题文本和知识点之间的深层语义关联。因 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于子字单元的神经机器翻译未登录词翻译分析
摘要神经机器翻译为机器翻译提供了一种全新的方法,在多对语言之间的翻译质量上,已超过了统计机器翻译,并逐渐成为当前机器翻译的主流方向。未登录词翻译是神经机器翻译的主要难点之一。为了消解未登录词,一种可行的方案是采用BytePairEncoding(BPE)方法。该方法在翻译前将原有的单词拆解为更小粒度 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02儿童外语学习认知数据收集的在线游戏框架
摘要近年来,人工智能技术飞速发展,不少工作试图从人类的认知发展过程中探索前进方向,语言学习认知的过程成为了重点关注的研究领域。已有的语言认知研究工作主要集中在学龄前儿童母语的词汇学习认知方面,依赖于WordBank①等大规模语料库。然而就我们所知,目前在第二语言学习方面研究不多,尚未有大规模的第二语 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于最长名词短语分治策略的神经机器翻译
摘要神经机器翻译自兴起以来,不断给机器翻译领域带来振奋人心的消息。但神经机器翻译没有显式地利用语言学知识对句子结构进行分析,因此对结构复杂的长句翻译效果不佳。该文基于分治法的思想,识别并抽取句子中的最长名词短语,保留特殊标识或核心词,与其余部分组成句子框架。通过神经机器翻译系统分别翻译最长名词短语和 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02