删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于迭代式回译策略的藏汉机器翻译方法研究

本站小编 Free考研考试/2022-01-02

摘要该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在 Transformer 神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3049
相关话题/翻译 资源 语言 数据 系统

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于粗糙数据推理的TextRank关键词提取算法
    摘要基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩 ...
    本站小编 Free考研考试 2022-01-02
  • 语言知识驱动的词嵌入向量的可解释性研究
    摘要神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨。该文应用基于语言知识 ...
    本站小编 Free考研考试 2022-01-02
  • 汉语委婉语语言资源建设
    摘要委婉语是语言交流中不可或缺的交际手段,委婉语研究一直是语言学界的热门话题之一,但在自然语言处理领域,尚未有委婉语相关研究。该文借助现有纸质词典,基于语料库检索和专家人工判别的方式,初步构建了规模为63000余条语料的汉语委婉语语言资源;并根据自然语言处理的相关任务需求,结合词典释义对委婉语进行分 ...
    本站小编 Free考研考试 2022-01-02
  • 神经机器翻译前沿综述
    摘要机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。该文选取了近期神经机器翻译的几个主要研究领域,包括同声传译、多模态机器翻译、非自回 ...
    本站小编 Free考研考试 2022-01-02
  • 融合图像注意力的多模态机器翻译模型
    摘要已有工作表明,融入图像视觉语义信息可以提升文本机器翻译模型的效果。已有的工作多数将图片的整体视觉语义信息融入到翻译模型,而图片中可能包含不同的语义对象,并且这些不同的局部语义对象对解码端单词的预测具有不同程度的影响和作用。基于此,该文提出一种融合图像注意力的多模态机器翻译模型,将图片中的全局语义 ...
    本站小编 Free考研考试 2022-01-02
  • 基于补全信息的篇章级神经机器翻译
    摘要对于句子级别的神经机器翻译,由于不考虑句子所处的上下文信息,往往存在句子语义表示不完整的问题。该文通过依存句法分析,对篇章中的每句话提取有效信息,再将提取出的信息,补全到源端句子中,使得句子的语义表示更加完整。该文在汉语-英语语言对上进行了实验,并针对篇章语料稀少的问题,提出了在大规模句子级别的 ...
    本站小编 Free考研考试 2022-01-02
  • Q2SM: 基于BERT的多领域任务型对话系统状态跟踪算法
    摘要基于管道的方法是目前任务型对话系统的主要构建方式,在工业界具有广泛应用,而对话状态跟踪(dialoguestatetracking,DST)是任务型对话系统中的核心任务。面对传统的方法在多领域场景下表现较差的问题,该文结合语言模型预训练的最新研究成果,该文提出了一种基于BERT的对话状态跟踪算法 ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据扩充的翻译记忆库与神经机器翻译融合方法
    摘要神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标 ...
    本站小编 Free考研考试 2022-01-02
  • 基于历时语料库的在线词典编纂系统设计
    摘要语料库语言学是借助大规模语料库对语言现象进行发现、挖掘的学科,目前已经存在很多在线语料库辅助语言学的研究。该文提供了一个按时间分片进行管理的语料库,并基于此提出了一个由社区维护的在线词典编纂系统,该系统将语料库查询结果动态结合在被编辑的词条中。该文还介绍了一个多义词词义发现和层次化聚类算法,用以 ...
    本站小编 Free考研考试 2022-01-02
  • 基于文献链接信息分析的科技资源风险评估
    摘要文献中的链接将文献与数据、代码、文档、网页等科技资源相关联,资源链接引用的上下文信息反映了科研活动中科研主体与科技资源形成的关系。该文通过对文献中的链接信息进行细粒度分析,提出了一种对其关联的科技资源种类和引用目的进行知识建模的方法,并在大规模文献数据集上进行了实证。同时从国内外科技资源的利用情 ...
    本站小编 Free考研考试 2022-01-02