摘要对于句子级别的神经机器翻译,由于不考虑句子所处的上下文信息,往往存在句子语义表示不完整的问题。该文通过依存句法分析,对篇章中的每句话提取有效信息,再将提取出的信息,补全到源端句子中,使得句子的语义表示更加完整。该文在汉语-英语语言对上进行了实验,并针对篇章语料稀少的问题,提出了在大规模句子级别的平行语料上的训练方法。相比于基准系统,该文提出的方法获得了1.47个BLEU值的提高。实验表明,基于补全信息的篇章级神经机器翻译,可以有效地解决句子级别神经机器翻译语义表示不完整的问题。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2999
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于补全信息的篇章级神经机器翻译
本站小编 Free考研考试/2022-01-02
相关话题/信息 神经 实验 汉语 语言
基于句内注意力机制多路CNN的汉语复句关系识别方法
摘要复句的关系识别是对分句间语义关系的甄别,是复句语义分析的关键,旨在从文本中识别句间的关系类型。非充盈态汉语复句存在隐式关系的特点给语义关系识别造成了困难。为了深度挖掘复句中隐含的语义信息,正确地实现关系分类,该文提出了一种基于句内注意力机制的多路CNN网络结构Inatt-MCNN。其中句内注意力 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据扩充的翻译记忆库与神经机器翻译融合方法
摘要神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于文献链接信息分析的科技资源风险评估
摘要文献中的链接将文献与数据、代码、文档、网页等科技资源相关联,资源链接引用的上下文信息反映了科研活动中科研主体与科技资源形成的关系。该文通过对文献中的链接信息进行细粒度分析,提出了一种对其关联的科技资源种类和引用目的进行知识建模的方法,并在大规模文献数据集上进行了实证。同时从国内外科技资源的利用情 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于BERT的任务导向对话系统自然语言理解的改进模型与调优方法
摘要任务导向对话系统的自然语言理解,其目的就是解析用户以自然语言形式输入的语句,并提取出可以被计算机所理解的结构化信息,其包含意图识别和槽填充两个子任务。BERT是近期提出来的一种自然语言处理预训练模型,已有研究者提出基于BERT的任务导向对话系统自然语言理解模型。在此基础上,该文提出一种改进的自然 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于答案及其上下文信息的问题生成模型
摘要基于文本的问题生成是从给定的句子或段落中生成相关问题。目前,主要采用序列到序列的神经网络模型来研究包含答案的句子生成问题,然而这些方法存在以下问题:①生成的疑问词与答案类型不匹配;②问题与答案的相关性不强。该文提出一个基于答案及其上下文信息的问题生成模型。该模型首先根据答案与上下文信息的关系确定 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究
摘要古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于关系对齐的汉语虚词抽象语义表示与分析
摘要虚词具有丰富的语法意义,对句子理解起着不可或缺的作用。虚词的语言学研究成果丰富,但缺乏形式化表示,无法直接被计算机利用。为了表示虚词的句法语义信息,该文首先在抽象语义表示(abstractmeaningrepresentation,AMR)这种基于概念图的语义表示方法的基础上,增加了词语和概念关 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种轻量级的汉语语义角色标注规范
摘要作为主流的浅层语义表示形式,语义角色标注一直是自然语言处理领域的研究热点之一。目前学术界已有的语义角色标注规范(PropBank规范和北大规范)主要存在三个问题:①基于片段的论元表示让标注难度加大;②PropBank中谓词框架的定义难度较大;③北大规范缺乏省略论元的标注。经过充分调研,该文尝试融 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于GAN模型优化的神经机器翻译
摘要在机器翻译任务中,输入端的一些微小的干扰信息,可能引起NMT的模型翻译性能的下降。该文提出了一种融入对抗学习的神经机器翻译方法。给出一个源句子序列,构造了一个将源句子添加了微小噪声的新序列,并且两者的语义相近。然后把这两个序列交由编码器处理,产生各自的向量表示;并将处理结果交给判别器和解码器做进 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究
摘要文本阅读难度自动分级是让计算机能够根据文本特征自动判断文本所属的难度级别,该文以此为目标,提出一种基于多元语言特征与深度特征相融合的方法来实现对文本难度的自动分级。其中多元语言特征考虑了汉字、词汇、句子等不同的语言层面,同时涉及到频率、长度、复杂度、丰富度、连贯度等不同维度的信息。另一方面,该文 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02