基于短语替换的汉越伪平行句对生成

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-01-02

摘要神经机器翻译在语料丰富的语种上取得了良好的翻译效果,但是在汉语-越南语这类双语资源稀缺的语种上性能不佳,通过对现有小规模双语语料进行词级替换生成伪平行句对可以较好地缓解此类问题。考虑到汉越词级替换中易存在一词多译问题,该文对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成方法。利用小规模双语语料进行短语抽取构建短语对齐表,并通过在维基百科中抽取的实体词组对其进行扩充,在对双语数据的汉语和越南语分别进行短语识别后,利用短语对齐表中与识别出的短语相似性较高的短语对进行替换,以此实现短语级的数据增强,并将生成的伪平行句对与原始数据一起训练最终的神经机器翻译模型。在汉-越翻译任务上的实验结果表明,通过短语替换生成的伪平行句对可以有效提高汉-越神经机器翻译的性能。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3175

相关话题/神经 翻译 数据 汉语 资源

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
一种面向句子的汉英口语翻译自动评分方法
摘要该文提出一种面向句子的汉英口语翻译自动评分方法,选取语义关键词、句子大意和口语流利度作为评分的主要参数。为了提高关键词评分的准确度,该文使用同义词辨析方法,识别考生答题关键词中的同义词;在句子层面,使用可伸展递归自编码(unfoldingrecursiveauto-encoder,URAE)神经 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于双通道图神经网络的小样本文本分类
摘要小样本文本分类任务同时面临两个主要问题:①样本量少,易过拟合;②在元学习框架的任务形式下,监督信息被进一步稀疏化。近期工作中,利用图神经网络建模样本的全局信息表示(fullcontextembedding)成为小样本学习领域中一种行之有效的方法,但将其迁移至小样本文本分类任务,由于文本多噪声,且 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
多目标情感分类中文数据集构建及分析研究
摘要目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
译文质量估计中基于Transformer的联合神经网络模型
摘要译文质量估计作为机器翻译中的一项重要任务,在机器翻译的发展和应用中发挥着重要的作用。该文提出了一种简单有效的基于Transformer的联合模型用于译文质量估计。该模型由Transformer瓶颈层和双向长短时记忆网络组成,Transformer瓶颈层参数利用双语平行语料进行初步优化,模型所有参 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于重解码的神经机器翻译方法研究
摘要基于Transformer的序列转换模型是当前性能最优的机器翻译模型之一。该模型在生成机器译文时,通常从左到右逐个生成目标词,这使得当前位置词的生成不能利用译文中该词之后未生成词的信息,导致机器译文解码不充分从而降低译文质量。为了缓解上述问题,该文提出了基于重解码的神经机器翻译模型,该模型将已生 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于ECPA神经网络的情绪原因识别方法
摘要情绪原因识别是文本情绪分析领域中的一个前沿研究方向。传统情绪原因识别方法需要进行规则制定、抽取特征,而该文从情绪原因的语言特点出发,结合Bi-LSTM模型和注意力机制,提出一种基于情绪上下文位置注意力神经网络的情绪原因识别方法(ECPA)。该方法考虑了情绪词和情绪类别中的情绪信息,学习了Bi-L ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于图神经网络和语义知识的自然语言推理任务研究
摘要自然语言推理任务的目的是推断两个句子之间的语义逻辑关系。该文通过模仿人类的推理过程构造模型,首先利用长短时记忆网络提取词的语境特征,模仿人类粗读句子的过程;然后依据外部语义知识,连接两个句子中有语义联系的词,构造一个以词为节点的语义图;接下来模仿人类比较两个句子的语义角色相似性的思维,用图卷积或 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于字符卷积神经网络的生物医学变异实体识别方法
摘要从海量生物医学文献中挖掘变异信息对生物医学复杂疾病研究具有重要意义。在当前的变异实体识别方法中,基于条件随机场模型的方法取得了不错效果并成为主流方法,但存在需要大量特征工程来提升模型性能的缺点。针对此问题,该文提出一种基于字符卷积神经网络的变异实体识别方法CharCNN-CNN-CRF。该方法首 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
融合注意力LSTM的神经张量分解推荐模型
摘要针对结合深度学习模型的协同过滤算法未考虑关联数据的多维交互随时间动态变化的问题,该文提出一种融合时间交互学习和注意力长短期记忆网络的张量分解推荐模型(LA-NTF)。通过采用基于注意力机制的长短期记忆网络从项目文本信息中提取项目的潜在向量,然后使用融合注意力机制的长短期记忆网络来表征用户—项目关 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
融合卷积神经网络与双向GRU的文本情感分析胶囊模型
摘要文本情感分析是自然语言处理领域一个重要的分支。现有深度学习方法不能更为全面地提取文本情感特征,且严重依赖于大量的语言知识和情感资源,需要将这些特有的情感信息充分利用使模型达到最佳性能。该文提出了一种融合卷积神经网络与双向GRU网络的文本情感分析胶囊模型。该模型首先使用多头注意力学习单词间的依赖关 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02

基于短语替换的汉越伪平行句对生成

本站小编 Free考研考试/2022-01-02

相关话题/神经 翻译 数据 汉语 资源

相关话题/神经翻译数据汉语资源