融合小句对齐知识的汉英神经机器翻译
苗国义1, 刘明童2, 陈钰枫1, 徐金安1,?, 张玉洁1, 冯文贺3 1. 北京交通大学计算机与信息技术学院, 北京 1000442. 创新工场人工智能工程院, 北京 1000803. 广东外语外贸大学语言工程与计算实验室, 广州 510420收稿日期:
2021-06-09修回日期:
2021-08-13出版日期:
2022-01-20基金资助:
国家重点研发计划(2020AAA0108001)、国家自然科学基金(61976015, 61976016, 61876198, 61370130)和广东省基础与应用基础研究基金(2020A1515011056)资助Incorporating Clause Alignment Knowledge into Chinese-EnglishNeural Machine Translation
MIAO Guoyi1, LIU Mingtong2, CHEN Yufeng1, XU Jin’an1,?, ZHANG Yujie1, FENG Wenhe3 1. School of Computer and Information Technology, Beijing Jiaotong University, Beijing 1000442. Sinovation Ventures AI Institute, Beijing, 1000803. Laboratory of Language Engineering and Computing, Guangdong University of Foreign Studies, Guangzhou 510420Received:
2021-06-09Revised:
2021-08-13Published:
2022-01-20摘要/Abstract
摘要: 针对当前神经机器翻译在捕捉复杂句内小句间的语义和结构关系方面存在不足, 导致复杂句长文本翻译的篇章连贯性不佳的问题, 提出一种融合小句对齐知识的汉英神经机器翻译方法。首先提出手工和自动相结合的标注方案, 构建大规模小句对齐的汉英平行语料库, 为模型训练提供丰富的小句级别的汉英双语对齐知识; 然后设计一种基于小句对齐学习的神经机器翻译模型, 通过融合小句对齐知识, 增强模型学习复杂句内小句间语义结构关系的能力。在WMT17, WMT18和WMT19汉英翻译任务中的实验表明, 所提出的方法可以有效地提升神经机器翻译的性能。进一步的评测分析显示, 所提方法能有效地提高汉英神经机器翻译在复杂句翻译上的篇章连贯性。
引用本文
苗国义, 刘明童, 陈钰枫, 徐金安, 张玉洁, 冯文贺. 融合小句对齐知识的汉英神经机器翻译[J]. 北京大学学报自然科学版, 2022, 58(1): 61-68.
MIAO Guoyi, LIU Mingtong, CHEN Yufeng, XU Jin’an, ZHANG Yujie, FENG Wenhe. Incorporating Clause Alignment Knowledge into Chinese-EnglishNeural Machine Translation[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(1): 61-68.
PDF全文下载地址:
http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3699