基于伪数据的机器翻译质量估计模型的训练
吴焕钦1, 张红阳1, 李静梅2, 朱俊国1, 杨沐昀1,†, 李生1 1. 哈尔滨工业大学计算机科学与技术学院, 哈尔滨 1500012. 哈尔滨工程大学计算机科学与技术学院, 哈尔滨 150001
收稿日期:
2017-06-05修回日期:
2017-09-05出版日期:
2018-03-20基金资助:
国家高技术研究发展计划(2015AA015405)和国家自然科学基金(61370170, 61402134)资助Training Machine Translation Quality Estimation Model Based on Pseudo Data
WU Huanqin1, ZHANG Hongyang1, LI Jingmei2, ZHU Junguo1, YANG Muyun1,†, LI Sheng1 1. Computer Science and Technology, Harbin Institute of Technology, Harbin 1500012. Computer Science and Technology, Harbin Engineering University, Harbin 150001
Received:
2017-06-05Revised:
2017-09-05Published:
2018-03-20可视化
0复制本文网址
1. 探讨2016版国际胰瘘研究小组定义和分级系统对胰腺术后患者胰瘘分级的影响.PDF(500KB)
-->
摘要/Abstract
摘要: 为向基于深度学习的机器翻译质量估计模型提供高效的训练数据, 提出面向目标数据集的伪数据构造方法, 采用基于伪数据预训练与模型精调相结合的两阶段模型训练方法对模型进行训练, 并针对不同伪数据规模设计实验。结果表明, 在构造得到的伪数据下, 利用两阶段训练方法训练得到的机器翻译质量估计模型给出的得分与人工评分的相关性有显著的提升。
中图分类号:
-->TP391
引用本文
吴焕钦, 张红阳, 李静梅, 朱俊国, 杨沐昀, 李生. 基于伪数据的机器翻译质量估计模型的训练[J]. 北京大学学报(自然科学版), 2018, 54(2): 279-285.
WU Huanqin, ZHANG Hongyang, LI Jingmei, ZHU Junguo, YANG Muyun, LI Sheng. Training Machine Translation Quality Estimation Model Based on Pseudo Data[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 279-285.
PDF全文下载地址:
http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3180