删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

复述平行语料构建及其应用方法研究

本站小编 Free考研考试/2021-12-20

复述平行语料构建及其应用方法研究

王雅松, 刘明童, 张玉洁?, 徐金安, 陈钰枫
北京交通大学计算机与信息技术学院, 北京 100044

收稿日期:2020-06-07修回日期:2020-08-15出版日期:2021-01-20

基金资助:国家自然科学基金(61876198, 61976015, 61976016)资助

Research on the Construction and Application of Paraphrase Parallel Corpus

WANG Yasong, LIU Mingtong, ZHANG Yujie?, XU Jin’an, CHEN Yufeng
School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044

Received:2020-06-07Revised:2020-08-15Published:2021-01-20



PDF

(398KB)

可视化

0

复制本文网址



1. 探讨2016版国际胰瘘研究小组定义和分级系统对胰腺术后患者胰瘘分级的影响.PDF(500KB)

-->



摘要/Abstract


摘要: 以汉语为研究对象, 提出构建大规模高质量汉语复述平行语料的方法。基于翻译引擎进行复述数据增强, 将英语复述平行语料迁移到汉语中, 同时人工构建汉语复述评测数据集。基于构建的汉语复述数据, 在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性。首先基于复述语料生成复述识别数据集, 预训练基于注意力机制的神经网络句子匹配模型, 训练模型捕获复述信息, 然后将预训练的模型用于自然语言推理任务, 改进其性能。在自然语言推理公开数据集上的评测结果表明, 所构建的复述语料可有效地应用在复述识别任务中, 模型可以学习复述知识。应用在自然语言推理任务中时, 复述知识能有效地提升自然语言推理模型的精度, 从而验证了复述知识对下游语义理解任务的有效性。所提出的复述语料构建方法不依赖语种, 可为其他语言和领域提供更多的训练数据, 生成高质量的复述数据, 改进其他任务的性能。

引用本文



王雅松, 刘明童, 张玉洁, 徐金安, 陈钰枫. 复述平行语料构建及其应用方法研究[J]. 北京大学学报自然科学版, 2021, 57(1): 68-74.
WANG Yasong, LIU Mingtong, ZHANG Yujie, XU Jin’an, CHEN Yufeng. Research on the Construction and Application of Paraphrase Parallel Corpus[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2021, 57(1): 68-74.





PDF全文下载地址:

http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3569
相关话题/数据 汉语 知识 英语 信息

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 城中村对深圳市职住空间融合的影响—— 基于手机信令数据的研究
    城中村对深圳市职住空间融合的影响——基于手机信令数据的研究仝德1,高静1,龚咏喜2,?1.北京大学深圳研究生院北京大学(深圳)未来城市实验室,深圳5180552.哈尔滨工业大学(深圳)建筑学院,深圳市城市规划与决策仿真重点实验室,深圳518055收稿日期:2019-09-16修回日期:2019-11 ...
    本站小编 Free考研考试 2021-12-20
  • 民用建筑“四节一环保”数据的清洗与修复方法研究
    民用建筑“四节一环保”数据的清洗与修复方法研究申鸿怡1,徐芳芳2,王新民3,?1.北京大学前沿交叉学科研究院大数据科学研究中心,北京1008712.山东科技大学数学与系统科学学院,青岛2665903.北京大学数学科学学院,北京100871收稿日期:2019-08-13修回日期:2019-11-07出 ...
    本站小编 Free考研考试 2021-12-20
  • 基于热力图数据的轨道交通站点服务区活力测度研究——以深圳市地铁为例
    基于热力图数据的轨道交通站点服务区活力测度研究——以深圳市地铁为例周雨霏1,杨家文1,?,周江评2,周佩玲3,刘海涛41.北京大学深圳研究生院城市规划与设计学院,深圳5180552.香港大学建筑学院,香港3.哈尔滨工业大学(深圳)建筑学院,深圳5180554.天津市城市规划设计研究院,天津30000 ...
    本站小编 Free考研考试 2021-12-20
  • 基于小时温度数据的北京市热岛时空变化与土地利用分析
    基于小时温度数据的北京市热岛时空变化与土地利用分析周小康1,李靖2,赵昕奕1,?1.北京大学城市与环境学院,教育部地表分析与模拟重点实验室,北京1008712.北京市气象台,北京100089收稿日期:2019-09-08修回日期:2019-12-23出版日期:2020-09-20基金资助:国家自然科 ...
    本站小编 Free考研考试 2021-12-20
  • AETA数据采集系统的设计与实现
    AETA数据采集系统的设计与实现杨兴文,雍珊珊?,王新安,周康生,金秀如北京大学深圳研究生院地震监测预测技术研究中心,深圳518055收稿日期:2019-07-26修回日期:2019-10-28出版日期:2020-07-20基金资助:深圳市科技计划项目(JCYJ20180503182125190,K ...
    本站小编 Free考研考试 2021-12-20
  • 时间精度与空间信息对神经网络模型预报PM2.5浓度的影响
    时间精度与空间信息对神经网络模型预报PM2.5浓度的影响邹思琳1,任晓晨1,2,王成功1,韦骏3,?1.北京大学物理学院大气与海洋科学系,北京1008712.96813部队,黄山2450003.中山大学大气科学学院,广州519082收稿日期:2010-05-08修回日期:2019-08-10出版日期 ...
    本站小编 Free考研考试 2021-12-20
  • 基于手机信令数据的特大城市人口时空分布及其社会经济属性估测——以北京市为例
    基于手机信令数据的特大城市人口时空分布及其社会经济属性估测——以北京市为例海晓东1,刘云舒2,3,赵鹏军3,?,张辉11.北京大学经济学院,北京1008712.北京大学深圳研究生院,深圳5180553.北京大学城市与环境学院,北京100871收稿日期:2019-05-10修回日期:2020-01-1 ...
    本站小编 Free考研考试 2021-12-20
  • 利用探空秒数据估算北京地区日最大混合层高度
    利用探空秒数据估算北京地区日最大混合层高度王越昊1,2,李成才1,?,初奕琦3,檀望舒1,任静静11.北京大学物理学院大气与海洋科学系,北京1008712.91197部队,青岛2664053.北京无线电测量研究所,北京100854收稿日期:2019-04-02修回日期:2019-06-06出版日期: ...
    本站小编 Free考研考试 2021-12-20
  • 一种融入背景知识的交互文本立场分析方法
    一种融入背景知识的交互文本立场分析方法刘常健1,杜嘉晨1,冷佳1,陈荻1,毛瑞彬2,张俊2,徐睿峰1,?1.哈尔滨工业大学(深圳)计算机科学与技术学院,深圳5180552.深圳证券信息有限公司,深圳518028收稿日期:2019-05-20修回日期:2019-09-27出版日期:2020-01-20 ...
    本站小编 Free考研考试 2021-12-20
  • 汉语篇章小句关联结构的表示与识别
    汉语篇章小句关联结构的表示与识别冯文贺1,?,陈伊琳1,任亚峰2,任函11.广东外语外贸大学语言工程与计算实验室,广州5100062.广东外语外贸大学外语研究与语言服务协同创新中心,广州510006收稿日期:2019-05-19修回日期:2019-09-21出版日期:2020-01-20基金资助:国 ...
    本站小编 Free考研考试 2021-12-20