删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于半监督的汉缅双语词典构建方法

本站小编 Free考研考试/2022-01-02

摘要汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源。当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低。研究表明,可比语料中相似词语往往具有相似的上下文,为此,该文提出了一种基于半监督的汉缅双语词典构建方法,通过利用预训练语言模型来构建双语词汇的上下文特征向量,对基于可比语料和小规模种子词典的迭代自学习方法得到的汉缅双语词汇进行语义增强。实验结果表明,该文提出的方法相较于基线方法有明显的性能提升。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3160
相关话题/语言 资源 种子 数据 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于BERT的多层标签指针网络事件抽取模型——2020语言与智能技术竞赛事件抽取任务系统报告
    摘要事件抽取(eventextraction,EE)是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术,是智能风控、智能投研、舆情监测等人工智能应用的重要技术基础。该文提出一种端到端的多标签指针网络事件抽取方法,并将事件检测任务融入到事件元素识别任务中,达到同时抽取事件元素及事件类型的目的。 ...
    本站小编 Free考研考试 2022-01-02
  • 自然语言处理评测中的问题与对策
    摘要自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出发,分类综述了主流自然语言处理评测的任务和特点,进而总结归纳了自然语言处理评 ...
    本站小编 Free考研考试 2022-01-02
  • 多目标情感分类中文数据集构建及分析研究
    摘要目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身 ...
    本站小编 Free考研考试 2022-01-02
  • 基于图神经网络和语义知识的自然语言推理任务研究
    摘要自然语言推理任务的目的是推断两个句子之间的语义逻辑关系。该文通过模仿人类的推理过程构造模型,首先利用长短时记忆网络提取词的语境特征,模仿人类粗读句子的过程;然后依据外部语义知识,连接两个句子中有语义联系的词,构造一个以词为节点的语义图;接下来模仿人类比较两个句子的语义角色相似性的思维,用图卷积或 ...
    本站小编 Free考研考试 2022-01-02
  • CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法
    摘要由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能。CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测, ...
    本站小编 Free考研考试 2022-01-02
  • 人脑如何学习新的语言规则
    摘要成人大脑究竟能否掌握新的语言规则,是语言学习研究领域一直存在争议的问题。习得年龄、输入量和相似性,哪个才是影响语言规则学习的重要因素?学界始终没有统一的结论。该文以成年汉语母语者为研究对象,基于小数据的人工语法学习(artificialgrammarlearning,AGL)范式设计实验,采用跟 ...
    本站小编 Free考研考试 2022-01-02
  • 基于深层语言模型的古汉语知识表示及自动断句研究
    摘要古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以 ...
    本站小编 Free考研考试 2022-01-02
  • 基于部分标签数据和经验分布的命名实体识别
    摘要近年来,基于数据驱动的命名实体识别方法在新闻、生物医疗等领域上取得了很大的成功,然而许多领域缺少标签,且人工标注成本高昂。为了降低标注成本,该文尝试使用含有噪声的部分标签数据进行命名实体识别,提出了一种基于部分标签数据和经验分布的方法。首先介绍基于部分标签数据的建模方法,然后引入标签经验分布的假 ...
    本站小编 Free考研考试 2022-01-02
  • 图神经网络在自然语言处理中的应用
    摘要近几年,神经网络因其强大的表征能力逐渐取代传统的机器学习成为自然语言处理任务的基本模型。然而经典的神经网络模型只能处理欧氏空间中的数据,自然语言处理领域中,篇章结构,句法甚至句子本身都以图数据的形式存在。因此,图神经网络引起学界广泛关注,并在自然语言处理的多个领域成功应用。该文对图神经网络在自然 ...
    本站小编 Free考研考试 2022-01-02
  • 自然语言显式命题自动识别和解析方法
    摘要自然语言中包含很多显式命题,正确理解这些命题是理解文本信息的关键。正确识别显式命题并解析其中的关键成分有助于理清语言中的逻辑关系、辅助自然语言理解。该文基于百度百科数据构建了自然语言显式命题标注数据集,并提出两个研究任务:自然语言显式命题自动识别和命题关键成分解析。其中,显式命题自动识别任务判断 ...
    本站小编 Free考研考试 2022-01-02