删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于语义自适应编码的汉-越伪平行句对抽取方法

本站小编 Free考研考试/2022-01-02

摘要伪平行句对抽取是缓解汉-越低资源机器翻译中数据稀缺问题的关键任务,同时也是提升机器翻译性能的重要手段。传统的伪平行句对抽取方法都是基于语义相似性度量,但是传统基于深度学习框架的语义表征方法没有考虑不同词语语义表征的难易程度,因此导致句子语义信息不充分,提取到的句子质量不高,噪声比较大。针对此问题,该文提出了一个双向长短期记忆网络加语义自适应编码的语义表征网络框架,根据句子中单词表征难易的不确定性,引导模型使用更深层次的计算。具体思路为: 首先,对汉语和越南语句子进行编码,基于句子中单词语义表征的难易程度,自适应地进行表征,深度挖掘句子中不同单词的语义信息,实现对汉语和越南语句子的深度表征;然后,在解码端将深度表征的向量映射到统一的公共语义空间中,最大化表示句子之间的语义相似度,从而提取更高质量的汉-越伪平行句子。实验结果表明,相比于基线模型,该文提出的方法在F1得分上提升5.09%,同时将提取到的句子对用于训练机器翻译模型,实验结果表明翻译性能的显著提升。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3190
相关话题/质量 汉语 实验 网络 信息

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • NOBEL: 一种基于拓扑信息与监督学习的蛋白质复合物识别方法
    摘要蛋白质复合物对于生物学家有效了解细胞组织和功能具有重要意义,如何通过计算方法从蛋白质-蛋白质相互作用(PPI)网络中识别复合物是当前研究热点之一。然而,由于PPI网络中存在大量假阴性和假阳性噪声数据且现有已知蛋白质复合物并不完整,使得如何克服PPI网络的噪声问题,以及更好地利用已知蛋白质复合物, ...
    本站小编 Free考研考试 2022-01-02
  • 基于图卷积神经网络的隐式篇章关系识别
    摘要隐式篇章关系识别是篇章关系识别的子任务,其挑战性在于难以学习到具有丰富语义信息和交互信息的论元表示。针对这一难点,该文提出一种基于图卷积神经网络(GraphConvolutionalNetwork,GCN)的隐式篇章关系分类方法。该方法采用预训练语言模型BERT(BidirectionalEnc ...
    本站小编 Free考研考试 2022-01-02
  • 基于分段注意力匹配网络的跨领域少样本关系分类
    摘要针对跨领域少样本关系分类任务,该文提出分段注意力匹配网络PAMN。基于句子相似度计算的少样本学习算法有较好的领域适应性,PAMN在句子相似度算法上进行改进,针对关系抽取问题,将句子分段进行匹配,能更准确地计算关系分类实例间的相似度。PAMN由编码层和句子匹配层组成。在编码层,PAMN使用预训练模 ...
    本站小编 Free考研考试 2022-01-02
  • 面向对话的融入交互信息的实体关系抽取
    摘要实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务。在新闻报道、维基百科等规范文本上,该任务的研究相对丰富且已取得了一定的效果,但面向对话文本的相关研究还处于起始阶段。相较于规范文本,对话是一个交互的过程,大量信息隐藏在交互中,这使得面向对话文本的实体关系抽取更具挑战 ...
    本站小编 Free考研考试 2022-01-02
  • 基于图卷积记忆网络的方面级情感分类
    摘要在方面级情感分类中,常用的方法是用卷积神经网络或循环神经网络提取特征,利用注意力权重获取序列中不同词汇的重要程度。但此类方法未能很好地利用文本的句法信息,导致模型不能准确地在评价词与方面词之间建立联系。该文提出一种图卷积神经记忆网络模型(MemGCN)来解决此依赖问题。首先通过记忆网络存储文本表 ...
    本站小编 Free考研考试 2022-01-02
  • 基于时空注意力的社交网络信息级联预测模型
    摘要针对目前信息级联预测模型的构建多基于级联的时序信息或者空间拓扑结构、极少考虑两者的结合问题,该文提出一种面向社交网络的基于深度学习方法的信息级联预测(InformationCascadePrediction,ICP)模型。首先,使用拉普拉斯矩阵对级联节点采样,生成空间序列;然后,通过结合了图卷积 ...
    本站小编 Free考研考试 2022-01-02
  • 基于文章和近答案句信息的问题生成模型
    摘要自动问题生成任务旨在给文章中的一段文本生成相应的自然语言的问句,该研究在问答系统和语音助手的对话系统中有重要作用,可以帮助它们启动对话和继续对话。目前的神经网络问题生成模型主要是将包含答案的句子或者整篇文章作为模型的输入,而这些方法存在语义表示不能很好地结合句子和文章信息的问题。因此该文提出多输 ...
    本站小编 Free考研考试 2022-01-02
  • 融合词义信息的文本蕴涵识别方法
    摘要文本蕴涵识别是对两个文本之间语义关系的有向推理,而词汇的词义对理解文本的语义以及推理文本之间的语义蕴涵关系有着重要作用。因此,为了有效利用词汇的词义信息推断文本之间的语义蕴涵关系,该文提出一种融合词义信息的文本蕴涵识别方法。该方法首次提出将原始的词汇转化为对应的目标词义,然后利用词汇的词义信息改 ...
    本站小编 Free考研考试 2022-01-02
  • 基于双通道图神经网络的小样本文本分类
    摘要小样本文本分类任务同时面临两个主要问题:①样本量少,易过拟合;②在元学习框架的任务形式下,监督信息被进一步稀疏化。近期工作中,利用图神经网络建模样本的全局信息表示(fullcontextembedding)成为小样本学习领域中一种行之有效的方法,但将其迁移至小样本文本分类任务,由于文本多噪声,且 ...
    本站小编 Free考研考试 2022-01-02
  • 基于BERT的多层标签指针网络事件抽取模型——2020语言与智能技术竞赛事件抽取任务系统报告
    摘要事件抽取(eventextraction,EE)是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术,是智能风控、智能投研、舆情监测等人工智能应用的重要技术基础。该文提出一种端到端的多标签指针网络事件抽取方法,并将事件检测任务融入到事件元素识别任务中,达到同时抽取事件元素及事件类型的目的。 ...
    本站小编 Free考研考试 2022-01-02