删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

融合文本特征的汉老双语句子相似度计算方法

本站小编 Free考研考试/2022-01-02

摘要双语句子相似度旨在计算不同语言句子间的语义相似程度,在信息检索、平行语料库构建、机器翻译等领域有重要作用。由于汉语、老挝语平行语料稀少,且老挝语在语义表达、句子结构上与汉语有明显差异,导致汉老双语句子相似度研究的难度较大。该文提出了一种融合文本特征的汉老双语句子相似度计算方法,并构建了句子相似度模型。首先,在句子相似度模型中将汉语、老挝语的词性、数字共现等文本特征与GloVe预训练词向量融合,以此丰富句子特征,提升模型计算准确率。其次,由基于自注意力的双向长短时记忆网络组成多层孪生网络来提取长距离上下文特征和深层次语义信息,其中自注意力机制可以保证语义信息的有效利用。最后,采用迁移学习的方法将通用模型参数初始化,并使用不同的微调参策略增强模型的泛化能力。实验表明,该文提出的方法,其召回率、准确率和F1值分别达到了82.5%、85.78%和84.00%。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3205
相关话题/汉语 计算 信息 网络 语言

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于图注意力卷积神经网络的文档级关系抽取
    摘要关系抽取作为信息抽取的子任务,旨在从非结构化文本中抽取出便于处理的结构化知识,对于自动问答、知识图谱构建等下游任务至关重要。该文在文档级的关系抽取语料上开展工作,包括但不局限于传统的句子级关系抽取。为了解决文档级关系抽取中长距离依赖问题,并且对特征贡献度加以区分,该文将图卷积模型和多头注意力机制 ...
    本站小编 Free考研考试 2022-01-02
  • 基于混合神经网络的实体关系抽取方法研究
    摘要实体关系抽取是信息抽取领域的重要研究内容,对知识库的自动构建起着至关重要的作用。针对非结构化文本实体关系抽取存在上下文环境信息难以准确表征,致使现有抽取模型准确率不能满足实际应用需求的问题,该文提出了一种新型的实体关系抽取模型BiGRU-Att-PCNN。该模型是基于混合神经网络,首先,构建双向 ...
    本站小编 Free考研考试 2022-01-02
  • 基于语言模型的预训练技术研究综述
    摘要预训练技术当前在自然语言处理领域占有举足轻重的位置。尤其近两年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等预训练模型的成功,进一步将预训练技术推向了研究高潮。该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类,并分析了当前自然语言处理 ...
    本站小编 Free考研考试 2022-01-02
  • NOBEL: 一种基于拓扑信息与监督学习的蛋白质复合物识别方法
    摘要蛋白质复合物对于生物学家有效了解细胞组织和功能具有重要意义,如何通过计算方法从蛋白质-蛋白质相互作用(PPI)网络中识别复合物是当前研究热点之一。然而,由于PPI网络中存在大量假阴性和假阳性噪声数据且现有已知蛋白质复合物并不完整,使得如何克服PPI网络的噪声问题,以及更好地利用已知蛋白质复合物, ...
    本站小编 Free考研考试 2022-01-02
  • 基于图卷积神经网络的隐式篇章关系识别
    摘要隐式篇章关系识别是篇章关系识别的子任务,其挑战性在于难以学习到具有丰富语义信息和交互信息的论元表示。针对这一难点,该文提出一种基于图卷积神经网络(GraphConvolutionalNetwork,GCN)的隐式篇章关系分类方法。该方法采用预训练语言模型BERT(BidirectionalEnc ...
    本站小编 Free考研考试 2022-01-02
  • 基于分段注意力匹配网络的跨领域少样本关系分类
    摘要针对跨领域少样本关系分类任务,该文提出分段注意力匹配网络PAMN。基于句子相似度计算的少样本学习算法有较好的领域适应性,PAMN在句子相似度算法上进行改进,针对关系抽取问题,将句子分段进行匹配,能更准确地计算关系分类实例间的相似度。PAMN由编码层和句子匹配层组成。在编码层,PAMN使用预训练模 ...
    本站小编 Free考研考试 2022-01-02
  • 面向对话的融入交互信息的实体关系抽取
    摘要实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务。在新闻报道、维基百科等规范文本上,该任务的研究相对丰富且已取得了一定的效果,但面向对话文本的相关研究还处于起始阶段。相较于规范文本,对话是一个交互的过程,大量信息隐藏在交互中,这使得面向对话文本的实体关系抽取更具挑战 ...
    本站小编 Free考研考试 2022-01-02
  • 基于图卷积记忆网络的方面级情感分类
    摘要在方面级情感分类中,常用的方法是用卷积神经网络或循环神经网络提取特征,利用注意力权重获取序列中不同词汇的重要程度。但此类方法未能很好地利用文本的句法信息,导致模型不能准确地在评价词与方面词之间建立联系。该文提出一种图卷积神经记忆网络模型(MemGCN)来解决此依赖问题。首先通过记忆网络存储文本表 ...
    本站小编 Free考研考试 2022-01-02
  • 基于时空注意力的社交网络信息级联预测模型
    摘要针对目前信息级联预测模型的构建多基于级联的时序信息或者空间拓扑结构、极少考虑两者的结合问题,该文提出一种面向社交网络的基于深度学习方法的信息级联预测(InformationCascadePrediction,ICP)模型。首先,使用拉普拉斯矩阵对级联节点采样,生成空间序列;然后,通过结合了图卷积 ...
    本站小编 Free考研考试 2022-01-02
  • 基于文章和近答案句信息的问题生成模型
    摘要自动问题生成任务旨在给文章中的一段文本生成相应的自然语言的问句,该研究在问答系统和语音助手的对话系统中有重要作用,可以帮助它们启动对话和继续对话。目前的神经网络问题生成模型主要是将包含答案的句子或者整篇文章作为模型的输入,而这些方法存在语义表示不能很好地结合句子和文章信息的问题。因此该文提出多输 ...
    本站小编 Free考研考试 2022-01-02