摘要文本矛盾是自然语言理解的一项基础性问题。目前的研究大多针对矛盾识别任务,而深入文本内部探究矛盾产生原因的工作较少,且缺乏专门的中文矛盾数据集。该文在前人矛盾研究基础上,提出矛盾语块的概念,将其划分为7种类型,并根据标注规范构建了包含16 224条数据的中文矛盾语块(CCB)数据集。基于此数据集,利用序列标注及抽取式阅读理解类模型开展矛盾语块边界识别实验,以检验模型对矛盾内部语义信息的理解能力,结果显示阅读理解类模型在该任务上的性能优于序列标注模型。该文通过三个角度对影响语块边界识别的因素进行分析,为文本矛盾后续研究工作提供可靠的数据集和基线模型。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2915
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
中文矛盾语块数据集构建和边界识别研究
本站小编 Free考研考试/2022-01-02
相关话题/数据 中文 序列 信息 实验
基于Bi-GRU并包含注意力机制的文本数据真值发现
摘要针对传统真值发现算法无法直接应用于文本数据的问题,该文提出基于Bi-GRU并包含注意力机制的文本数据真值发现方法。根据文本答案的多因素性,词语使用的多样性与文本数据的稀疏性等特点,该文对用户答案进行细粒度划分,并利用Bi-GRU表征文本答案的语义信息,利用双层注意力机制分别学习用户答案关键词可靠 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02支持中文句法结构套叠的组合范畴语法
摘要词组入句时发生语法性质转变,词组的句法范畴就应该转换,这种转换依赖词组作为整体进入更大词组的结构需要。要解释这种现象,组合范畴语法应该增加相应的转换规则。从集合论角度看,汉语有名词—动词—形容词依次包含关系,由此可归纳基本句法结构之间的转类套叠。在类有定职的前提下,得出转类套叠对应的范畴转换规则 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于稳健词素序列和LSTM的维吾尔语短文本分类
摘要维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的。其中,词干是有实际意义的词汇单元,词缀提供语法功能。该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短文本分类技术。用基于词-词素平行训练语料的稳健词素切分和词干提取方法,从互联网下载的文本中提取其词干,以此构建词干序列文本语料 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融入丰富信息的高性能神经实体链接
摘要歧义的存在使得实体链接任务需要大量信息的支撑。已有研究主要使用两类信息,即实体表述所在的文本信息和外部的知识库信息。但已有研究对信息的使用存在以下两个问题:首先,最新通用知识库规模更大、覆盖面更广,但目前的实体链接模型却未从中受益,其性能没有得到相应提升;其次,表述所在的文本信息既包含表述所处的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于结构化表示的中文事件同指消解方法
摘要事件同指消解是自然语言处理中一个具有挑战性的任务,它在事件抽取、问答系统和阅读理解中具有重要作用。针对事件的语义信息主要由触发词和论元表示这一个特点,该文将事件进行结构化表示并输入一个基于门控和注意力机制的模型GAN-SR(gatedattentionnetworkwithstructuredr ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文字粒度切分在蒙汉机器翻译的应用
摘要在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Tran ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据增强的藏文改写检测研究
摘要该文针对藏文语料稀缺的问题,在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法,在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中,该文使用数据增强方法,有效利用目前公开的藏汉平行语料,扩充藏汉跨语言文本改写检测训练语料,当扩充至20万句对时,藏汉改写检测模型 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于生成对抗模型的异质信息网络语义表征方法研究
摘要近些年,网络表示学习问题吸引了大量研究者的关注,而异构信息网络由于其丰富的结构语义信息及其广阔的应用领域,更是成为了网络表示学习领域的重中之重。目前面向异构信息网络的表示学习模型主要可以分为基于生成式模型的表示学习方法和基于判别式模型的表示学习方法,但是很少有工作同时结合两种模型进行表示学习的优 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合字词模型的中文命名实体识别研究
摘要命名实体识别(NER)是自然语言处理中一项非常重要的基础任务。传统的机器学习方法在处理该任务时,主要依赖于人们的专业领域知识和人工提取的特征。为了在不需要人工特征的条件下获得较好的结果,该文提出了一种融合字词BiLSTM模型的命名实体识别方法。首先分别用BiLSTM-CRF训练得到基于字的模型C ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文医学知识图谱CMeKG构建初探
摘要医学知识图谱是智慧医疗应用的基石,可以为机器阅读理解医学文本、智能咨询、智能诊断提供知识基础。现有的医学知识图谱从规模化、规范化、体系性、形式化等方面还不足以满足智慧医疗应用的需求。此外,对复杂医学知识的精准描述更是构建医学知识图谱面临的重要挑战。针对上述问题,该文利用自然语言处理与文本挖掘技术 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02