摘要目前互联网中包含了大量的实体介绍文本,为实体知识构建提供了资源基础。别名作为实体的一种属性,是实体正式名称的不同表达,在知识图谱构建中具有重要意义。该文以景点介绍文本作为语料,结合不同别名描述方式提出别名标注策略,人工构建别名标注数据集。别名抽取可分为实体识别与关系分类两个子任务。该文提出基于深度学习的景点实体别名抽取联合模型,同时完成两个子任务。在该文构建的数据集上的实验结果表明,联合模型与流水线式处理模型相比性能有显著提高。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2987
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
旅游场景下的实体别名抽取联合模型
本站小编 Free考研考试/2022-01-02
相关话题/知识 数据 基础 资源 实验
基于数据扩充的翻译记忆库与神经机器翻译融合方法
摘要神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于文献链接信息分析的科技资源风险评估
摘要文献中的链接将文献与数据、代码、文档、网页等科技资源相关联,资源链接引用的上下文信息反映了科研活动中科研主体与科技资源形成的关系。该文通过对文献中的链接信息进行细粒度分析,提出了一种对其关联的科技资源种类和引用目的进行知识建模的方法,并在大规模文献数据集上进行了实证。同时从国内外科技资源的利用情 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文症状知识库的建立与分析
摘要构建大规模的知识库是人工智能、自然语言理解等领域的基础任务之一。症状作为描述病人的主观感受和诊断疾病的重要依据,更是优化智能导诊、医学问答等任务的重要因素。该文在现有的医学症状知识库研究的基础上,结合症状的概念、特征及在医学诊断中发挥的作用,构建了一个公开的中文症状知识库。该知识库从症状的本体分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于外部知识和层级篇章表示的阅读理解方法
摘要阅读理解指的是基于给定文章自动回答相关问题,这是人工智能及自然语言处理领域的一个研究热点。目前已提出许多基于深度学习的阅读理解方法,但是这些方法对问题理解及篇章建模不充分,导致模型获取答案准确率不高。为了解决上述问题,该文提出一个基于外部知识和层级篇章表示的阅读理解方法。该方法特点有:①通过引入 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文矛盾语块数据集构建和边界识别研究
摘要文本矛盾是自然语言理解的一项基础性问题。目前的研究大多针对矛盾识别任务,而深入文本内部探究矛盾产生原因的工作较少,且缺乏专门的中文矛盾数据集。该文在前人矛盾研究基础上,提出矛盾语块的概念,将其划分为7种类型,并根据标注规范构建了包含16224条数据的中文矛盾语块(CCB)数据集。基于此数据集,利 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于Bi-GRU并包含注意力机制的文本数据真值发现
摘要针对传统真值发现算法无法直接应用于文本数据的问题,该文提出基于Bi-GRU并包含注意力机制的文本数据真值发现方法。根据文本答案的多因素性,词语使用的多样性与文本数据的稀疏性等特点,该文对用户答案进行细粒度划分,并利用Bi-GRU表征文本答案的语义信息,利用双层注意力机制分别学习用户答案关键词可靠 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02结合预训练模型和语言知识库的文本匹配方法
摘要针对文本匹配任务,该文提出一种大规模预训练模型融合外部语言知识库的方法。该方法在大规模预训练模型的基础上,通过生成基于WordNet的同义—反义词汇知识学习任务和词组—搭配知识学习任务引入外部语言学知识。进而,与MT-DNN多任务学习模型进行联合训练,以进一步提高模型性能。最后利用文本匹配标注数 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向司法案件的案情知识图谱自动构建
摘要以法学知识为中心的认知智能是当前司法人工智能发展的重要方向。该文提出了以自然语言处理(NLP)为核心技术的司法案件案情知识图谱自动构建技术。以预训练模型为基础,对涉及的实体识别和关系抽取这两个NLP基本任务进行了模型研究与设计。针对实体识别任务,对比研究了两种基于预训练的实体识别模型;针对关系抽 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02自动构建基于电视剧字幕和剧本的日常会话基础标注库
摘要真实对话数据量不足已经成为限制数据驱动的对话生成系统性能提升的主要因素,尤其是汉语语料。为了获得丰富的日常会话语料,可以利用字幕时间戳信息把英语电视剧的英文字幕及其对应的中文字幕进行同步,从而生成大量的汉英双语同步字幕。然后通过信息检索的方法把双语同步字幕的英文句子跟英语剧本的演员台词进行自动对 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02汉语基本复合名词短语语义关系知识库构建与识别
摘要汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02