摘要实现家谱资源的高效的组织和利用,需要从非结构化的家谱文本中提取实体及关系,进行结构化的表示。实体和关系的提取通常被作为序列标注任务来解决,输入的句子被映射到标签序列。针对家谱文本中实体和关系高度密集、关系重叠很常见的特点,该文构建了相应的概念模型来指导整个提取过程。在序列标注部分,该文在真实数据上检验了常用的深度学习模型的表现。实验结果显示,BERT-BiLSTM-CRF模型的精确率、召回率和F1值均优于所对比的其他模型,该文所提出的方法能够有效地解决家谱文本中的实体关系提取问题。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2986
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
家谱文本中实体关系提取方法研究
本站小编 Free考研考试/2022-01-02
相关话题/序列 实验 检验 数据 过程
一种基于CW-RNN的多时间尺度序列建模推荐算法
摘要序列化推荐试图利用用户与物品的历史交互序列,预测下次即将交互的物品。针对序列化推荐中推荐物品依赖于用户的长时间全局兴趣、中时间兴趣还是短时间局部兴趣的不确定性,该文提出了一种基于CW-RNN的多时间尺度序列建模推荐算法。首先,该算法引入CW-RNN层,从用户与物品的历史交互序列中抽取多个时间尺度 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据扩充的翻译记忆库与神经机器翻译融合方法
摘要神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文矛盾语块数据集构建和边界识别研究
摘要文本矛盾是自然语言理解的一项基础性问题。目前的研究大多针对矛盾识别任务,而深入文本内部探究矛盾产生原因的工作较少,且缺乏专门的中文矛盾数据集。该文在前人矛盾研究基础上,提出矛盾语块的概念,将其划分为7种类型,并根据标注规范构建了包含16224条数据的中文矛盾语块(CCB)数据集。基于此数据集,利 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于Bi-GRU并包含注意力机制的文本数据真值发现
摘要针对传统真值发现算法无法直接应用于文本数据的问题,该文提出基于Bi-GRU并包含注意力机制的文本数据真值发现方法。根据文本答案的多因素性,词语使用的多样性与文本数据的稀疏性等特点,该文对用户答案进行细粒度划分,并利用Bi-GRU表征文本答案的语义信息,利用双层注意力机制分别学习用户答案关键词可靠 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于稳健词素序列和LSTM的维吾尔语短文本分类
摘要维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的。其中,词干是有实际意义的词汇单元,词缀提供语法功能。该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短文本分类技术。用基于词-词素平行训练语料的稳健词素切分和词干提取方法,从互联网下载的文本中提取其词干,以此构建词干序列文本语料 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据增强的藏文改写检测研究
摘要该文针对藏文语料稀缺的问题,在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法,在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中,该文使用数据增强方法,有效利用目前公开的藏汉平行语料,扩充藏汉跨语言文本改写检测训练语料,当扩充至20万句对时,藏汉改写检测模型 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于弱标注数据的汉语分词领域移植
摘要近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02利用单语数据改进神经机器翻译压缩模型的翻译质量
摘要该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了“伪双语数据”的教学方法,利用教师模型翻译单语数据获得的合成双语数据改进学生模型,然后提出了“负对数似然—知识蒸馏联合优化”教学方法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于语言学扰动的事件检测数据增强方法
摘要近年来,深度学习在事件检测领域取得了长足进展。但是,现有方法通常受制于事件检测标注数据的规模和训练阶段的不稳定性。针对上述问题,本文提出了基于语言学扰动的事件检测数据增强方法,从语法和语义两个角度生成伪数据来提升事件检测的性能。为了有效的利用生成的伪数据,该文探索了数据增加和多实例学习两个训练策 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种基于时间序列预测的重采策略
摘要及时获取新增内容,是采集器的重要衡量指标。基于版块页-内容页架构设计的网络采集器通过定期重采入口的版块页,能够有效地快速识别新产生内容页面并进行扩展。然而获取内容的实时性与对网站访问的友好性存在一定的折中。传统的重采策略关注时效性,而忽略了对网站访问的友好性。该文提出了一种基于时间序列预测的改进 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02