摘要事件可信度表示文本中事件的真实状况,描述了事件是否是一个事实,或是一种可能还是不可能的情形,是自然语言处理中一个重要的语义任务。目前,大多数关于事件可信度分析的方法都集中在句子级,很少涉及篇章级。该文基于卷积神经网络,结合篇章中的句子级特征(包括句子的语义、语法以及线索词特征表示),使用对抗训练来识别篇章可信度。在中英文数据集上的结果显示,该文方法与最新的实验结果相比,微平均F1值分别提高了3.51%和6.02%,宏平均F1值分别提升了4.63%和9.97%。同时,该方法在训练速度上也提高了4倍。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3037
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于单句表示的篇章事件可信度识别方法
本站小编 Free考研考试/2022-01-02
相关话题/实验 数据 英文 语法 可信度
基于粗糙数据推理的TextRank关键词提取算法
摘要基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于Transformer增强架构的中文语法纠错方法
摘要语法纠错任务是自然语言处理领域的一项重要任务,近年来受到了学术界广泛关注。该任务旨在自动识别并纠正文本中所包含的语法、拼写以及语序错误等。该文将语法纠错任务看作是翻译任务,即将带有错误表达的文本翻译成正确的文本,采用基于多头注意力机制的Transformer模型作为纠错模型,并提出了一种动态残差 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据扩充的翻译记忆库与神经机器翻译融合方法
摘要神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文矛盾语块数据集构建和边界识别研究
摘要文本矛盾是自然语言理解的一项基础性问题。目前的研究大多针对矛盾识别任务,而深入文本内部探究矛盾产生原因的工作较少,且缺乏专门的中文矛盾数据集。该文在前人矛盾研究基础上,提出矛盾语块的概念,将其划分为7种类型,并根据标注规范构建了包含16224条数据的中文矛盾语块(CCB)数据集。基于此数据集,利 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于Bi-GRU并包含注意力机制的文本数据真值发现
摘要针对传统真值发现算法无法直接应用于文本数据的问题,该文提出基于Bi-GRU并包含注意力机制的文本数据真值发现方法。根据文本答案的多因素性,词语使用的多样性与文本数据的稀疏性等特点,该文对用户答案进行细粒度划分,并利用Bi-GRU表征文本答案的语义信息,利用双层注意力机制分别学习用户答案关键词可靠 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02支持中文句法结构套叠的组合范畴语法
摘要词组入句时发生语法性质转变,词组的句法范畴就应该转换,这种转换依赖词组作为整体进入更大词组的结构需要。要解释这种现象,组合范畴语法应该增加相应的转换规则。从集合论角度看,汉语有名词—动词—形容词依次包含关系,由此可归纳基本句法结构之间的转类套叠。在类有定职的前提下,得出转类套叠对应的范畴转换规则 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据增强的藏文改写检测研究
摘要该文针对藏文语料稀缺的问题,在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法,在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中,该文使用数据增强方法,有效利用目前公开的藏汉平行语料,扩充藏汉跨语言文本改写检测训练语料,当扩充至20万句对时,藏汉改写检测模型 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于弱标注数据的汉语分词领域移植
摘要近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02利用单语数据改进神经机器翻译压缩模型的翻译质量
摘要该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了“伪双语数据”的教学方法,利用教师模型翻译单语数据获得的合成双语数据改进学生模型,然后提出了“负对数似然—知识蒸馏联合优化”教学方法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于语言学扰动的事件检测数据增强方法
摘要近年来,深度学习在事件检测领域取得了长足进展。但是,现有方法通常受制于事件检测标注数据的规模和训练阶段的不稳定性。针对上述问题,本文提出了基于语言学扰动的事件检测数据增强方法,从语法和语义两个角度生成伪数据来提升事件检测的性能。为了有效的利用生成的伪数据,该文探索了数据增加和多实例学习两个训练策 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02