摘要古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2924
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究
本站小编 Free考研考试/2022-01-02
相关话题/测试 设计 实验 综合 信息
融入丰富信息的高性能神经实体链接
摘要歧义的存在使得实体链接任务需要大量信息的支撑。已有研究主要使用两类信息,即实体表述所在的文本信息和外部的知识库信息。但已有研究对信息的使用存在以下两个问题:首先,最新通用知识库规模更大、覆盖面更广,但目前的实体链接模型却未从中受益,其性能没有得到相应提升;其次,表述所在的文本信息既包含表述所处的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于生成对抗模型的异质信息网络语义表征方法研究
摘要近些年,网络表示学习问题吸引了大量研究者的关注,而异构信息网络由于其丰富的结构语义信息及其广阔的应用领域,更是成为了网络表示学习领域的重中之重。目前面向异构信息网络的表示学习模型主要可以分为基于生成式模型的表示学习方法和基于判别式模型的表示学习方法,但是很少有工作同时结合两种模型进行表示学习的优 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于多源信息融合的分布式词表示学习
摘要分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合社交网络用户自身属性的信息传播数学建模与舆情演化分析
摘要针对传统的社交网络信息传播模型极少将用户属性和信息特征这两个因素纳入到信息传播模型研究中的不足,该文提出了一种基于用户自身属性的信息传播模型。首先该文抽取用户影响力、用户态度、用户年龄、信息能量、信息价值等特征并构建交互规则;其次,根据这些特征建立信息传播的数学模型,模拟社交网络舆情演化过程;最 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于文本和用户信息的在线评论质量检测
摘要随着互联网的迅速发展,越来越多的用户评论出现在社交网站上。面对迅速增长的评论数据,如何为阅读评论的消费者提供准确、真实的高质量评论就显得尤为重要。评论质量检测旨在判断在线评论的质量,在传统的研究中,文本信息通常独立地被用于预测评论质量。但是在社交媒体上,每个文本之间不是独立的,而是可以通过发表文 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合源端句法和语义角色信息的AMR解析
摘要序列到序列(seq2seq)的框架可以应用到抽象语义表示(AMR)解析任务中,把AMR解析当作一个从源端句子到目标端AMR图的翻译任务。然而,以前的工作通常把源端句子表示为一个单词序列,忽略了句子内部潜藏的句法和语义角色信息。基于seq2seq框架,该文提出了一个直接而有效的融合句法和语义角色信 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于密令位置信息特征的问题生成
摘要问题生成是指在理解特定陈述句语义的前提下,自动地生成一条或多条关于该陈述句的问题。该文主要针对其中一项子任务开展研究,即一对一的问题生成(Point-wiseQuestionGeneration,PQG)。现有PQG研究,主要以端到端的序列化生成模型为框架,相应方法生成的问句,在流畅度方面已达到 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合图片主题信息的图片描述翻译
摘要图片描述翻译是给定图片及图片在某一语言的描述,利用翻译技术为图片生成目标语言描述的任务。观察发现,不同图片表达的场景往往不同,对应的图片描述具有明显的主题差异性。因此,利用主题信息能够提升翻译效果。然而,图片描述的内容通常较短,无法有效反映其主题。针对该问题,该文提出了一种融合图片主题信息的图片 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02探究复述策略对获取实体属性槽“源信息”的意义
摘要实体属性槽填充是一种抽取命名实体特定属性(slot)实例(也称槽值,即filler)的自然语言处理研究。其中,“源信息”特指属性实例的来源,即一段或一句佐证实例正确反映属性的文本片断。观测语料可以发现,实体属性源信息中存在大量同质异构现象,即复述现象。因此,该文结合复述技术与现有知识库,探究了复 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于笔画中文字向量模型设计与研究
摘要中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02