删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向多领域多来源文本的汉语依存句法树库构建

本站小编 Free考研考试/2022-01-02

摘要为了支持汉语句法分析研究,目前句法分析领域已经标注了多个汉语依存句法树库。然而,已有树库主要针对较规范文本,而对各种网络文本如博客、微博、微信等考虑较少。为此,该文基于近期研制的标注规范及可视化在线标注系统,开展了大规模数据标注。聘请了15名兼职标注者,并采用严格的标注流程保证标注质量,目前,已经标注了约3万句的汉语依存句法树库,其中包含约1万句淘宝头条文本。该文重点介绍了数据选取、标注流程等问题,并详细分析了标注准确率、一致性和标注数据的分布情况。未来将继续对多领域多来源文本进行标注,扩大树库规模,并以合适的方式公开相应的标注数据。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2712
相关话题/数据 汉语 流程 网络 介绍

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 面向ELAN软件的手语汉语平行语料库构建
    摘要建立手语汉语平行语料库的目的是用于机器翻译和语言对比研究,并且能够系统地保存手语资源,保护手语和聋人文化。手语汉语平行语料库存储的内容主要包括手语视频、被采集者信息和标注者信息,以及通过多媒体标注软件ELAN转写的十四层标注信息,包括手控和非手控信息。该文采用基于向量空间的余弦相似性算法,实现了 ...
    本站小编 Free考研考试 2022-01-02
  • 基于神经网络的藏语语音合成
    摘要语音合成是人机交互的核心技术之一,也是中文信息处理领域的一项前沿技术。随着神经网络理论的不断深入,基于神经网络的语音合成技术越来越引起人们的关注。该文通过分析藏文字结构与藏语拼读规则,融合SequencetoSequence模型和注意力机制,研究了基于神经网络的藏语语音合成技术。实验数据表明,该 ...
    本站小编 Free考研考试 2022-01-02
  • 网络表示学习算法的分析与验证
    摘要网络表示学习算法是社交网络分析领域的一个热点问题。该文旨在研究现有的各种网络表示学习算法,并分析各类算法在不同结构的网络数据中的性能,对3大类别、共10种网络表示学习算法在8个网络上进行了网络节点的多标签分类以验证算法的性能,以此来全面评价各类算法的效果、效率和应用范围。实验结果表明,DeepW ...
    本站小编 Free考研考试 2022-01-02
  • 采用Stack-Tree LSTM的汉语一体化依存分析模型
    摘要在汉语一体化依存分析中,如何利用分词、词性标注和句法分析的中间结果作为分析特征成为核心问题,也是三个任务相互制约协调、共同提高性能的关键所在。目前无论基于特征工程的方法还是基于深度学习的方法尚无法充分利用分析过程中依存子树的完整信息,而依存子树作为中间结果的主要成分对三个任务的后续分析具有重要的 ...
    本站小编 Free考研考试 2022-01-02
  • 融合反问特征的卷积神经网络的中文反问句识别
    摘要反问是一种带有强烈情感色彩的表达方式,对其进行自动识别将提升隐式情感分析的整体效率。针对汉语反问句识别问题,该文分析了反问句的句式特点,将反问句的句式结构融入到卷积神级网络的构建中,提出一种融合句式结构的卷积神经网络的反问句识别方法。首先利用置信度大于70%的反问句的特征词、序列模式,对大规模未 ...
    本站小编 Free考研考试 2022-01-02
  • 基于古汉语语料的新词发现方法
    摘要新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步。该文提出一种基于古汉语料的新词识别方法,称为AP-LSTM-CRF算法。该算法分为三个步骤。第一步,基于ApacheSpark分布式并行计算框架实现的并行化的Apriori改进算法,能够高效地从大规模原始语料中产生 ...
    本站小编 Free考研考试 2022-01-02
  • 融合卷积神经网络与层次化注意力网络的中文文本情感倾向性分析
    摘要文本情感倾向性分析是自然语言处理研究领域的一个基础问题。基于深度学习的模型是处理此问题的常用模型。而当前的多数深度学习模型在中文文本情感倾向性分析方面的应用存在两个问题:一是未能充分考虑到文本的层次化结构对情感倾向性判定的重要作用,二是传统的分词技术在处理文本时会产生歧义。该文针对这些问题基于卷 ...
    本站小编 Free考研考试 2022-01-02
  • 基于多特征融合编码的神经网络依存句法分析模型
    摘要在基于神经网络的依存句法分析中,对分析栈和决策层信息的表示和利用依然有值得深入研究的空间。针对分析栈的表示,已有工作并没有对单棵依存子树独立编码的表示,导致无法利用各个依存子树的局部特征;也没有对生成的依存弧序列进行编码,导致无法利用依存弧的全局信息。针对决策层的表示,已有工作利用MLP预测转移 ...
    本站小编 Free考研考试 2022-01-02
  • 基于主题网络的伪主题分析
    摘要传统无监督的主题建模方法利用相互独立的主题变量抽象描述文本语义,忽略了各主题内部隐含的结构和联系,粗粒化的文本主题分析加剧了“强制主题”问题对文本建模的影响。该文通过研究主题网络社区内部结构,结合主题内部语义耦合关系与网络拓扑结构,提出伪主题分析方法来识别和解释主题,实现从网络结构角度描述文本语 ...
    本站小编 Free考研考试 2022-01-02
  • 基于自联想记忆与卷积神经网络的跨语言情感分类
    摘要该文提出了一种以商品评论为对象的基于语义融合的跨语言情感分类算法。该算法首先从短文本语义表示的角度出发,基于开源工具Word2Vec预先生成词嵌入向量来获得不同语言下的信息表示;其次,根据不同语种之间的词向量的统计关联性提出使用自联想记忆关系来融合提取跨语言文档语义;然后利用卷积神经网络的局部感 ...
    本站小编 Free考研考试 2022-01-02