删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于小句复合体的句子边界自动识别研究

本站小编 Free考研考试/2022-01-02

摘要自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等。其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定。该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序列,也就是自足的话题结构,并设计和实现了基于BERT的边界识别模型。实验结果表明,该模型对句子边界自动识别正确率、F1值分别达到88.37%、83.73%,识别效果优于按照不同的标点符号机械分割的效果。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3126
相关话题/结构 语言 语法 技术 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法
    摘要由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能。CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测, ...
    本站小编 Free考研考试 2022-01-02
  • 人脑如何学习新的语言规则
    摘要成人大脑究竟能否掌握新的语言规则,是语言学习研究领域一直存在争议的问题。习得年龄、输入量和相似性,哪个才是影响语言规则学习的重要因素?学界始终没有统一的结论。该文以成年汉语母语者为研究对象,基于小数据的人工语法学习(artificialgrammarlearning,AGL)范式设计实验,采用跟 ...
    本站小编 Free考研考试 2022-01-02
  • 基于深层语言模型的古汉语知识表示及自动断句研究
    摘要古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以 ...
    本站小编 Free考研考试 2022-01-02
  • 融合序列和图结构的机器阅读理解
    摘要机器阅读理解是自然语言处理中的一项重要而富有挑战性的任务。近年来,以BERT为代表的大规模预训练语言模型在此领域取得了显著的成功。但是,受限于序列模型的结构和规模,基于BERT的阅读理解模型在长距离和全局语义构建的能力有着显著缺陷,影响了其在阅读理解任务上的表现。针对这一问题,该文提出一种融合了 ...
    本站小编 Free考研考试 2022-01-02
  • 图神经网络在自然语言处理中的应用
    摘要近几年,神经网络因其强大的表征能力逐渐取代传统的机器学习成为自然语言处理任务的基本模型。然而经典的神经网络模型只能处理欧氏空间中的数据,自然语言处理领域中,篇章结构,句法甚至句子本身都以图数据的形式存在。因此,图神经网络引起学界广泛关注,并在自然语言处理的多个领域成功应用。该文对图神经网络在自然 ...
    本站小编 Free考研考试 2022-01-02
  • 基于文本结构和图卷积网络的生成式摘要
    摘要目前主流的生成式自动文摘采用基于编码器—解码器架构的机器学习模型,且通常使用基于循环神经网络的编码器。该编码器主要学习文本的序列化信息,对文本的结构化信息学习能力较差。从语言学的角度来讲,文本的结构化信息对文本重要内容的判断具有重要作用。为了使编码器能够获取文本的结构信息,该文提出了基于文本结构 ...
    本站小编 Free考研考试 2022-01-02
  • 自然语言显式命题自动识别和解析方法
    摘要自然语言中包含很多显式命题,正确理解这些命题是理解文本信息的关键。正确识别显式命题并解析其中的关键成分有助于理清语言中的逻辑关系、辅助自然语言理解。该文基于百度百科数据构建了自然语言显式命题标注数据集,并提出两个研究任务:自然语言显式命题自动识别和命题关键成分解析。其中,显式命题自动识别任务判断 ...
    本站小编 Free考研考试 2022-01-02
  • 基于深度学习的中文短语复述抽取技术研究
    摘要复述抽取是自然语言处理任务中的一个重要分支,高质量的复述资源对于提升信息检索、问答系统、机器翻译等任务的效果有很大帮助。该文将任务限定在中文短语复述抽取,提出了基于2BiLSTM+CNN+CRF的序列标注模型,用于单语中文语料短语划分,通过若干过滤规则获取优质中文短语。之后又提出了基于表示学习的 ...
    本站小编 Free考研考试 2022-01-02
  • 面向中朝跨语言文本分类的双语主题词嵌入模型的研究
    摘要针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将两种模型相结合,解决了歧义性对跨语言文本分类精度带来的影响。首先,在大规模单词 ...
    本站小编 Free考研考试 2022-01-02
  • 基于大规模语料库的介词结构搭配库构建
    摘要语言知识可帮助计算机正确地处理自然语言,介词结构知识作为语言知识的一种,对自然语言处理和语言教学研究有很重要的意义。该文基于大规模语料库构建了高质量的介词结构搭配库。首先在前人研究的基础上,对介词进行归类并建立了介词搭配知识体系,而后设计并实现了从大数据中获取介词结构搭配知识的规则,最后对抽取结 ...
    本站小编 Free考研考试 2022-01-02