删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于深层语言模型的古汉语知识表示及自动断句研究

本站小编 Free考研考试/2022-01-02

摘要古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3111
相关话题/信息 知识 综合 数据 古籍

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于部分标签数据和经验分布的命名实体识别
    摘要近年来,基于数据驱动的命名实体识别方法在新闻、生物医疗等领域上取得了很大的成功,然而许多领域缺少标签,且人工标注成本高昂。为了降低标注成本,该文尝试使用含有噪声的部分标签数据进行命名实体识别,提出了一种基于部分标签数据和经验分布的方法。首先介绍基于部分标签数据的建模方法,然后引入标签经验分布的假 ...
    本站小编 Free考研考试 2022-01-02
  • 融合粗细粒度信息的长答案选择神经网络模型
    摘要答案选择是问答系统中的关键技术之一,而长答案选择在社区问答系统、开放域问答系统等非实体问答系统中有着重要地位。该文提出了一个结合粗粒度(句子级别)和细粒度(单词或n元单词级)信息的模型,缓解了传统句子建模方式应用于长答案选择时不能把握住句子的全部重要信息的不足和使用比较-聚合框架处理该类问题时不 ...
    本站小编 Free考研考试 2022-01-02
  • 基于视觉-语义中间综合属性特征的图像中文描述生成算法
    摘要图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少。图像视觉信息在图像描述算法中没有得到足够的重视 ...
    本站小编 Free考研考试 2022-01-02
  • 基于信息增强BERT的关系分类
    摘要关系分类是自然语言处理领域中重要的语义处理任务,随着机器学习技术的发展,预训练模型BERT在多项自然语言处理任务中取得了大量研究成果,但在关系分类领域尚有待探索。该文针对关系分类的问题特点,提出一种基于实体与实体上下文信息增强BERT的关系分类方法(EC_BERT),该方法利用BERT获取句子特 ...
    本站小编 Free考研考试 2022-01-02
  • 基于用户与产品信息和图卷积网络的情感分类研究
    摘要在评论情感分析的研究中,和评论相关的用户与产品信息对于提高情感分类的准确率有很大的帮助。为了能够有效地利用产品和用户信息,并构建产品和用户信息与评论之间的关联,该文提出一种基于图网络的模型,将产品与用户信息和评论之间的关系构建为一个图,并基于图卷积网络模型学习产品与用户信息对评论的影响,从而提升 ...
    本站小编 Free考研考试 2022-01-02
  • 基于递进式半知识蒸馏的神经机器翻译
    摘要神经机器翻译(NMT)模型通常具有庞大的参数量,例如,Transformer在词表设为3万时有将近1亿的神经元,模型的参数量越大,模型越难优化,且存储模型的资源需求也越高。该文提出了一种压缩方法,用于将复杂且参数量大的NMT模型压缩为精简参数量小的NMT模型。该文同时提出半知识蒸馏方法和递进式半 ...
    本站小编 Free考研考试 2022-01-02
  • 基于知识拷贝机制的生成式对话模型
    摘要基于“编码—解码”结构的端到端生成式对话模型所生成的回复多样性差、信息量少,这在很大程度上阻碍了对话的进一步扩展和深入。而知识图谱作为一种高度结构化的知识,能够为对话提供相关知识以及话题转移关系,可以用来提升对话质量。因此,该文提出了一种基于知识拷贝机制的生成式对话模型,首先使用基于知识图谱的映 ...
    本站小编 Free考研考试 2022-01-02
  • 一种融入实体描述的自适应知识表示模型
    摘要知识表示学习旨在在连续的低维向量空间中表示知识图谱的实体和关系,但是现有的表示模型大多仅利用三元组的结构信息,而忽略了具有丰富语义的实体描述信息。为此,该文提出了一种基于实体描述的联合表示模型(jointrepresentationbasedonentitydescriptions,JRED)。 ...
    本站小编 Free考研考试 2022-01-02
  • 基于大规模语料库的现代汉语动宾搭配知识库构建
    摘要汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要。各种搭配中,动宾搭配能够反映句子轮廓,并在数量和多样性方面具有优势地位,故该文聚焦于构建现代汉语动宾搭配知识库,以期为自然语言 ...
    本站小编 Free考研考试 2022-01-02
  • 结合平移关系嵌入和CNN的知识图谱补全
    摘要为解决基于翻译机制的知识图谱补全模型在处理复杂关系时的性能局限,该文提出一种ATREC(algorithmbasedontransitionalrelationembeddingviaCNN)算法,将三元组的实体和关系映射至低维向量空间,并将不同的关系特征与头/尾实体融合,将原始三元组和融合三元 ...
    本站小编 Free考研考试 2022-01-02