删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于维基百科的冬奥会概念下的低频词条双语迭代扩展

本站小编 Free考研考试/2022-01-02

摘要随着2022年北京冬奥会的临近,有必要构建一个与冬奥会相关的垂直领域知识图谱,但目前网络上没有较完整的冬奥会相关术语集,因此,需要用集合扩展的方法对冬奥会术语集进行补充。近年来,集合扩展的方法主要基于Word2Vec进行研究,但扩展平均词频较低的冬奥会中文领域时效果并不理想。该文提出了中英文双语迭代扩展的方法,利用数量多、词频较高的英文语料库和中英文跨语言同义词数据集解决中文数据集平均质量较低的问题。该文使用维基百科中冬奥会领域相关的词条组成的数据集进行实验。实验结果表明,与其他集合扩展方法相比,该文提出的扩展方法扩展出的新词质量提升了12%以上。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3084
相关话题/数据 中文 实验 质量 知识

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于递进式半知识蒸馏的神经机器翻译
    摘要神经机器翻译(NMT)模型通常具有庞大的参数量,例如,Transformer在词表设为3万时有将近1亿的神经元,模型的参数量越大,模型越难优化,且存储模型的资源需求也越高。该文提出了一种压缩方法,用于将复杂且参数量大的NMT模型压缩为精简参数量小的NMT模型。该文同时提出半知识蒸馏方法和递进式半 ...
    本站小编 Free考研考试 2022-01-02
  • 基于深度学习的中文短语复述抽取技术研究
    摘要复述抽取是自然语言处理任务中的一个重要分支,高质量的复述资源对于提升信息检索、问答系统、机器翻译等任务的效果有很大帮助。该文将任务限定在中文短语复述抽取,提出了基于2BiLSTM+CNN+CRF的序列标注模型,用于单语中文语料短语划分,通过若干过滤规则获取优质中文短语。之后又提出了基于表示学习的 ...
    本站小编 Free考研考试 2022-01-02
  • 基于知识拷贝机制的生成式对话模型
    摘要基于“编码—解码”结构的端到端生成式对话模型所生成的回复多样性差、信息量少,这在很大程度上阻碍了对话的进一步扩展和深入。而知识图谱作为一种高度结构化的知识,能够为对话提供相关知识以及话题转移关系,可以用来提升对话质量。因此,该文提出了一种基于知识拷贝机制的生成式对话模型,首先使用基于知识图谱的映 ...
    本站小编 Free考研考试 2022-01-02
  • 中文词汇增长研究
    摘要词汇增长研究能够分析文本的TTR在不同时期的变化,该文选取1954—2018年的中国政府工作报告为语料,分析文本中词例与词种的曲线变化,挖掘政府工作报告中的词汇丰富度与政策的相互关系。该文首先对语料进行了分词,然后根据曲线拟合效果选择拟合更好的Heaps模型进行预测。以中国的“五年计划”作为基础 ...
    本站小编 Free考研考试 2022-01-02
  • 一种融入实体描述的自适应知识表示模型
    摘要知识表示学习旨在在连续的低维向量空间中表示知识图谱的实体和关系,但是现有的表示模型大多仅利用三元组的结构信息,而忽略了具有丰富语义的实体描述信息。为此,该文提出了一种基于实体描述的联合表示模型(jointrepresentationbasedonentitydescriptions,JRED)。 ...
    本站小编 Free考研考试 2022-01-02
  • 基于大规模语料库的现代汉语动宾搭配知识库构建
    摘要汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要。各种搭配中,动宾搭配能够反映句子轮廓,并在数量和多样性方面具有优势地位,故该文聚焦于构建现代汉语动宾搭配知识库,以期为自然语言 ...
    本站小编 Free考研考试 2022-01-02
  • 结合平移关系嵌入和CNN的知识图谱补全
    摘要为解决基于翻译机制的知识图谱补全模型在处理复杂关系时的性能局限,该文提出一种ATREC(algorithmbasedontransitionalrelationembeddingviaCNN)算法,将三元组的实体和关系映射至低维向量空间,并将不同的关系特征与头/尾实体融合,将原始三元组和融合三元 ...
    本站小编 Free考研考试 2022-01-02
  • 一种基于门控空洞卷积的高效中文命名实体识别方法
    摘要近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致GPU的并行计算能力无法被充分利用。普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险。针对以上问题,该文采用可通过参数调节感受野范围的空洞卷积,并引入 ...
    本站小编 Free考研考试 2022-01-02
  • 基于多源知识图谱融合的智能导诊算法
    摘要患者网上挂号时常有挂错科室的现象,因此需要科室推荐应用,功能类似线下医院的护士台预诊。然而,由于医院科室设置不尽相同,患者各项特征和科室之间的关系也不明确,给自动科室推荐带来挑战。因此,该文首先定义了带权重的知识图谱,用于描述症状、疾病以及性别等特征与科室和医院之间复杂的量化关系。其次,利用区域 ...
    本站小编 Free考研考试 2022-01-02
  • 基于Transformer网络的中文单字词检错方法研究
    摘要错别字自动识别是自然语言处理中一项重要的研究任务,在搜索引擎、自动问答等应用中具有重要价值。尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低。该文提出了一种基于Transformer网络的中文单字词检错方法。首先,该文通过充分 ...
    本站小编 Free考研考试 2022-01-02