删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

中文词汇增长研究

本站小编 Free考研考试/2022-01-02

摘要词汇增长研究能够分析文本的TTR在不同时期的变化,该文选取1954—2018年的中国政府工作报告为语料,分析文本中词例与词种的曲线变化,挖掘政府工作报告中的词汇丰富度与政策的相互关系。该文首先对语料进行了分词,然后根据曲线拟合效果选择拟合更好的Heaps模型进行预测。以中国的“五年计划”作为基础时间周期,对各周期模型预测值与现实观测值的差值进行分析,并与随机打乱后的文本计算结果进行对比,进一步验证了实验的结果。研究发现随着时间变化,词汇增长呈现出一定的倾向性: 在深化改革、新政策出台等时期,一般需要更多的词语来描述,此时观测值高于预测值,而在政策相对稳定的时期,对原有词汇的使用较多,此时观测值低于预测值。该文以中文语料作为研究对象,分析其历时变化,能够为中文词汇增长研究提供借鉴。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3068
相关话题/观测 政策 中文 基础 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 一种基于门控空洞卷积的高效中文命名实体识别方法
    摘要近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致GPU的并行计算能力无法被充分利用。普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险。针对以上问题,该文采用可通过参数调节感受野范围的空洞卷积,并引入 ...
    本站小编 Free考研考试 2022-01-02
  • 基于Transformer网络的中文单字词检错方法研究
    摘要错别字自动识别是自然语言处理中一项重要的研究任务,在搜索引擎、自动问答等应用中具有重要价值。尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低。该文提出了一种基于Transformer网络的中文单字词检错方法。首先,该文通过充分 ...
    本站小编 Free考研考试 2022-01-02
  • 基于篇章主题的中文宏观篇章主次关系识别方法
    摘要篇章分析是自然语言处理领域研究的热点和重点。作为篇章分析的任务之一,篇章主次关系研究篇章的主要和次要内容,从而更好地理解和把握篇章的核心内容。该文重点研究宏观领域的中文篇章主次关系,提出了一种基于篇章主题的中文宏观篇章主次关系识别方法。该方法利用篇章单元间、篇章单元与篇章主题间的语义交互来识别主 ...
    本站小编 Free考研考试 2022-01-02
  • 部首感知的中文医疗命名实体识别
    摘要人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移 ...
    本站小编 Free考研考试 2022-01-02
  • 一个面向中文古诗词理解难易度的人工标注数据集
    摘要向读者推荐阅读难度合适的古诗词有助于提升读者的诗词鉴赏能力。现阶段,围绕古诗词可读性自动化分析的相关研究的突出局限之一是缺乏大规模高质量的数据集。针对该问题,该文研究面向古诗词可读性自动化分析的数据集构建。该文作者对外开放了包含1915篇古诗词的标注阅读理解难度的数据集①。该文首先将数据集划分成 ...
    本站小编 Free考研考试 2022-01-02
  • 精细化的中文词性标注评测集的研制
    摘要该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5873句、涵盖了2326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精 ...
    本站小编 Free考研考试 2022-01-02
  • 用于社交媒体的中文命名实体识别
    摘要社交领域的中文命名实体识别(NER)是自然语言处理(NLP)中一项重要的基础任务。目前基于词粒度信息或者外部知识的中文命名实体识别方法,都会受到中文分词(CWS)和溢出词(OOV)等问题的影响。因此,该文提出了一种基于字符的使用位置编码和多种注意力的对抗学习模型。联合使用位置编码和多头注意力能够 ...
    本站小编 Free考研考试 2022-01-02
  • 基于HRED模型的中文多轮对话任务方法研究
    摘要多轮对话任务是自然语言处理中最具有实用价值的技术之一,该任务要求系统在产生通顺回答语句的同时能够照顾到上下文信息。近年来,出现了一大批以HRED(hierarchicalrecurrentencoder-decoder)模型为基础的多轮对话模型,其运用多层级的循环神经网络来编码上下文信息,并在M ...
    本站小编 Free考研考试 2022-01-02
  • 融合空洞卷积神经网络与层次注意力机制的中文命名实体识别
    摘要该文针对现有的命名实体识别(namedentityrecognition,NER)模型未考虑到文本层次化结构对实体识别的重要作用,以及循环神经网络受其递归性的限制导致计算效率低下等问题,构建了IDC-HSAN模型(IteratedDilatedConvolutionsNeuralNetworks ...
    本站小编 Free考研考试 2022-01-02
  • 基于粗糙集和多通道词向量的中文文本情感特征分析
    摘要粗糙集是一种能够有效处理不精确、不完备和不确定信息的数学工具,粗糙集的属性约简可以在保持文本情感分类能力不变的情况下对文本情感词特征进行约简。针对情感词特征空间维数过高、情感词特征表示缺少语义信息的问题,该文提出了RS-WvGv中文文本情感词特征表示方法。利用粗糙集决策表对整个语料库进行情感词特 ...
    本站小编 Free考研考试 2022-01-02