摘要汉语方言分区研究是语言学的重要组成部分。鉴于传统基于词汇和语法的人工方言分区方法具有一定的主观性,该文研究了如何有效利用语音本身特征进行方言的自动分区。论文首先构建了江西省11个省辖市、91个下辖县级行政区的时长约1 500分钟的1 223条语音语料库,然后在传统的MFCC语音特征提取基础上,提出了基于CNN的自编码降维语谱图的深度学习特征提取模型,对降维后的语音特征分别采用k均值算法聚类、高斯混合聚类和层次聚类对方言自动分区。实验结果表明,新型语谱图特征的聚类性能度量内部指标DBI指数以及DI指数显著优于传统MFCC特征,维度为16时语谱图和MFCC下的拼接特征聚类效果与传统人工方言分区较为接近。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3110
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于语谱图的江西境内赣方言自动分区研究
本站小编 Free考研考试/2022-01-02
相关话题/语法 语言学 指标 汉语 实验
基于深层语言模型的古汉语知识表示及自动断句研究
摘要古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于大规模语料库的现代汉语动宾搭配知识库构建
摘要汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要。各种搭配中,动宾搭配能够反映句子轮廓,并在数量和多样性方面具有优势地位,故该文聚焦于构建现代汉语动宾搭配知识库,以期为自然语言 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于层次分析法的汉语词汇综合复杂度量化分析
摘要在国际汉语教学中,词汇综合复杂度的量化研究有利于汉语二语学习者词汇习得顺序的确定,有利于教材编写过程中词汇的选择,有利于教师更加有效地组织课堂教学,最终提高教学效果。该文在对词汇的构词汉字属性、词汇一般属性、词汇统计属性等特征进行分析的基础上,构造了基于层次分析法(analytichierarc ...中科院软件研究所 本站小编 Free考研考试 2022-01-02临床检验指标术语库的构建与病历挖掘应用
摘要由于上海市区域医疗健康平台整合了38家三级医院的电子病历,各医院表述同一临床检验指标的多样性和歧义性已严重影响病历挖掘研究。然而现有术语库理论性强,难以覆盖实际临床用语,需要构建融合38家医院的临床检验指标术语库。针对该问题,在模式图定义、知识抽取、知识融合和知识校验4个步骤基础上,提出半自动的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02汉语中介语的依存句法标注规范及标注实践
摘要汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步骤,英语中介语的依存语法标注语料已经有很好的应用,目前汉语中介语语料库对句法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于抽象语义表示的汉语构式标注与分析
摘要构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难。因此,亟需研究构式的结构标注方法及构建相应语料库。由于构式的语义结构与句法结构有较大差异,该文使用中文抽象语义表示(CAMR)来直接标注构式的语义结构。目前收录最全的构式库是 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02汉语篇章依存结构的标注难点与处理
摘要篇章依存结构一般表示为最小篇章单位(小句)间的支配与被支配关系,相比修辞结构等,其可以有效刻画最小篇章单位间的直接关系及其向心性。篇章依存结构的理论内涵及具体实践有待深入。该文结合汉语篇章依存结构语料库的标注实践,重点分析标注难点问题并给出处理方案,包括小句切分、小句关联、依存中心等重要分析任务 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于高斯混合模型的现代汉语构式成分自动标注方法
摘要现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02三元搭配视角下的汉语动词语义角色知识库构建
摘要动词语义角色一直是国内外语言学界研究的重点和难点。在自然语言处理领域,相关的语言资源也在逐步构建。对于汉语而言,国内大部分工作集中在语义角色标注上。该文创造性地提出了一种三元搭配的动词语义角色知识表征形式,并在前人研究的基础上,提出了一套语义角色分类体系。在该体系指导下,对汉语动词进行了穷尽式的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于平行周遍原则的汉语未登录词的知识表示与预测
摘要汉语未登录词的知识表示与预测,包括词性、构词结构、词义等项目,是计算语言学领域中的基础性问题。该文依据“平行周遍”原则,从现有的语义构词知识中提取“平行条件”,将未登录词潜在的构词因素与这些“平行条件”进行适应性匹配,从而对其知识表示进行相对完整的预测。该方法将新的语言学理论与未登录词的理解应用 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02