删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

融合主题模型及双语词向量的汉缅双语可比文档获取方法

本站小编 Free考研考试/2022-01-02

摘要缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3076
相关话题/计算 汉语 语言 资源 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于层次分析法的汉语词汇综合复杂度量化分析
    摘要在国际汉语教学中,词汇综合复杂度的量化研究有利于汉语二语学习者词汇习得顺序的确定,有利于教材编写过程中词汇的选择,有利于教师更加有效地组织课堂教学,最终提高教学效果。该文在对词汇的构词汉字属性、词汇一般属性、词汇统计属性等特征进行分析的基础上,构造了基于层次分析法(analytichierarc ...
    本站小编 Free考研考试 2022-01-02
  • 面向中朝跨语言文本分类的双语主题词嵌入模型的研究
    摘要针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将两种模型相结合,解决了歧义性对跨语言文本分类精度带来的影响。首先,在大规模单词 ...
    本站小编 Free考研考试 2022-01-02
  • 汉语中介语的依存句法标注规范及标注实践
    摘要汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步骤,英语中介语的依存语法标注语料已经有很好的应用,目前汉语中介语语料库对句法 ...
    本站小编 Free考研考试 2022-01-02
  • 基于抽象语义表示的汉语构式标注与分析
    摘要构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难。因此,亟需研究构式的结构标注方法及构建相应语料库。由于构式的语义结构与句法结构有较大差异,该文使用中文抽象语义表示(CAMR)来直接标注构式的语义结构。目前收录最全的构式库是 ...
    本站小编 Free考研考试 2022-01-02
  • 汉语篇章依存结构的标注难点与处理
    摘要篇章依存结构一般表示为最小篇章单位(小句)间的支配与被支配关系,相比修辞结构等,其可以有效刻画最小篇章单位间的直接关系及其向心性。篇章依存结构的理论内涵及具体实践有待深入。该文结合汉语篇章依存结构语料库的标注实践,重点分析标注难点问题并给出处理方案,包括小句切分、小句关联、依存中心等重要分析任务 ...
    本站小编 Free考研考试 2022-01-02
  • 基于高斯混合模型的现代汉语构式成分自动标注方法
    摘要现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合 ...
    本站小编 Free考研考试 2022-01-02
  • 三元搭配视角下的汉语动词语义角色知识库构建
    摘要动词语义角色一直是国内外语言学界研究的重点和难点。在自然语言处理领域,相关的语言资源也在逐步构建。对于汉语而言,国内大部分工作集中在语义角色标注上。该文创造性地提出了一种三元搭配的动词语义角色知识表征形式,并在前人研究的基础上,提出了一套语义角色分类体系。在该体系指导下,对汉语动词进行了穷尽式的 ...
    本站小编 Free考研考试 2022-01-02
  • 语言知识驱动的词嵌入向量的可解释性研究
    摘要神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨。该文应用基于语言知识 ...
    本站小编 Free考研考试 2022-01-02
  • 基于平行周遍原则的汉语未登录词的知识表示与预测
    摘要汉语未登录词的知识表示与预测,包括词性、构词结构、词义等项目,是计算语言学领域中的基础性问题。该文依据“平行周遍”原则,从现有的语义构词知识中提取“平行条件”,将未登录词潜在的构词因素与这些“平行条件”进行适应性匹配,从而对其知识表示进行相对完整的预测。该方法将新的语言学理论与未登录词的理解应用 ...
    本站小编 Free考研考试 2022-01-02
  • 基于长时间跨度语料的词义演变计算研究
    摘要该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两类方法展开研究,计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语。针对历时语料上不同时间段的词向量对齐 ...
    本站小编 Free考研考试 2022-01-02