删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

藏文词向量相似度和相关性评测集构建

本站小编 Free考研考试/2022-01-02

摘要词向量评测是词向量研究的基础,包括内部评测(intrinsic evaluation)和外部评测(extrinsic evaluations)。外部评测是将得到的词向量应用到具体某个任务中进行评测,是词向量研究的目标。内部评测是通过建立词之间的语义相似度或相关性能力的评测集,评价词向量模型的性能,是一种常用的词向量评测方式。该文通过分析英文、汉文词向量评测集构建方法,结合藏文的特点,研究藏文词向量评测集构建方法,构建了用于评价藏文词向量相似度和相关性的评测集TWordSim215和TWordRel215,并分析其有效性。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2801
相关话题/英文 基础 向量 藏文 相关性

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于轨迹时空词向量的用户年龄特征识别
    摘要用户移动上网访问基站的轨迹数据从时间和空间上反映了用户的生活习惯和行为模式。时间和空间信息同时产生不应分别考虑。因此,该文在传统的TF-IDF方法基础上提出了与时间相关的TFT-IDFT方法,用以提取轨迹点语义信息,进而采用word2vec方法将轨迹数据转化为文档分析。提取包含位置信息和语义信息 ...
    本站小编 Free考研考试 2022-01-02
  • 基于跨语言词向量模型的蒙汉查询词扩展方法研究
    摘要跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多****的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联 ...
    本站小编 Free考研考试 2022-01-02
  • 藏文句子语义块识别方法
    摘要语义理解是自然语言理解的一项关键任务,传统上采用以语法为中心的词法和句法分析等技术来解析句义。该文提出了一种以语义块分析藏文句义的新方法,其中藏文语义块识别通过采用Bi-LSTM和ID-CNN两种神经网络构架对该任务进行建模和对比分析。经实验,上述的两种模型在测试数据集上取得了良好的性能表现,F ...
    本站小编 Free考研考试 2022-01-02
  • 基于改进词向量GRU神经网络模型的藏语实体关系抽取
    摘要互联网数据的爆炸式增长,使得研究热点更多转向Web内容结构化分析。如果将藏语知识以结构化形式表示,那么将会有利于藏语知识的结构化分析和深度挖掘。该文提出了一种优化词向量的GRU神经网络模型进行藏语实体关系抽取的方法。在模型的训练中,加入了优化的词向量,在传统的词向量模型中结合藏语音节向量、音节位 ...
    本站小编 Free考研考试 2022-01-02
  • 基于主题词向量聚类的话题内新事件检测
    摘要目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进 ...
    本站小编 Free考研考试 2022-01-02
  • 基于笔画中文字向量模型设计与研究
    摘要中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用 ...
    本站小编 Free考研考试 2022-01-02
  • 基于词向量预训练的不平衡文本情绪分类
    摘要深度学习中处理不平衡问题的方法多为代价敏感和采样。该文在词向量迁移的基础上提出预训练任务选择方法。用利于小类别区分的预训练词向量来初始化目标模型,并结合均衡过采样充分利用样本信息保持模型在大类别上的精度,使模型提取的文本特征在大小类别上具有公平性,从特征层面实现了平衡效果。实验结果表明,在文本情 ...
    本站小编 Free考研考试 2022-01-02
  • 基于领域知识的增强约束词向量
    摘要词向量是一种词语的数字化的表达。基于神经网络模型,利用语料中词语之间的上下文关系这一约束条件,通过大量训练得到词向量。词向量在表达词的语义上的表现给人以无限的希望与想象空间,基于词向量的文本分类、人机对话、智能检索等得到了广泛的研究。该文针对校园信息查询的特定应用,建立了所涉及词语的分类本体,除 ...
    本站小编 Free考研考试 2022-01-02
  • 注意力的端到端模型生成藏文律诗
    摘要文本自动撰写在自然语言处理中是一个重要的研究领域,可通过人工智能的方法来提升文本的生成结果。目前主流的生成方法是基于深度学习的方法,而该文则提出了一种基于注意力的端到端模型生成藏文律诗法。该方法基本框架是一个双向LSTM的编码—解码模型,在此基础上引入了藏文字嵌入、注意力机制和多任务学习法。实验 ...
    本站小编 Free考研考试 2022-01-02
  • 基于声学音素向量和孪生网络的二语者发音偏误确认
    摘要随着自动大规模语音识别的不断发展,以自动语音识别为基础的计算机辅助发音教学也随之进步,作为传统教学方法的补充,它极大地弥补了传统教育资源不足以及传统教育方法无法及时给学习者反馈的缺陷。二语学习者的发音偏误确认和评价在计算机辅助发音训练中是较为重要的研究课题之一。针对二语者发音偏误的确认任务中缺少 ...
    本站小编 Free考研考试 2022-01-02