删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

跨数据源论文集成

本站小编 Free考研考试/2022-01-02

摘要该文研究跨数据源的论文集成问题,旨在将不同数据源中的同一论文匹配起来。该文提出了两个算法来解决论文匹配的问题,第一个算法(MHash)利用哈希算法来加速匹配,第二个算法(MCNN)利用卷积神经网络(CNN)来提高匹配的准确率。实验表明,结合论文的各种属性,MHash能够在快速得到匹配结果的同时,保持较高的准确率(93%+),而MCNN能够达到非常高的准确率(98%+)。同时,设计了一个针对大规模论文匹配的异步搜索框架,在15天内得到了64 639 608对AMiner和MAG论文的匹配结果。论文匹配结果和AMiner、MAG的全部论文数据已作为公开数据集发布。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2636
相关话题/论文 数据 设计 实验 算法

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 利用准私密社交网络文本数据检测抑郁用户的可行性分析
    摘要社交媒体的发展为抑郁用户的检测提供了一条新的途径。已有的相关研究通常是利用用户在Twitter、微博等社交网络平台上的用户行为数据或公开发表的文本内容,较少有利用微信朋友圈、QQ空间这种相对比较私密的社交网络数据。直观地,这类准私密社交网络数据更能反映用户的心理健康状况。该文主要讨论利用准私密社 ...
    本站小编 Free考研考试 2022-01-02
  • 异质信息网络中基于元路径的社团发现算法研究
    摘要实际的网络化数据往往包含多种类型的对象和关系,采用异质信息网络可以更好地对其建模,因此异质信息网络分析逐渐成为数据挖掘的研究热点。虽然同质信息网络中的社团发现已经被深入研究,但是异质信息网络中的社团发现还很少被研究。该文研究异质信息网络中的社团发现问题,提出了一个新的社团发现算法框架HCD(he ...
    本站小编 Free考研考试 2022-01-02
  • 基于叙词表的领域知识图谱初始种子集自动生成算法
    摘要随着认知计算的飞速发展,通用知识图谱的自动构建取得了极大的进步,但在垂直领域由于缺乏本体等语义信息,导致进展缓慢。叙词表广泛分布于各个专业领域且蕴藏着丰富的语义信息,如能对这些语义信息进行合理的提取和利用,必然能在一定程度上帮助领域知识图谱的自动构建。该文提出两个假设,利用假设可以从叙词表内部结 ...
    本站小编 Free考研考试 2022-01-02
  • 神经机器翻译中数据泛化与短语生成方法研究
    摘要该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨 ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据增强技术的神经机器翻译
    摘要神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模 ...
    本站小编 Free考研考试 2022-01-02
  • 蒙古文信息检索系统的设计与实现
    摘要该文针对传统蒙古文与西里尔蒙古文设计开发了一个功能完备的信息检索系统。在网页抓取方面,采用MD5算法对爬虫进行了改进,提升了爬虫的速度。在预处理阶段,对蒙古文文档进行了编码转换、词缀切分转换等操作。在检索方面,使用向量空间模型实现了对蒙古文文档的检索。在该文系统中加入了西里尔蒙古文到传统蒙古文转 ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据并行的神经语言模型多卡训练分析
    摘要数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIATITANX(Pascal)GPU设备在循环 ...
    本站小编 Free考研考试 2022-01-02
  • 融合K均值聚类和低秩约束的属性选择算法
    摘要针对无监督属性选择算法无类别信息和未考虑属性低秩等问题,该文提出了一种融合K均值聚类和低秩约束的属性选择算法。算法在线性回归的模型框架中有效地嵌入自表达方法,同时利用K均值聚类产生伪类标签最大化类间距以更好地稀疏结构,并使用l2,p-范数代替传统的l2,1-范数,通过参数p来灵活调节结果的稀疏性 ...
    本站小编 Free考研考试 2022-01-02
  • 基于深度学习的论文个性化推荐算法
    摘要该文基于学术搜索和数据挖掘平台Aminer向用户进行个性化推荐,提出了结合协同过滤推荐和基于内容推荐的混合模型,实验表明该算法可以有效解决新物品的推荐问题,即冷启动问题。其中在基于内容推荐的模型中,融合深度学习的方法,引进了词向量模型,将用户和论文映射到用词向量空间,并使用WMD(WordMov ...
    本站小编 Free考研考试 2022-01-02
  • 儿童外语学习认知数据收集的在线游戏框架
    摘要近年来,人工智能技术飞速发展,不少工作试图从人类的认知发展过程中探索前进方向,语言学习认知的过程成为了重点关注的研究领域。已有的语言认知研究工作主要集中在学龄前儿童母语的词汇学习认知方面,依赖于WordBank①等大规模语料库。然而就我们所知,目前在第二语言学习方面研究不多,尚未有大规模的第二语 ...
    本站小编 Free考研考试 2022-01-02