摘要实际的网络化数据往往包含多种类型的对象和关系,采用异质信息网络可以更好地对其建模,因此异质信息网络分析逐渐成为数据挖掘的研究热点。虽然同质信息网络中的社团发现已经被深入研究,但是异质信息网络中的社团发现还很少被研究。该文研究异质信息网络中的社团发现问题,提出了一个新的社团发现算法框架HCD(heterogeneous community detection)。该框架由两部分组成: 基于单条元路径的社团发现算法HCD_sgl和融合多条元路径的社团发现算法HCD_all。HCD_sgl首先确定在给定元路径下所有节点的初始标签,再利用改进的标签传递算法进行最终的社团发现;HCD_all是在HCD_sgl的基础上将基于多条元路径的社团发现结果进行融合。通过在真实数据集和人工数据集上的实验验证了HCD算法的有效性。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2641
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
异质信息网络中基于元路径的社团发现算法研究
本站小编 Free考研考试/2022-01-02
相关话题/数据 实验 基础 社团 发现
神经机器翻译中数据泛化与短语生成方法研究
摘要该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向复杂有权网络的社区发现方法研究
摘要复杂网络中节点之间的连接强度会在很大程度上影响网络的社区结构,利用权重来刻画连接强度的差异性,并将其应用到社区发现研究中具有重要的意义。针对目前有权网络的社区发现方法存在的不足,该文结合节点的直接连边权重和基于共同邻居节点的连边权重,提出了一种改进的节点相关度度量准则。进一步基于这种改进的节点相 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据增强技术的神经机器翻译
摘要神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据并行的神经语言模型多卡训练分析
摘要数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIATITANX(Pascal)GPU设备在循环 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向领域的高质量微博用户发现
摘要在微博系统中,寻找高质量微博用户进行关注是获取高质量信息的前提。该文研究高质量微博用户发现问题,即给定领域词查询,系统根据用户质量返回相关用户排序列表。将该问题分解成两个子问题:一是领域相关用户的检索问题,二是微博用户排序问题。针对用户检索问题,提出了基于用户标签的用户表示方法以及基于维基百科的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02在线技术社区的用户技能与兴趣发现
摘要在线技术社区是技术爱好者或者从业者进行技术交流、咨询和分享的重要平台。社区运营者如果能够准确掌握每个用户的技能和兴趣,对用户进行画像,将有助于为用户提供精准的推荐和个性化服务,从而增加用户的黏性和社区的活跃度。考虑到社区用户既是内容的生产者(作者)又是内容的消费者(读者),生产者体现用户技能,消 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02儿童外语学习认知数据收集的在线游戏框架
摘要近年来,人工智能技术飞速发展,不少工作试图从人类的认知发展过程中探索前进方向,语言学习认知的过程成为了重点关注的研究领域。已有的语言认知研究工作主要集中在学龄前儿童母语的词汇学习认知方面,依赖于WordBank①等大规模语料库。然而就我们所知,目前在第二语言学习方面研究不多,尚未有大规模的第二语 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02DRTE:面向基础教育的术语抽取方法
摘要术语抽取从非结构化文本中自动抽取专业术语。该工作在中文分词、信息抽取、知识库构建中发挥着重要的作用。当前术语抽取方法很大程度上依赖于词的统计信息,由于基础教育学科中术语具有极强的长尾特性,导致基于统计的术语抽取方法很难抽取出处于尾端的术语。该文结合基础教育的学科特点,提出了DRTE:一种利用术语 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02MHW蒙古文脱机手写数据库及其应用
摘要建立公开、权威的蒙古文手写数据库是研究和开发蒙古文手写识别系统的基础。该文在蒙古文编码、构词和语法的研究基础上,公开了一个蒙古文大词汇量脱机手写数据库MHW,其中训练集由5000个单词构成,每个词采集了20个样本,共包含10万样本,测试集Ⅰ包含5000样本,测试集Ⅱ包含14085样本。该文利用蒙 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于动态赋权近邻传播的数据增量采样方法
摘要:数据采样是快速提取大规模数据集中有用信息的重要手段,为更好地应对越来越大规模的数据高效处理要求,借助近邻传播算法的优异性能,通过引入分层增量处理和样本点动态赋权策略,实现了一种能够非常有效地平衡处理效率和采样质量的新方法.其中的分层增量处理策略考虑将原始的大规模数据集进行分批处理后再综合;而样 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02