删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于MapReduce的图结构聚类算法

本站小编 Free考研考试/2022-01-02

摘要:图结构聚类(SCAN)是一种著名的基于密度的图聚类算法,该算法不仅能够找到图中的聚类结构,而且还能发现图中的Hub节点和离群节点.然而,随着图数据规模越来越大,传统的SCAN算法的复杂度为Om1.5)(m为图中边的条数),因此很难处理大规模的图数据.为了解决SCAN算法的可扩展性问题,提出一种基于MapReduce的海量图结构聚类算法MRSCAN,这是一种计算核心节点以及两种合并聚类的MapReduce算法.最后,在多个真实的大规模图数据集上进行实验测试,实验结果验证了算法的准确性、有效性以及可扩展性.



Abstract:Graph Clustering is a fundamental task for graph mining which has been widely used in social network analysis related applications. Graph structural clustering (SCAN) is a well-known density-based graph clustering algorithm. SCAN algorithm can not only find the clusters in a graph, but also be able to identify hub nodes and outliers. However, with the growing graph size, the traditional SCAN algorithm is very hard to handle massive graph data, as its time complexity is O(m1.5) (m is the number of edges in the graph). To overcome the scalability issue of SCAN algorithm, this paper proposes a MapReduce based graph structural clustering algorithm, called MRSCAN. Specifically, the paper develops a MapReduce based similarity computation, a core node computation, as well as two clustering merging algorithms. In addition, it conducts extensive experiments over serval real-world graph datasets, and results demonstrate the accuracy, effectiveness, and scalability of the presented algorithm.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5456
相关话题/结构 数据 实验 测试 计算

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于循环神经网络的数据库查询开销预测
    摘要:在数据库负载管理、性能调优过程中,开销预测模型是提高其效率的关键技术.首先,由于数据库系统的复杂性和计算机资源的竞争,很难精确地估计不同操作的开销;其次,现有的研究大多没有真正预测查询的执行时间,而是预测了类似查询优化器中开销模型生成的开销;由于查询计划结构的复杂性,现有研究更多地使用了笼统的 ...
    本站小编 Free考研考试 2022-01-02
  • 多维图结构聚类的社交关系挖掘算法
    摘要:社交关系的数据挖掘一直是大图数据研究领域中的热门问题.图聚类算法如SCAN(structuralclusteringalgorithmfornetwork)虽然可以迅速地从海量图数据中获得关系紧密的社区结构,但这类社区往往只表示了社交对象的聚集,无法反馈对象间的真实社交关系,如家庭成员、同事、 ...
    本站小编 Free考研考试 2022-01-02
  • 应对倾斜数据流在线连接方法
    摘要:并行环境下的分布式连接处理要求制定划分策略以减少状态迁移和通信开销.相对于数据库管理系统而言,分布式数据流管理系统中的在线θ连接操作需要更高的计算成本和内存资源.基于完全二部图的连接模型可支持分布式数据流的连接操作.因为连接操作的每个关系仅存放于二部图模型的一侧处理单元,无需复制数据,且处理单 ...
    本站小编 Free考研考试 2022-01-02
  • Web服务组合测试综述
    摘要:随着面向服务技术和云计算技术的不断成熟,尤其是面向服务体系结构SOA的不断完善以及推广,其主要内容Web服务已经被广泛应用.为了充分利用Web服务并解决单个Web服务功能有限的问题,业界将多个原子Web服务按照一定的规则和业务逻辑进行组合,以提供更多功能更强大的服务,实现了Web服务的增值和复 ...
    本站小编 Free考研考试 2022-01-02
  • 众包软件测试技术研究进展
    摘要:众包测试是一种新兴的软件测试方式,得到了学术界和工业界的广泛关注.系统地总结了近年来众包软件测试研究的学术文献以及工业界实践进展:首先,从学术文献涉及的研究主题演变、涵盖的软件测试问题和众包测试流程、采用的实验对象及测试人员规模等多个角度对相关文献中提出的技术和方法进行了汇总;然后,从测试领域 ...
    本站小编 Free考研考试 2022-01-02
  • 分布式数据库中一致性与可用性的关系
    摘要:随着各类应用在数据量和业务量上的扩展,单机数据库系统越发难以应对现实需求.分布式数据库能够根据业务的需求动态地扩容,因此逐步开始受到应用的青睐.近年来,分布式数据库产品层出不穷,并在互联网应用中被大量投入使用.然而,分布式数据库的系统复杂度前所未有.为了让系统可用,设计者需要在多种属性中作合理 ...
    本站小编 Free考研考试 2022-01-02
  • 区块链与可信数据管理:问题与方法
    摘要:作为支撑比特币实现无中心高可信的账本管理的技术,区块链在金融领域得到了广泛关注.区块链实现了不完全可信环境中的可信数据管理,具有去中心化、防篡改、不可抵赖、强一致和完整性等特性,但同时也存在高延迟和低吞吐率的性能问题.在互联网技术发展、新型应用层出不穷的大背景下,借鉴区块链在数字加密货币应用中 ...
    本站小编 Free考研考试 2022-01-02
  • 物联网环境下数据转发模型研究
    摘要:随着5G移动通信技术、软件定义网络、命名数据网、移动边缘计算或雾计算等新兴技术或方法的出现及深入研究,物联网应用得到进一步升华.在这种应用场景多样化、服务质量高要求、参与对象普及化的环境下,隶属物联网子范畴的传统无线传感器网络数据转发模型已经不能完全适应这种时代需求,更加适合物联网应用的数据转 ...
    本站小编 Free考研考试 2022-01-02
  • 基于MODIS数据地表反照率时空变化特征及影响因子研究
    摘要摘要:地表反照率表征地球表面对太阳辐射的反射能力,是影响地表辐射能量收支平衡的关键参数。本文以淮河流域为例,利用MODIS(MODerateresolutionImagingSpectroradiometer)数据,采用网格趋势分析、异常变化分析、相关分析和灰色关联度分析等方法,分析了淮河流域2 ...
    本站小编 Free考研考试 2022-01-02
  • 基于MODIS数据地表反照率时空变化特征及影响因子研究
    摘要摘要:地表反照率表征地球表面对太阳辐射的反射能力,是影响地表辐射能量收支平衡的关键参数。本文以淮河流域为例,利用MODIS(MODerateresolutionImagingSpectroradiometer)数据,采用网格趋势分析、异常变化分析、相关分析和灰色关联度分析等方法,分析了淮河流域2 ...
    本站小编 Free考研考试 2022-01-02