摘要:在复杂网络理论中,core分解是一种最基本的度量网络节点"重要性"并分析核心子图的方法.Core分解广泛应用于社交网络的用户行为分析、复杂网络的可视化、大型软件的代码静态分析等应用.随着复杂网络的图数据规模和复杂性的增大,现有研究工作基于多核CPU环境设计core分解并行算法,由于CPU核数和内存带宽的局限性,已经无法满足大数据量的高性能计算需求,严重影响了复杂网络的分析应用.通用GPU提供了1万以上线程数的高并行计算能力和高于100GB/s访存带宽,已被广泛应用于大规模图数据的高效并行分析,如广度优先遍历和最短路径算法等.为了实现更为高效的core分解,提出面向GPU平台下的复杂网络core分解的两种并行策略.第1种RLCore策略基于图遍历思想,利用GPU高并发计算能力对网络图结构自底向上遍历,逐步迭代设置各节点所属的core层;第2种ESCore策略基于局部收敛思想,对各节点从邻居节点当前值进行汇聚计算更新直至收敛.ESCore相比RLCore能够大大降低遍历过程中GPU线程更新同一节点的同步操作开销,而其算法的迭代次数受收敛率的影响.在真实网络图数据上的实验结果表明,所提出的两个策略在效率和扩展性方面能够大幅优于现有其他方法,相比单线程上的算法高达33.6倍性能提升,且遍历边的吞吐性能(TEPS)达到406万条/s,单轮迭代的ESCore的执行效率高于RLCore.
Abstract:To analysis the complex networks, core decomposition is a basic and efficient strategy to distinguish the relative importance of nodes and to discover a special family of core subgraphs in networks. After core decomposition, every node in each k-core subgraph connects to other k neighbor nodes internally. The core decomposition has been widely applied in several application scenarios, e.g., user behavior analysis in social networks, visualization of complex networks, static analysis in large system software project, etc. With the increasing scale and complexity of networks, existing works, which mostly focus on the multi-core CPU-based implementation of core decomposition, cannot satisfy the high performance of core decomposition in large-scale complex networks. Meanwhile, GPU provides not only massive parallelism degree (up to 10 000 threads) but also efficient memory I/O bandwidth (approximately 100 GB/s), which makes it an excellent hardware platform for large graph structure analytic, such as BFS (breadth first search), SSSP (single source shortest path) algorithms. This study proposes two strategies to enhance the parallel performance of core decomposition on GPU-based platform. An algorithm, RLCore, is first presented which exploits GPU-based bottom-up traverse approach and recursively distinguishes the core levels of nodes by considering their degree and edges. Then, a second optimal algorithm is proposed to improve performance and scalability, namely ESCore, based on the locality property of core decomposition. In ESCore, nodes gather and update their core level values from their neighbors, until there is no update among nodes. Compared to RLCore, ESCore strategy reduces the synchronization overhead from multi-thread contention when scaling to massive parallelism, whereas the iteration number of ESCore is depended on the convergence of nodes. From the evaluation results, two proposed acceleration algorithms achieve maximum 4.06 billion TEPS (traversed edges per second), which corresponds to up to 33.6X speedup compared to a single threaded CPU execution.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5627
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
面向GPU平台的复杂网络core分解方法研究
本站小编 Free考研考试/2022-01-02
相关话题/网络 数据 计算 代码 实验
人工智能赋能的数据管理技术研究
摘要:大数据时代,数据规模庞大、数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.人工智能赋能的数据库系统通过对数据分布、查询负载、性能表现等特征进行建模和学习,自动地进行查询负载预测、数据库配置参数调优、数据分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02人工智能赋能的数据管理、分析与系统专刊前言
摘要:大数据时代,数据规模庞大,数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.专刊强调数据管理与人工智能的深度融合,研究人工智能赋能的数据库新技术和新型系统,包括两方面:(1)传统数据管理、数据分析技术及系统 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向关系数据库的智能索引调优方法
摘要:数据库索引是关系数据库系统实现快速查询的有效方式之一.智能索引调优技术可以有效地对数据库实例进行索引调节,从而保持数据库高效的查询性能.现有的方法大多利用了数据库实例的查询日志,它们先从查询日志中得到候选索引,再利用人工设计的模型选择索引,从而调节索引.然而,从查询日志中产生出的候选索引可能并 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向数据特征的内存跳表优化技术
摘要:跳表作为数据库中被广泛采用的索引技术,优点在于可以达到类似折半查找的复杂度O(log(n)).但是标准跳表算法中,结点的层数是通过随机算法生成的,这就导致跳表的性能是不稳定的.在极端情况下,查找复杂度会退化到O(n).这是因为经典跳表结构没有结合数据的特征.一个稳定的跳表结构应该充分考虑数据的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于相关性分析的工业时序数据异常检测
摘要:多维时间序列上的异常检测,是时态数据分析的重要研究问题之一.近年来,工业互联网中传感器设备采集并积累了大量工业时间序列数据,这些数据具有模式多样、工况多变的特性,给异常检测方法的效率、效果和可靠性均提出更高要求.序列间相互影响、关联,其隐藏的相关性信息可以用于识别、解释异常问题.基于此,提出一 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向多维稀疏数据仓库的欺诈销售行为挖掘
摘要:分销渠道系统中,产品制造商会分配给销售额较大的分销商更多返点利润鼓励销售,而分销商之间可能会联合起来将多个分销商的销售业绩累计在其中一个分销商上,获取高额利润,这种商业欺诈行为被称为挂单或窜货.由于数据中大量正常极值点的存在,使得传统异常探测算法很难区分正常极值和由挂单导致的异常极值;另外,多 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于图神经网络的动态网络异常检测算法
摘要:动态变化的图数据在现实应用中广泛存在,有效地对动态网络异常数据进行挖掘,具有重要的科学价值和实践意义.大多数传统的动态网络异常检测算法主要关注于网络结构的异常,而忽视了节点和边的属性以及网络变化的作用.提出一种基于图神经网络的异常检测算法,将图结构、属性以及动态变化的信息引入模型中,来学习进行 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02轩辕:AI原生数据库系统
摘要:大数据时代下,数据库系统主要面临3个方面的挑战:首先,基于专家经验的传统优化技术(如代价估计、连接顺序选择、参数调优)已经不能满足异构数据、海量应用和大规模用户对性能的需求,可以设计基于学习的数据库优化技术,使数据库更智能;其次,AI时代,很多数据库应用需要使用人工智能算法,如数据库中的图像搜 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02学习式数据库系统:挑战与机遇
摘要:通用的数据库系统为不同的应用需求与数据类型提供统一的处理方式,在取得了巨大成功的同时,也暴露了一定的局限性:由于没有结合具体应用的数据分布与工作负载,系统往往难以保证性能的最优.为了解决这一问题,"学习式数据库系统"成为了目前数据库领域的研究热点,它利用机器学习技术有效捕获负载与数据的特性,从 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02数据集成方法发展与展望
摘要:数据集成在数据管理与分析领域起着重要的作用.尽管从学术界首次提出并开始研究数据集成问题已经过去30多年,但在各个领域仍然存在着大量与数据集成问题密切相关的问题亟待解决.对数据集成领域从2001年开始到现在相关工作的发展脉络进行了梳理与总结.通过追踪数据集成方法的发展轨迹,不仅可以了解前人在解决 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02