摘要:图作为一种基本的数据类型,是对现实世界中对象及其关联关系的一种抽象.现实中,许多科学问题都可以被模型化为图的问题,因此,对图数据进行分析非常重要.图数据分析在语义Web分析、社交网络、生物基因分析以及信息检索等领域有着广泛的应用.随着移动互联、物联网等信息技术的发展,图数据的规模处于持续增长的状态.为了能够应对大规模图数据的高效分析和计算,Google提出了Pregel分布式图处理框架.此后,学术界和工业界提出了许多基于Pregel框架的优化技术和系统实现.在充分调研和分析的基础上,首先总结出分布式图处理系统的3个优化目标;其次,从计算粒度、任务调度、通信方式、负载划分这4个维度,综述现有分布式图处理系统中的各类优化技术;最后,对该领域未来的研究内容和发展方向进行了探讨与展望.
Abstract:Well recognized as a primitive data structure, graph is an abstraction of objects and their pairwise connections. There exists a wide spectrum of applications, including semantic web analysis, social network analysis, biological genetic analysis and information retrieval, which can be modeled as graphs. Therefore, it is of great importance to conduct data analysis over these applications. With the development of information technology such as mobile Internet and Internet of things, the scale of graph data is increasing continuously and rapidly. To provide fast analysis over large-scale graph data, Pregel was first proposed as a distributed graph processing framework by Google. Since then, based on Pregel framework, a variety of optimization techniques and systems have been proposed by academic and industrial communities. Through extensive investigation and analysis, this paper first establishes three optimization objectives for the state-of-the-arts solutions to build distributed graph processing systems. Subsequently, it reviews mainstream optimizing techniques for the state-of-the-arts solutions from the perspective of computation granularity, task scheduling, communication mode and load balance. Finally, the paper discusses some open research problems and possible future research directions in this field.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5450
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
分布式图处理系统技术综述
本站小编 Free考研考试/2022-01-02
相关话题/数据 优化 计算 技术 系统
动态图模式匹配技术综述
摘要:随着大数据时代的到来,多源异构数据的快速增长已经成为开放性问题,数据之间的内在关联通常可以用图数据的形式来表现.然而在实际应用中,例如网络安全分析和社交网络舆情分析,描述实体对象之间关系的图数据的结构和内容往往不是固定不变的,图数据的结构以及节点和边的属性会随着时间的推移发生更新变化.因此,如 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02路网环境下的最近邻查询技术
摘要:最近邻查询作为基于位置服务的重要支持性技术之一,引起了众多****的广泛关注和深入研究.相对于欧式空间而言,路网环境下的最近邻查询更贴近人们的生活,有着更重要的研究意义.路网环境下庞大的数据量和复杂的数据结构,使得最近邻查询的操作代价变得非常昂贵,如何有效地提高查询效率,是研究者面临的主要挑战 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于循环神经网络的数据库查询开销预测
摘要:在数据库负载管理、性能调优过程中,开销预测模型是提高其效率的关键技术.首先,由于数据库系统的复杂性和计算机资源的竞争,很难精确地估计不同操作的开销;其次,现有的研究大多没有真正预测查询的执行时间,而是预测了类似查询优化器中开销模型生成的开销;由于查询计划结构的复杂性,现有研究更多地使用了笼统的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于向量引用Platform-Oblivious内存连接优化技术
摘要:以MapD为代表的图分析数据库系统通过GPU、Phi等新型众核处理器来支持高性能分析处理,在面向复杂数据模式时,连接操作仍然是重要的性能瓶颈.近年来,异构处理器逐渐成为高性能计算的主流平台,内存连接性能的研究从多核CPU平台扩展到新兴的众核处理器,但众多的研究成果并未系统地揭示连接算法性能、连 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02应对倾斜数据流在线连接方法
摘要:并行环境下的分布式连接处理要求制定划分策略以减少状态迁移和通信开销.相对于数据库管理系统而言,分布式数据流管理系统中的在线θ连接操作需要更高的计算成本和内存资源.基于完全二部图的连接模型可支持分布式数据流的连接操作.因为连接操作的每个关系仅存放于二部图模型的一侧处理单元,无需复制数据,且处理单 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02经验研究中情景感知需求获取与建模系统文献综述
摘要:情景感知(contextaware)的应用是当前的一个研究热点,但是,由于情景的复杂性和不确定性,如何获取这些应用的需求面临着巨大挑战,需求工程领域出现了大量的研究来解决这一挑战.使用系统文献综述(systematicliteraturereview)的方法首先分析了不同情景维度对需求获取与建 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02非刚性三维模型检索特征提取技术研究
摘要:三维模型特征描述符是一种简洁且信息量丰富的表示方式,特征提取是许多三维模型分析处理任务的关键步骤.近年来,针对非刚性三维模型特征提取技术的研究引起了人们的广泛关注.首先,汇总了常用的非刚性三维模型基准数据集和算法评价标准;然后,在广泛调研大量文献和最新成果的基础上,将非刚性三维模型特征分为人工 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02众包软件测试技术研究进展
摘要:众包测试是一种新兴的软件测试方式,得到了学术界和工业界的广泛关注.系统地总结了近年来众包软件测试研究的学术文献以及工业界实践进展:首先,从学术文献涉及的研究主题演变、涵盖的软件测试问题和众包测试流程、采用的实验对象及测试人员规模等多个角度对相关文献中提出的技术和方法进行了汇总;然后,从测试领域 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02分布式数据库中一致性与可用性的关系
摘要:随着各类应用在数据量和业务量上的扩展,单机数据库系统越发难以应对现实需求.分布式数据库能够根据业务的需求动态地扩容,因此逐步开始受到应用的青睐.近年来,分布式数据库产品层出不穷,并在互联网应用中被大量投入使用.然而,分布式数据库的系统复杂度前所未有.为了让系统可用,设计者需要在多种属性中作合理 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02可扩展机器学习的并行与分布式优化算法综述
摘要:机器学习问题通常会转换成一个目标函数去求解,优化算法是求解目标函数中参数的重要工具.在大数据环境下,需要设计并行与分布式的优化算法,通过多核计算和分布式计算技术来加速训练过程.近年来,该领域涌现了大量研究工作,部分算法也在各机器学习平台得到广泛应用.针对梯度下降算法、二阶优化算法、邻近梯度算法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02