摘要:排序合并连接是数据库系统一种重要的连接实现方式,比哈希连接有更广泛的应用.分布式环境下,数据分片、分布存储,面对昂贵的网络代价,进行高效排序合并连接的挑战巨大.传统策略首先针对连接数据进行排序,然后基于排好序的数据执行合并连接.这两部分操作均基于原始数据进行操作,通常情况下,原始连接数据存在无用数据块,这些数据块无需连接,但会增加额外开销,包括网络开销.随着数据量的增多,出现无用数据块的概率增大,额外开销随之增多.传统策略没有预先处理这些无用数据块.针对这个问题,提出一种分布式环境下基于剪枝的并行排序合并连接策略(parallel sort-merge join based on prune,简称Pr_PSMJ).其特点是,连接发生之前高效完成对连接对象无用数据块的剪枝处理,提高整体连接效率.基本思想是,根据连接对象对应的连接分区数据统计信息,构造一种双边邻接表(bilateral adjacency list,简称BAL),用来对连接数据中无用数据块进行剪枝,并保证最终连接结果的正确性;剪枝完成后,利用BAL计算出各个最佳本地连接执行点,并指导分区数据的迁移,使数据移动量最小;在连接阶段,由于BAL保证本地连接执行节点的独立性,因此能够轻松并行执行整个连接过程,并在每个连接点本地利用多核环境完成局部并行排序合并连接;最后,将局部结果合并成最终结果.由于Pr_PSMJ中的高效剪枝策略是在连接执行之前完成的,因此几乎适合任何合并连接操作,并且对于其他连接策略也有借鉴作用.给出了基于Pr_PSMJ的算法的正确性、效率性以及适应性分析,并且给出实验验证,证明了在分布式大数据量排序合并连接情况下,Pr_PSMJ相对于其他策略能够有效减少网络开销,并提高连接效率.
Abstract:Sort-merge join is an important implementation method of join in database system, and is more widely used than hash join. Under distributed environment, data is sharded and distributed across many nodes, and usually needed to be transmitted by network which is very expensive. Therefore, it is far more challenging to efficiently process sort-merge join in distributed database. Traditional strategy firstly sorts data, and then carries out merge-join based on sorted data, which are both related with original data. But original data usually has useless data blocks, which does not participate in join, but will increase the extra cost during join including network cost. The bigger of data size, the higher of possibility of useless data blocks. Traditional sort-merge join strategy does not prehandle these useless data. In this study, a parallel sort-merge join is proposed based on prune, called Pr_PSMJ, which can efficiently prune the useless data ahead from join data, and improve the efficiency of join. Firstly, a bilateral adjacency list (BAL) is constructed by the statistic information from shards of join data. Using BAL, the useless data of join data can be pruned and the correctness of final join result is guaranteed. Secondly, after the pruning, the optimal local-join executing place can be computed by BAL, and the quantity of data mitigating among nodes is minimized. Finally, during the join step, for the independence of local-join guaranteed by BAL, the executing of sort-merge join can be easily parallelled, and in every executing node, it is natural to parallel the local-partitial-join using multi-core environment. The final result is achieved by merging local-result. Because high efficient prune operation is done before executing join, Pr_PSMJ is almost fit for every sort-merge strategy, and it is a good lesson for other join strategies. The correctness, efficiency, and adaptability of algorithm are analyzed based on Pr_PSMJ. By experiments, it is proved that under distributed environment, orienting large data, Pr_PSMJ can effectively decrease the overhead of network and improve the join efficiency than other strategies.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5579
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
分布式数据库下基于剪枝的并行合并连接策略
本站小编 Free考研考试/2022-01-02
相关话题/数据 环境 网络 信息 过程
引入序列信息的残基相互作用网络比对算法
摘要:残基相互作用网络比对,对于研究蛋白质结构与功能的关系具有重要意义.在基于网络拓扑信息进行网络比对的MAGNA算法基础上,将蛋白质的序列信息(即残基匹配度)引入到其优化函数中,确定拓扑信息和序列信息对比对的影响程度,提出适合于残基相互作用网络比对的SI-MAGNA算法.实验结果表明,SI-MAG ...中科院软件研究所 本站小编 Free考研考试 2022-01-02软件定义网络中延迟满足的路由选择与实时调度更新
摘要:由于数据流的动态性和流量负载转移,软件定义网络(softwaredefinednetworking,简称SDN)需要频繁更新数据平面以优化网络性能.大多数已有路由更新策略首先根据网络当前流量状态确定目标路由配置,然后更新数据流的路由.然而,由于交换机基于TCAM(ternarycontenta ...中科院软件研究所 本站小编 Free考研考试 2022-01-02公交网络下的一种费用限制最小时态路径查询索引
摘要:私人交通网络下的最短路径查询主要考虑路径长度、行驶时间等因素,而公共交通网络下的路径查询需要考虑路径上相邻的边的时间顺序约束以及路径的费用.研究了公共交通网络下3种查询:给定起点、终点、时间区间和费用上限,查找在时间区间内不超过费用上限的最早到达路径、最晚出发路径和最短耗时路径.首先给出一种D ...中科院软件研究所 本站小编 Free考研考试 2022-01-02包含跨域建模和深度融合网络的手绘草图检索
摘要:在手绘草图检索(sketch-basedimageretrieval,简称SBIR)领域,引入一种手绘草图的新型检索模型.手绘草图与自然图片之间存在巨大的差异性,这是因为,与自然图片相比,手绘草图展现出高度抽象的视觉表达,用现有的方法对手绘草图进行特征提取,其产生的特征描述子对于手绘草图的内容 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种多通路的分区域快速妆容迁移深度网络
摘要:妆容迁移是指把参考妆容迁移到素颜人脸上,并保持其上妆风格的一种任务.它提供了快速高效的候选妆容可视化的解决方案,得到了学术界和工业界的广泛关注.为了解决真实同人异妆数据的缺失,以及现有妆容迁移方法没有充分考虑人与人的五官差异而导致的迁移脸部结构丢失等问题,提出了一种多通路的分区域快速妆容迁移深 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02无菌条件非接触式多通道自然交互手术环境
摘要:无菌和非接触环境是医疗手术室的基本要求,这使得计算机操作室和手术室需要在物理上隔离.同时,因为手术进行中,主治医生如果需要查看病灶图像,通常授意护士或者手术助理到计算机操作室操作病灶图像,由于手术室和计算机操作室间的隔离,以及主治医生和助理间可能存在的意图理解不准确,容易导致护士或者手术助理在 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02多用户眼动跟踪数据的可视化共享与协同交互
摘要:随着数字图像处理技术的发展,以及计算机支持的协同工作研究的深入,眼动跟踪开始应用于多用户协同交互.但是已有的眼动跟踪技术主要针对单个用户,多用户眼动跟踪计算架构不成熟、标定过程复杂,眼动跟踪数据的记录、传输以及可视化共享机制都有待深入研究.为此,建立了基于梯度优化的协同标定模型,简化多用户的眼 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向比特币交易网络的拓扑结构可视探索方法
摘要:分析比特币交易网络有助于人们理解交易者在比特币交易中的交易模式.比特币交易网络的匿名性和其巨大的规模使得用户很难在分析前对整个交易网络产生大致的认知.提出了一种基于拓扑结构推荐的比特币交易网络可视分析方法.核心思想是为每个节点生成一个向量化表达,在用户交互的基础上,所提算法即可检测一系列相似的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02区块链数据管理专题前言
摘要:近几十年来,数据管理技术取得了飞速发展并在很多重要领域广泛应用.传统的数据库管理系统(包括分布式数据库)往往由单一机构进行管理和维护,该机构对整个数据库具有最高权限.这种模式并不适用于由非完全互信的多个机构共同管理数据,在互联网应用环境中该问题尤为突出.区块链作为一种去中心化、不可篡改、可追溯 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于区块链的档案数据保护与共享方法
摘要:针对现有档案数据管理中普遍存在的数据中心化存储、安全性差和防篡改性弱等问题,提出一种基于区块链的档案数据保护与共享方法:通过智能合约和数字签名技术,实现了数字档案馆的身份认证和档案所有权的确定;通过智能合约和星际文件系统(IPFS)等技术,实现了数字档案的保护、验证、恢复与共享;通过公有链与联 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02