删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

应对倾斜数据流在线连接方法

本站小编 Free考研考试/2022-01-02

摘要:并行环境下的分布式连接处理要求制定划分策略以减少状态迁移和通信开销.相对于数据库管理系统而言,分布式数据流管理系统中的在线θ连接操作需要更高的计算成本和内存资源.基于完全二部图的连接模型可支持分布式数据流的连接操作.因为连接操作的每个关系仅存放于二部图模型的一侧处理单元,无需复制数据,且处理单元相互独立,因此该模型具有内存高效、易伸缩和可扩展等特性.然而,由于数据流速的不稳定性和属性值分布的不均衡性,导致倾斜数据流的连接操作易出现集群负载不均衡的现象.针对倾斜数据流的连接操作,模型无法动态分配查询节点,并需要人工干预数据分组的参数设置.尤其是应对全部历史数据的连接查询,模型效率更低.基于上述问题,提出了管理倾斜数据流连接的框架,使用基于键值和元组混合的划分样式,有效应对二部图模型的各侧倾斜数据.设计了重新动态分配查询节点的策略和状态迁移算法,以支持全历史数据的连接查询和自适应的资源管理.针对合成数据和真实数据的实验结果表明,该方案可有效应对倾斜数据的连接操作,并进一步提升分布式数据流管理系统的吞吐率,特别是降低云环境中的计算成本.



Abstract:Scalable distributed join processing in a parallel environment requires a partitioning policy to transfer data while minimizing the size of migrated statement and the number of communicated messages. Online theta-joins over data streams are more computationally expensive and impose higher memory requirement in distributed data stream management systems (DDSMS) than standalone database management systems (DBMS). The complete bipartite graph-based model can support distributed stream joins, and has the characteristics of memory-efficiency, elasticity and scalability. This is because each relation is stored in its corresponding processing units without data replicas and the units are independent of each other. However, due to the instability of data stream rate and the imbalance of attribute value distribution, the online theta-joins over skewed data streams can lead to the load imbalance of cluster. In this case, the bipartite graph-based model is unable to allocate the query nodes dynamically, and requires to set parameters about the grouping manually. The more serious issue is that the effect of the full-history join is worse. In this paper, a framework for handling skewed stream join is presented for enhancing the adaptability of the join model and minimizing the system cost based on the varying workloads. The proposal includes a mixed key-based and tuple-based partitioning scheme to handle skewed data in each side of the bipartite graph-based model, a strategy for redistribution of query nodes in two sides of this model, and a migration algorithm about state consistency to support full-history joins and adaptive resource management. Experiments with synthetic data and real data show that the presented method can effectively handle skewed data streams and improve the throughput of DDSMS, and it also effective especially on reducing the operational cost in the cloud environment.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5440
相关话题/数据 环境 计算 设计 资源

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 分布式数据库中一致性与可用性的关系
    摘要:随着各类应用在数据量和业务量上的扩展,单机数据库系统越发难以应对现实需求.分布式数据库能够根据业务的需求动态地扩容,因此逐步开始受到应用的青睐.近年来,分布式数据库产品层出不穷,并在互联网应用中被大量投入使用.然而,分布式数据库的系统复杂度前所未有.为了让系统可用,设计者需要在多种属性中作合理 ...
    本站小编 Free考研考试 2022-01-02
  • 区块链与可信数据管理:问题与方法
    摘要:作为支撑比特币实现无中心高可信的账本管理的技术,区块链在金融领域得到了广泛关注.区块链实现了不完全可信环境中的可信数据管理,具有去中心化、防篡改、不可抵赖、强一致和完整性等特性,但同时也存在高延迟和低吞吐率的性能问题.在互联网技术发展、新型应用层出不穷的大背景下,借鉴区块链在数字加密货币应用中 ...
    本站小编 Free考研考试 2022-01-02
  • 物联网环境下数据转发模型研究
    摘要:随着5G移动通信技术、软件定义网络、命名数据网、移动边缘计算或雾计算等新兴技术或方法的出现及深入研究,物联网应用得到进一步升华.在这种应用场景多样化、服务质量高要求、参与对象普及化的环境下,隶属物联网子范畴的传统无线传感器网络数据转发模型已经不能完全适应这种时代需求,更加适合物联网应用的数据转 ...
    本站小编 Free考研考试 2022-01-02
  • 基于MODIS数据地表反照率时空变化特征及影响因子研究
    摘要摘要:地表反照率表征地球表面对太阳辐射的反射能力,是影响地表辐射能量收支平衡的关键参数。本文以淮河流域为例,利用MODIS(MODerateresolutionImagingSpectroradiometer)数据,采用网格趋势分析、异常变化分析、相关分析和灰色关联度分析等方法,分析了淮河流域2 ...
    本站小编 Free考研考试 2022-01-02
  • 基于MODIS数据地表反照率时空变化特征及影响因子研究
    摘要摘要:地表反照率表征地球表面对太阳辐射的反射能力,是影响地表辐射能量收支平衡的关键参数。本文以淮河流域为例,利用MODIS(MODerateresolutionImagingSpectroradiometer)数据,采用网格趋势分析、异常变化分析、相关分析和灰色关联度分析等方法,分析了淮河流域2 ...
    本站小编 Free考研考试 2022-01-02
  • 中国动植物自然物候长序列数据集研制
    摘要摘要:中国气象档案馆馆藏1981年以来的木本、草本、虫鸟两栖动物自然物候观测资料,是现有中国境内覆盖范围最广、持续时间最长的自然物候观测数据。通过对数字化档案与电子报文进行数据清洗与质量控制,研制出1981~2018年中国动植物自然物候长序列数据集,分为木本、草本、虫鸟两栖动物3个子集。其中草本 ...
    本站小编 Free考研考试 2022-01-02
  • 中国动植物自然物候长序列数据集研制
    摘要摘要:中国气象档案馆馆藏1981年以来的木本、草本、虫鸟两栖动物自然物候观测资料,是现有中国境内覆盖范围最广、持续时间最长的自然物候观测数据。通过对数字化档案与电子报文进行数据清洗与质量控制,研制出1981~2018年中国动植物自然物候长序列数据集,分为木本、草本、虫鸟两栖动物3个子集。其中草本 ...
    本站小编 Free考研考试 2022-01-02
  • 基于CERES观测数据的全球行星反照率时空变化特征分析
    摘要摘要:为了理解行星反照率时空变化规律及成因,基于CERES数据对全球行星反照率的大气(主要为云与气溶胶等)和地表贡献进行了分解,通过Theil-Sen+Mann-Kendall方法得到了2001~2018年全球行星反照率及其大气和地表贡献的时空变化趋势,并基于回归分析方法对典型区域的变化趋势进行 ...
    本站小编 Free考研考试 2022-01-02
  • 基于CERES观测数据的全球行星反照率时空变化特征分析
    摘要摘要:为了理解行星反照率时空变化规律及成因,基于CERES数据对全球行星反照率的大气(主要为云与气溶胶等)和地表贡献进行了分解,通过Theil-Sen+Mann-Kendall方法得到了2001~2018年全球行星反照率及其大气和地表贡献的时空变化趋势,并基于回归分析方法对典型区域的变化趋势进行 ...
    本站小编 Free考研考试 2022-01-02
  • 福清核电厂厂址区域龙卷风设计基准参数的估算
    摘要摘要:基于1959~2017年福清核电厂区龙卷风的调查资料,采用Rankine涡模型估算该区域超过某一特定风速的概率分布,通过概率值导出设计基准龙卷风和基准设计风速,按照压降模型计算出龙卷风的压降,研究结果表明:福清核电评价区域龙卷风的总压降为4.29kPa;平移速度13.8m/s,最大旋转风速 ...
    本站小编 Free考研考试 2022-01-02