删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于向量引用Platform-Oblivious内存连接优化技术

本站小编 Free考研考试/2022-01-02

摘要:以MapD为代表的图分析数据库系统通过GPU、Phi等新型众核处理器来支持高性能分析处理,在面向复杂数据模式时,连接操作仍然是重要的性能瓶颈.近年来,异构处理器逐渐成为高性能计算的主流平台,内存连接性能的研究从多核CPU平台扩展到新兴的众核处理器,但众多的研究成果并未系统地揭示连接算法性能、连接数据集大小、硬件架构之间的内在联系,难以为未来异构处理器平台的数据库提供连接平台优化选择策略.以面向多核CPU、Xeon Phi、GPU处理器平台的内存连接优化技术为目标,通过优化内存哈希表设计,实现以向量映射替代哈希映射操作,消除哈希代价对内存连接算法的影响,从而更加准确地测量内存连接算法在多核CPU的cache大小、Xeon Phi的cache大小、Xeon Phi的并发多线程、GPU的SIMT (单指令多线程)机制等硬件相关因素影响下的性能特征.实验结果表明,缓存与并发多线程机制是提高内存连接算法性能的重要影响因素.缓存机制对于满足cache大小的连接操作具有性能优势,而GPU的并发多线程机制则在较大表的连接操作中具有较高的性能,Xeon Phi则在满足其L2 cache大小的连接操作中具有最高性能.实验结果揭示了内存连接操作性能与异构处理器硬件特性的联系,为未来异构处理器平台内存数据库查询优化器提供了优化策略.



Abstract:Graph analysis database such as MapD employs the emerging manycore architecture GPU and Phi processors to support high performance analytical processing, where the join operation is still the performance bottleneck when facing complex data schemas. In recent years, as heterogeneous processors come to be main-stream high performance computing platforms, the researches of in-memory join performance extend the focuses from multicore to the emerging manycore platforms. However those efforts have not uncover the inner relationships among join algorithm performance, join dataset size and hardware architectures, and cannot provide sufficient join selection strategies for databases under the future heterogeneous processor platforms. This paper targets in-memory join optimization techniques on multicore, Xeon Phi and GPU processor platforms. By optimizing hash table design, this work uses vector mapping instead of hash mapping to eliminate the hashing overhead effects for performance, so that the in-memory join performance characteristics influenced can be measured by hardware factors such as multicore cache size, Xeon Phi cache size, Xeon Phi simultaneous multi-threading mechanism, and GPU SIMT (single instruction multiple threads) mechanism. The experimental results show that caching and simultaneous massive-threading mechanism are key factors to improve in-memory join algorithm performance. Caching mechanism performs well for cache fit join operations, the simultaneous massive-threading mechanism of GPU does well for big table joins, and Xeon Phi achieves the highest performance for L2 cache fit joins. The experimental results also exploit the relationship between in-memory join performance and heterogeneous processor hardware features, and provide optimization policy for in-memory database query optimizer on future heterogeneous processor platforms.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5446
相关话题/优化 实验 数据 数据库 测量

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 分布式数据库中一致性与可用性的关系
    摘要:随着各类应用在数据量和业务量上的扩展,单机数据库系统越发难以应对现实需求.分布式数据库能够根据业务的需求动态地扩容,因此逐步开始受到应用的青睐.近年来,分布式数据库产品层出不穷,并在互联网应用中被大量投入使用.然而,分布式数据库的系统复杂度前所未有.为了让系统可用,设计者需要在多种属性中作合理 ...
    本站小编 Free考研考试 2022-01-02
  • 可扩展机器学习的并行与分布式优化算法综述
    摘要:机器学习问题通常会转换成一个目标函数去求解,优化算法是求解目标函数中参数的重要工具.在大数据环境下,需要设计并行与分布式的优化算法,通过多核计算和分布式计算技术来加速训练过程.近年来,该领域涌现了大量研究工作,部分算法也在各机器学习平台得到广泛应用.针对梯度下降算法、二阶优化算法、邻近梯度算法 ...
    本站小编 Free考研考试 2022-01-02
  • 区块链与可信数据管理:问题与方法
    摘要:作为支撑比特币实现无中心高可信的账本管理的技术,区块链在金融领域得到了广泛关注.区块链实现了不完全可信环境中的可信数据管理,具有去中心化、防篡改、不可抵赖、强一致和完整性等特性,但同时也存在高延迟和低吞吐率的性能问题.在互联网技术发展、新型应用层出不穷的大背景下,借鉴区块链在数字加密货币应用中 ...
    本站小编 Free考研考试 2022-01-02
  • 物联网环境下数据转发模型研究
    摘要:随着5G移动通信技术、软件定义网络、命名数据网、移动边缘计算或雾计算等新兴技术或方法的出现及深入研究,物联网应用得到进一步升华.在这种应用场景多样化、服务质量高要求、参与对象普及化的环境下,隶属物联网子范畴的传统无线传感器网络数据转发模型已经不能完全适应这种时代需求,更加适合物联网应用的数据转 ...
    本站小编 Free考研考试 2022-01-02
  • 基于MODIS数据地表反照率时空变化特征及影响因子研究
    摘要摘要:地表反照率表征地球表面对太阳辐射的反射能力,是影响地表辐射能量收支平衡的关键参数。本文以淮河流域为例,利用MODIS(MODerateresolutionImagingSpectroradiometer)数据,采用网格趋势分析、异常变化分析、相关分析和灰色关联度分析等方法,分析了淮河流域2 ...
    本站小编 Free考研考试 2022-01-02
  • 基于MODIS数据地表反照率时空变化特征及影响因子研究
    摘要摘要:地表反照率表征地球表面对太阳辐射的反射能力,是影响地表辐射能量收支平衡的关键参数。本文以淮河流域为例,利用MODIS(MODerateresolutionImagingSpectroradiometer)数据,采用网格趋势分析、异常变化分析、相关分析和灰色关联度分析等方法,分析了淮河流域2 ...
    本站小编 Free考研考试 2022-01-02
  • 多层城市冠层模型参数优化及对京津冀城市群的高温模拟
    摘要摘要:针对京津冀高温模拟,综合运用卫星和地面气象观测数据、参数敏感性试验等技术方法,确定了耦合了多层城市冠层模型的中尺度数值模式(WRF/BEP/BEM)的地表反照率、比辐射率和人为热等参数的本地化配置。数值对比试验表明,参照试验中优化地表反照率、比辐射率和人为热(通过本地优化BEM输入参数来实 ...
    本站小编 Free考研考试 2022-01-02
  • 多层城市冠层模型参数优化及对京津冀城市群的高温模拟
    摘要摘要:针对京津冀高温模拟,综合运用卫星和地面气象观测数据、参数敏感性试验等技术方法,确定了耦合了多层城市冠层模型的中尺度数值模式(WRF/BEP/BEM)的地表反照率、比辐射率和人为热等参数的本地化配置。数值对比试验表明,参照试验中优化地表反照率、比辐射率和人为热(通过本地优化BEM输入参数来实 ...
    本站小编 Free考研考试 2022-01-02
  • 中国动植物自然物候长序列数据集研制
    摘要摘要:中国气象档案馆馆藏1981年以来的木本、草本、虫鸟两栖动物自然物候观测资料,是现有中国境内覆盖范围最广、持续时间最长的自然物候观测数据。通过对数字化档案与电子报文进行数据清洗与质量控制,研制出1981~2018年中国动植物自然物候长序列数据集,分为木本、草本、虫鸟两栖动物3个子集。其中草本 ...
    本站小编 Free考研考试 2022-01-02
  • 中国动植物自然物候长序列数据集研制
    摘要摘要:中国气象档案馆馆藏1981年以来的木本、草本、虫鸟两栖动物自然物候观测资料,是现有中国境内覆盖范围最广、持续时间最长的自然物候观测数据。通过对数字化档案与电子报文进行数据清洗与质量控制,研制出1981~2018年中国动植物自然物候长序列数据集,分为木本、草本、虫鸟两栖动物3个子集。其中草本 ...
    本站小编 Free考研考试 2022-01-02