面向大规模机群的可扩展OLAP查询技术
外文标题:Scalable OLAP Queries Processing Towards Large Cluster
文献类型:期刊
作者:王会举[1]
机构:数据工程与知识工程教育部重点实验室(中国人民大学) 北京100872;中国人民大学信息学院 北京100872;中国人民大学中国调查与数据中心 北京100872
通讯作者:Wang, Hui-Ju
年:2015
期刊名称:计算机学报
卷:38
期:1
页码范围:45-58
增刊:增刊
收录情况:EI(20150600487751)
所属部门:信息学院;数据工程与知识工程教育部重点实验室
语言:中文
ISSN:0254-4164
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjxb201501004.aspx
DOI:10.3724/SP.J.1016.2015.00045
人气指数:201
浏览次数:201
基金:国家“九七三”重点基础研究发展规划项目基金; 国家重大科技专项基金; 国家自然科学基金; 中国人民大学科学研究基金(中央高校基本科研业务费专项资金; This work is partly supported by the Important National Science & Technology Specific Projects of China; the National Natural Science Foundation of China; the Fundamental Research Funds for the Central Universities; the Graduate Science Foundation of Renmin University of China
关键词:大规模可扩展;OLAP查询;无连接雪花模型;TRM执行模型;跳跃式扫描;Scan-index;大数据
摘要:大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模并行计算的环境.为改善其在新计算环境下的的扩展性和容错性,该文对传统数据仓库的数据组织模式及处理模式进行改造,提出了全新的无连接雪花模型和TRM执行模型.无连接雪花模型基于层次编码技术,将维表层次等关键信息压缩进事实表,使得事实表可以独立处理数据,从数据模型层保证了数据计算的独立性;TRM执行模型将OLAP查询的处理抽象为Transform、Reduce、Merge3个操作,使得OLAP查询可被划分为众多可并行执行的独立子任务,从执行层保证了系统的高度可扩展特性.在性能优化方面,该文提出了Scan-index扫描和跳跃式扫描算法,以尽可能地减少I/O访问操作;设计了并行谓词判断、批量谓词判断等优化算法,以加速本地计算速度.实验表明:LaScOLAP原型可以获得较好的扩展性和容错性,其性能比HadoopDB高出一个数量级.
作者其他论文
内存OLAP多核并行查询优化技术研究.焦敏;张延松;王珊,等.计算机学报.2014,1895-1910.
一个基于三元组存储的列式OLAP查询执行引擎.朱阅岸;张延松;周烜,等.软件学报.2014,25(4),753-767.
内存数据仓库集群技术研究.张延松;王珊;周烜.华东师范大学学报(自然科学版).2014,117-132.
Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP.张宇;张延松;张兵,等.华东师范大学学报(自然科学版).2014,240-251.
位图连接索引服务机制研究.张延松;苏明川;张宇,等.计算机工程与应用.2015,107-115.