(计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京 100190) (中国科学院大学 北京 100049) (shenyijie@ict.ac.cn)
出版日期:
2020-02-01基金资助:
国家重点研发计划项目(2016YFB1000202);国家自然科学基金项目(61379042)A Benefit Model Based Data Reuse Mechanism for Spark SQL
Shen Yijie, Zeng Dan, and Xiong Jin(State Key Laboratory of Computer Architecture (Institute of Computing Technology, Chinese Academy of Sciences), Beijing 100190) (University of Chinese Academy of Sciences, Beijing 100049)
Online:
2020-02-01Supported by:
This work was supported by the National Key Research and Development Program (2016YFB1000202) and the National Natural Science Foundation of China (61379042).摘要/Abstract
摘要: 通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是Spark SQL无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I/O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于Spark SQL和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始Spark SQL提升了46%~68%.
参考文献
相关文章 15
[1] | 蒲勇霖, 于炯, 鲁亮, 李梓杨, 国冰磊, 廖彬. 基于Storm平台的数据恢复节能策略[J]. 计算机研究与发展, 2021, 58(3): 479-496. |
[2] | 林霄, 姬硕, 岳胜男, 孙卫强, 胡卫生. 面向跨数据中心网络的节点约束存储转发调度方法[J]. 计算机研究与发展, 2021, 58(2): 319-337. |
[3] | 黄鹂声, 冉金也, 罗静, 张翔引. 基于XDR数据分析的OTT视频服务感知质量评估方法[J]. 计算机研究与发展, 2021, 58(2): 418-426. |
[4] | 许丹亚, 王晶, 王利, 张伟功. 基于Spark的大数据访存行为跨层分析工具[J]. 计算机研究与发展, 2020, 57(6): 1179-1190. |
[5] | 刘昱彤, 吴斌, 白婷. 古诗词图谱的构建及分析研究[J]. 计算机研究与发展, 2020, 57(6): 1252-1268. |
[6] | 赵慧慧, 赵凡, 陈仁海, 冯志勇. 基于地理空间大数据的高效索引与检索算法[J]. 计算机研究与发展, 2020, 57(2): 333-345. |
[7] | 陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394. |
[8] | 胡学钢, 刘菲, 卜晨阳. 教育大数据中认知跟踪模型研究进展[J]. 计算机研究与发展, 2020, 57(12): 2523-2546. |
[9] | 艾科,马国帅,杨凯凯,钱宇华. 一种基于集成学习的科研合作者潜力预测分类方法[J]. 计算机研究与发展, 2019, 56(7): 1383-1395. |
[10] | 高腾飞,刘勇琰,汤云波,张垒,陈丹. 面向时间序列大数据海量并行贝叶斯因子化分析方法[J]. 计算机研究与发展, 2019, 56(7): 1567-1577. |
[11] | 向陶然,叶笑春,李文明,冯煜晶,谭旭,张浩,范东睿. 基于细粒度数据流架构的稀疏神经网络全连接层加速[J]. 计算机研究与发展, 2019, 56(6): 1192-1204. |
[12] | 王智强,梁吉业,李茹. 基于信息融合的概率矩阵分解链路预测方法[J]. 计算机研究与发展, 2019, 56(2): 306-318. |
[13] | 王悦,樊凯. 隐藏访问策略的高效CP-ABE方案[J]. 计算机研究与发展, 2019, 56(10): 2151-2159. |
[14] | 杨国强,丁杭超,邹静,蒋瀚,陈彦琴. 基于高性能密码实现的大数据安全方案[J]. 计算机研究与发展, 2019, 56(10): 2207-2215. |
[15] | 郑庆华,董博,钱步月,田锋,魏笔凡,张未展,刘均. 智慧教育研究现状与发展趋势[J]. 计算机研究与发展, 2019, 56(1): 209-224. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4120