删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于收益模型的Spark SQL数据重用机制

本站小编 Free考研考试/2022-01-01

申毅杰, 曾 丹, 熊 劲
(计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京 100190) (中国科学院大学 北京 100049) (shenyijie@ict.ac.cn)
出版日期: 2020-02-01


基金资助:国家重点研发计划项目(2016YFB1000202);国家自然科学基金项目(61379042)

A Benefit Model Based Data Reuse Mechanism for Spark SQL

Shen Yijie, Zeng Dan, and Xiong Jin
(State Key Laboratory of Computer Architecture (Institute of Computing Technology, Chinese Academy of Sciences), Beijing 100190) (University of Chinese Academy of Sciences, Beijing 100049)
Online: 2020-02-01


Supported by:This work was supported by the National Key Research and Development Program (2016YFB1000202) and the National Natural Science Foundation of China (61379042).




摘要/Abstract


摘要: 通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是Spark SQL无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I/O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于Spark SQL和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始Spark SQL提升了46%~68%.






[1]蒲勇霖, 于炯, 鲁亮, 李梓杨, 国冰磊, 廖彬. 基于Storm平台的数据恢复节能策略[J]. 计算机研究与发展, 2021, 58(3): 479-496.
[2]林霄, 姬硕, 岳胜男, 孙卫强, 胡卫生. 面向跨数据中心网络的节点约束存储转发调度方法[J]. 计算机研究与发展, 2021, 58(2): 319-337.
[3]黄鹂声, 冉金也, 罗静, 张翔引. 基于XDR数据分析的OTT视频服务感知质量评估方法[J]. 计算机研究与发展, 2021, 58(2): 418-426.
[4]许丹亚, 王晶, 王利, 张伟功. 基于Spark的大数据访存行为跨层分析工具[J]. 计算机研究与发展, 2020, 57(6): 1179-1190.
[5]刘昱彤, 吴斌, 白婷. 古诗词图谱的构建及分析研究[J]. 计算机研究与发展, 2020, 57(6): 1252-1268.
[6]赵慧慧, 赵凡, 陈仁海, 冯志勇. 基于地理空间大数据的高效索引与检索算法[J]. 计算机研究与发展, 2020, 57(2): 333-345.
[7]陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394.
[8]胡学钢, 刘菲, 卜晨阳. 教育大数据中认知跟踪模型研究进展[J]. 计算机研究与发展, 2020, 57(12): 2523-2546.
[9]艾科,马国帅,杨凯凯,钱宇华. 一种基于集成学习的科研合作者潜力预测分类方法[J]. 计算机研究与发展, 2019, 56(7): 1383-1395.
[10]高腾飞,刘勇琰,汤云波,张垒,陈丹. 面向时间序列大数据海量并行贝叶斯因子化分析方法[J]. 计算机研究与发展, 2019, 56(7): 1567-1577.
[11]向陶然,叶笑春,李文明,冯煜晶,谭旭,张浩,范东睿. 基于细粒度数据流架构的稀疏神经网络全连接层加速[J]. 计算机研究与发展, 2019, 56(6): 1192-1204.
[12]王智强,梁吉业,李茹. 基于信息融合的概率矩阵分解链路预测方法[J]. 计算机研究与发展, 2019, 56(2): 306-318.
[13]王悦,樊凯. 隐藏访问策略的高效CP-ABE方案[J]. 计算机研究与发展, 2019, 56(10): 2151-2159.
[14]杨国强,丁杭超,邹静,蒋瀚,陈彦琴. 基于高性能密码实现的大数据安全方案[J]. 计算机研究与发展, 2019, 56(10): 2207-2215.
[15]郑庆华,董博,钱步月,田锋,魏笔凡,张未展,刘均. 智慧教育研究现状与发展趋势[J]. 计算机研究与发展, 2019, 56(1): 209-224.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4120
相关话题/计算机 数据 计算 空间 系统

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于地理空间大数据的高效索引与检索算法
    赵慧慧1,2,赵凡2,3,陈仁海1,2,冯志勇1,21(天津大学智能与计算学部天津300350);2(天津大学深圳研究院广东深圳518000);3(天津大学国际工程师学院天津300350)(1442700849@qq.com)出版日期:2020-02-01基金资助:国家自然科学基金项目(617023 ...
    本站小编 Free考研考试 2022-01-01
  • 带权值的大规模社交网络数据隐私保护方法
    黄海平1,2,张东军1,2,王凯1,2,朱毅凯3,王汝传1,21(南京邮电大学计算机学院南京210023);2(江苏省无线传感网高技术研究重点实验室(南京邮电大学)南京210023);3(南京大学网络信息中心南京210023)(hhp@njupt.edu.cn)出版日期:2020-02-01基金资助 ...
    本站小编 Free考研考试 2022-01-01
  • 基于多通道空间光谱全变差的衍射光谱图像复原算法
    王旭,陈强,孙权森(南京理工大学计算机科学与工程学院南京210094)(loxaywx@126.com)出版日期:2020-02-01基金资助:国家自然科学基金项目(61673220)MultichannelSpectral-SpatialTotalVariationModelforDiffract ...
    本站小编 Free考研考试 2022-01-01
  • 数据中心网络传输协议综述
    曾高雄,胡水海,张骏雪,陈凯(香港科技大学计算机科学与工程系香港999077)(kaichen@cse.ust.hk)出版日期:2020-01-01TransportProtocolsforDataCenterNetworks:ASurveyZengGaoxiong,HuShuihai,ZhangJ ...
    本站小编 Free考研考试 2022-01-01
  • 智慧健康研究综述: 从云端到边缘的系统
    邱宇1,王持1,齐开悦2,沈耀1,李超1,张成密3,过敏意11(上海交通大学大学计算机科学与工程系上海200240);2(上海交通大学电子信息和电气工程学院上海200240);3(上海交通大学医学院附属新华医院上海200092)(ed3rss@sjtu.edu.cn)出版日期:2020-01-01基 ...
    本站小编 Free考研考试 2022-01-01
  • 云计算系统可靠性研究综述
    段文雪1,胡铭1,周琼2,吴庭明1,周俊龙3,刘晓4,魏同权1,陈铭松11(华东师范大学上海市高可信计算重点实验室上海200062);2(上海外国语大学国际金融贸易学院上海200083);3(南京理工大学计算机科学与技术学院南京210094);4(迪肯大学信息技术学院澳大利亚墨尔本VIC3125)( ...
    本站小编 Free考研考试 2022-01-01
  • 面向非易失内存的数据一致性研究综述
    肖仁智1,冯丹1,2,胡燏翀2,3,张晓祎1,程良锋21(华中科技大学武汉光电国家研究中心武汉430074);2(华中科技大学计算机科学与技术学院武汉430074);3(深圳华中科技大学研究院广东深圳518061)(rzxiao@hust.edu.cn)出版日期:2020-01-01基金资助:国家重 ...
    本站小编 Free考研考试 2022-01-01
  • 实时模型检测精确加速窗口的计算原理及算法
    王国卿,庄雷,和孟佯,宋玉,马岭(郑州大学信息工程学院郑州450001)(iegqwang@163.com)出版日期:2020-01-01基金资助:国家自然科学基金重点项目(U1604262);河南省高等学校重点科研项目(19A520003,17A520057);河南省科技攻关计划项目(172102 ...
    本站小编 Free考研考试 2022-01-01
  • 2019大数据知识工程及应用专题
    郑庆华(西安交通大学西安710049)出版日期:2019-12-01Online:2019-12-01摘要/Abstract摘要:实际工程问题的求解往往涉及跨领域、跨模态的海量碎片化知识,这些知识不能仅靠专家提供,而需要从环境中动态学习和融合生成.知识工程旨在研究计算机对知识的获取、表征和处理.随着 ...
    本站小编 Free考研考试 2022-01-01
  • 道路网环境下K-支配空间Skyline查询方法
    李松1,窦雅男1,郝晓红1,张丽平1,郝忠孝1,21(哈尔滨理工大学计算机科学与技术学院哈尔滨150080);2(哈尔滨工业大学计算机科学与技术学院哈尔滨150001)(lisongbeifen@163.com)出版日期:2020-01-01基金资助:国家自然科学基金项目(61872105);黑龙江 ...
    本站小编 Free考研考试 2022-01-01