删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于Spark的大数据访存行为跨层分析工具

本站小编 Free考研考试/2022-01-01

许丹亚1,王晶1,2,王利3,张伟功2,3
1(首都师范大学信息工程学院 北京 100048);2(高可靠嵌入式技术北京市工程研究中心(首都师范大学) 北京 100048);3(北京成像理论与技术高精尖创新中心(首都师范大学) 北京 100048) (xudanya@cnu.edu.cn)
出版日期: 2020-06-01


基金资助:国家自然科学基金项目(61772350);北京市科技新星计划(Z181100006218093);北京未来芯片技术高精尖创新中心科研基金项目(KYJJ2018008);北京市高水平教师队伍建设计划(CIT&TCD201704082);科技创新服务能力建设-基本科研业务费(科研类)(19530050173)

A Cross-Layer Memory Tracing Toolkit for Big Data Application Based on Spark

Xu Danya1, Wang Jing1,2, Wang Li3, Zhang Weigong2,3
1(Information Engineering College, Capital Normal University, Beijing 100048);2(Beijing Engineering Research Center of High Reliable Embedded System (Capital Normal University), Beijing 100048);3(Beijing Advanced Innovation Center for Imaging Theory and Technology (Capital Normal University), Beijing 100048)
Online: 2020-06-01


Supported by:This work was supported by the National Natural Science Foundation of China (61772350), the Beijing Nova Program (Z181100006218093), the Research Fund from Beijing Innovation Center for Future Chips (KYJJ2018008), the Construction Plan of Beijing High-level Teacher Team (CIT&TCD201704082), and the Capacity Building for Sci-Tech Innovation Fundamental Scientific Research Funds (19530050173).




摘要/Abstract


摘要: 大数据时代的到来为信息处理带来了新的挑战,内存计算方式的Spark显著提高了数据处理的性能.Spark的性能优化和分析可以在应用层、系统层和硬件层开展,然而现有工作都只局限在某一层,使得Spark语义与底层动作脱离,如操作系统参数对Spark应用层的性能影响的缺失将使得大量灵活的操作系统配置参数无法发挥作用.针对上述问题,设计了Spark存储系统分析工具SMTT,打通了Spark层、JVM层和OS层,建立了上层应用程序的语义与底层物理内存信息的联系.SMTT针对Spark内存特点,分别设计了针对执行内存和存储内存的追踪方式.基于SMTT工具完成了对Spark迭代计算过程内存使用,以及跨越Spark,JVM和OS层的执行/存储内存使用过程的分析,并以RDD为例通过SMTT分析了单节点和多节点情况下Spark中读和写操作比例,结果表明该工作为Spark内存系统的性能分析和优化提供了有力的支持.






[1]蒲勇霖, 于炯, 鲁亮, 李梓杨, 国冰磊, 廖彬. 基于Storm平台的数据恢复节能策略[J]. 计算机研究与发展, 2021, 58(3): 479-496.
[2]林霄, 姬硕, 岳胜男, 孙卫强, 胡卫生. 面向跨数据中心网络的节点约束存储转发调度方法[J]. 计算机研究与发展, 2021, 58(2): 319-337.
[3]申毅杰, 曾丹, 熊劲. 基于收益模型的Spark SQL数据重用机制[J]. 计算机研究与发展, 2020, 57(2): 318-332.
[4]赵慧慧, 赵凡, 陈仁海, 冯志勇. 基于地理空间大数据的高效索引与检索算法[J]. 计算机研究与发展, 2020, 57(2): 333-345.
[5]陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394.
[6]胡学钢, 刘菲, 卜晨阳. 教育大数据中认知跟踪模型研究进展[J]. 计算机研究与发展, 2020, 57(12): 2523-2546.
[7]艾科,马国帅,杨凯凯,钱宇华. 一种基于集成学习的科研合作者潜力预测分类方法[J]. 计算机研究与发展, 2019, 56(7): 1383-1395.
[8]高腾飞,刘勇琰,汤云波,张垒,陈丹. 面向时间序列大数据海量并行贝叶斯因子化分析方法[J]. 计算机研究与发展, 2019, 56(7): 1567-1577.
[9]王悦,樊凯. 隐藏访问策略的高效CP-ABE方案[J]. 计算机研究与发展, 2019, 56(10): 2151-2159.
[10]杨国强,丁杭超,邹静,蒋瀚,陈彦琴. 基于高性能密码实现的大数据安全方案[J]. 计算机研究与发展, 2019, 56(10): 2207-2215.
[11]郑庆华,董博,钱步月,田锋,魏笔凡,张未展,刘均. 智慧教育研究现状与发展趋势[J]. 计算机研究与发展, 2019, 56(1): 209-224.
[12]游理通,王振杰,黄林鹏. 一个基于日志结构的非易失性内存键值存储系统[J]. 计算机研究与发展, 2018, 55(9): 2038-2049.
[13]潘锋烽, 熊劲. NV-Shuffle:基于非易失内存的Shuffle机制[J]. 计算机研究与发展, 2018, 55(2): 229-245.
[14]王晨曦, 吕方, 崔慧敏, 曹婷, JohnZigman, 庄良吉, 冯晓兵. 面向大数据处理的基于Spark的异质内存编程框架[J]. 计算机研究与发展, 2018, 55(2): 246-264.
[15]吴林阳, 罗蓉, 郭雪婷, 郭崎. CPU和DRAM加速任务划分方法:大数据处理中Hash Joins的加速实例[J]. 计算机研究与发展, 2018, 55(2): 289-304.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4194
相关话题/计算机 数据 北京 科研 首都师范大学

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于多视角RGB-D图像帧数据融合的室内场景理解
    李祥攀1,张彪1,孙凤池2,刘杰31(南开大学计算机学院天津300750);2(南开大学软件学院天津300750);3(南开大学人工智能学院天津300750)(xiangpan.li@qq.com)出版日期:2020-06-01基金资助:国家自然科学基金项目(61873327)IndoorScene ...
    本站小编 Free考研考试 2022-01-01
  • 基于Jacobi ADMM的传感网分布式压缩感知数据重构算法
    李国瑞1,孟婕1,彭三城2,王聪11(东北大学计算机科学与工程学院沈阳110819);2(广东外语外贸大学语言工程与计算实验室广州510006)(lgr@neuq.edu.cn)出版日期:2020-06-01基金资助:国家自然科学基金项目(61876205);中央高校基本科研业务费专项资金(N172 ...
    本站小编 Free考研考试 2022-01-01
  • 2020数据驱动网络专题前言
    崔勇1,马华东2,陈凯3,俞敏岚4,刘洪强51(清华大学北京100084);2(北京邮电大学北京100876);3(香港科技大学香港999077);4(哈佛大学美国马萨诸塞州剑桥市02138);5(阿里巴巴杭州310023)出版日期:2020-04-01Online:2020-04-01摘要/Abs ...
    本站小编 Free考研考试 2022-01-01
  • 面向低维工控网数据集的对抗样本攻击分析
    周文1,3,张世琨2,丁勇4,陈曦51(北京大学软件与微电子学院北京100871);2(北京大学软件工程国家工程研究中心北京100871);3(中国航空油料集团有限公司北京100088);4(鹏城实验室广东深圳518000);5(中国软件测评中心北京100048)(zhou.wen@pku.edu. ...
    本站小编 Free考研考试 2022-01-01
  • 公交数据驱动的城市车联网转发机制
    唐晓岚,顼尧,陈文龙(首都师范大学信息工程学院北京100048)(tangxl@cnu.edu.cn)出版日期:2020-04-01基金资助:国家重点研发计划项目(2018YFB1800403);国家自然科学基金项目(61872252);北京市自然科学基金项目(4202012);北京市教委科技计划一 ...
    本站小编 Free考研考试 2022-01-01
  • 面向云数据中心多语法日志通用异常检测机制
    张圣林1,李东闻1,孙永谦1,孟伟彬2,3,4,张宇哲1,张玉志1,刘莹3,4,裴丹2,41(南开大学软件学院天津300350);2(清华大学计算机科学与技术系北京100084);3(清华大学网络科学与网络空间研究院北京100084);4(北京信息科学与技术国家研究中心北京100084)(zhang ...
    本站小编 Free考研考试 2022-01-01
  • 2020大数据与智能存储系统前沿技术专题前言
    舒继武1,王意洁21(清华大学北京100084);2(国防科技大学长沙410073)出版日期:2020-02-01Online:2020-02-01摘要/Abstract摘要:近年来,随着国家和社会信息化发展的不断加速,对信息存储提出了越来越高的要求.一方面,大数据时代,数据存储的规模和处理需求越来 ...
    本站小编 Free考研考试 2022-01-01
  • 一种持久性内存文件系统数据页的混合管理机制
    陈游旻1,朱博弘1,韩银俊2,屠要峰2,舒继武11(清华大学计算机科学与技术系北京100084);2(中兴通讯股份有限公司南京210012)(chenym16@mails.tsinghua.edu.cn)出版日期:2020-02-01基金资助:国家重点研发计划项目(2018YFB1003301);中 ...
    本站小编 Free考研考试 2022-01-01
  • 新型存储设备上重复数据删除指纹查找优化
    何柯文,张佳辰,刘晓光,王刚(南开大学计算机学院天津300350)(天津市网络与数据安全技术重点实验室(南开大学)天津300350)(hekw@nbjl.nankai.edu.cn)出版日期:2020-02-01基金资助:国家自然科学基金项目(U1833114,61872201,61702521,6 ...
    本站小编 Free考研考试 2022-01-01
  • 基于生成矩阵变换的跨数据中心纠删码写入方法
    包涵1,2,王意洁1,2,许方亮21(并行与分布处理国家重点实验室(国防科技大学)长沙410073);2(国防科技大学计算机学院长沙410073)(hanb_nudt@foxmail.com)出版日期:2020-02-01基金资助:国家重点研发计划项目(2016YFB1000101);国家自然科学基 ...
    本站小编 Free考研考试 2022-01-01