基于Spark的大数据访存行为跨层分析工具

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-01-01

许丹亚¹,王晶^1,2,王利³,张伟功^2,3

¹(首都师范大学信息工程学院北京 100048);²(高可靠嵌入式技术北京市工程研究中心(首都师范大学) 北京 100048);³(北京成像理论与技术高精尖创新中心(首都师范大学) 北京 100048) (xudanya@cnu.edu.cn)

出版日期: 2020-06-01

基金资助:国家自然科学基金项目(61772350)；北京市科技新星计划(Z181100006218093)；北京未来芯片技术高精尖创新中心科研基金项目(KYJJ2018008)；北京市高水平教师队伍建设计划(CIT＆TCD201704082)；科技创新服务能力建设-基本科研业务费(科研类)(19530050173)

A Cross-Layer Memory Tracing Toolkit for Big Data Application Based on Spark

Xu Danya¹, Wang Jing^1,2, Wang Li³, Zhang Weigong^2,3

¹(Information Engineering College, Capital Normal University, Beijing 100048);²(Beijing Engineering Research Center of High Reliable Embedded System (Capital Normal University), Beijing 100048);³(Beijing Advanced Innovation Center for Imaging Theory and Technology (Capital Normal University), Beijing 100048)

Online: 2020-06-01

Supported by:This work was supported by the National Natural Science Foundation of China (61772350), the Beijing Nova Program (Z181100006218093), the Research Fund from Beijing Innovation Center for Future Chips (KYJJ2018008), the Construction Plan of Beijing High-level Teacher Team (CIT＆TCD201704082), and the Capacity Building for Sci-Tech Innovation Fundamental Scientific Research Funds (19530050173).

摘要/Abstract

摘要： 大数据时代的到来为信息处理带来了新的挑战，内存计算方式的Spark显著提高了数据处理的性能.Spark的性能优化和分析可以在应用层、系统层和硬件层开展，然而现有工作都只局限在某一层，使得Spark语义与底层动作脱离，如操作系统参数对Spark应用层的性能影响的缺失将使得大量灵活的操作系统配置参数无法发挥作用.针对上述问题，设计了Spark存储系统分析工具SMTT,打通了Spark层、JVM层和OS层，建立了上层应用程序的语义与底层物理内存信息的联系.SMTT针对Spark内存特点，分别设计了针对执行内存和存储内存的追踪方式.基于SMTT工具完成了对Spark迭代计算过程内存使用，以及跨越Spark，JVM和OS层的执行/存储内存使用过程的分析，并以RDD为例通过SMTT分析了单节点和多节点情况下Spark中读和写操作比例，结果表明该工作为Spark内存系统的性能分析和优化提供了有力的支持.

参考文献

相关文章 15

[1]	蒲勇霖, 于炯, 鲁亮, 李梓杨, 国冰磊, 廖彬. 基于Storm平台的数据恢复节能策略[J]. 计算机研究与发展, 2021, 58(3): 479-496.
[2]	林霄, 姬硕, 岳胜男, 孙卫强, 胡卫生. 面向跨数据中心网络的节点约束存储转发调度方法[J]. 计算机研究与发展, 2021, 58(2): 319-337.
[3]	申毅杰, 曾丹, 熊劲. 基于收益模型的Spark SQL数据重用机制[J]. 计算机研究与发展, 2020, 57(2): 318-332.
[4]	赵慧慧, 赵凡, 陈仁海, 冯志勇. 基于地理空间大数据的高效索引与检索算法[J]. 计算机研究与发展, 2020, 57(2): 333-345.
[5]	陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394.
[6]	胡学钢, 刘菲, 卜晨阳. 教育大数据中认知跟踪模型研究进展[J]. 计算机研究与发展, 2020, 57(12): 2523-2546.
[7]	艾科,马国帅,杨凯凯,钱宇华. 一种基于集成学习的科研合作者潜力预测分类方法[J]. 计算机研究与发展, 2019, 56(7): 1383-1395.
[8]	高腾飞,刘勇琰,汤云波,张垒,陈丹. 面向时间序列大数据海量并行贝叶斯因子化分析方法[J]. 计算机研究与发展, 2019, 56(7): 1567-1577.
[9]	王悦,樊凯. 隐藏访问策略的高效CP-ABE方案[J]. 计算机研究与发展, 2019, 56(10): 2151-2159.
[10]	杨国强,丁杭超,邹静,蒋瀚,陈彦琴. 基于高性能密码实现的大数据安全方案[J]. 计算机研究与发展, 2019, 56(10): 2207-2215.
[11]	郑庆华,董博,钱步月,田锋,魏笔凡,张未展,刘均. 智慧教育研究现状与发展趋势[J]. 计算机研究与发展, 2019, 56(1): 209-224.
[12]	游理通,王振杰,黄林鹏. 一个基于日志结构的非易失性内存键值存储系统[J]. 计算机研究与发展, 2018, 55(9): 2038-2049.
[13]	潘锋烽, 熊劲. NV-Shuffle：基于非易失内存的Shuffle机制[J]. 计算机研究与发展, 2018, 55(2): 229-245.
[14]	王晨曦, 吕方, 崔慧敏, 曹婷, JohnZigman, 庄良吉, 冯晓兵. 面向大数据处理的基于Spark的异质内存编程框架[J]. 计算机研究与发展, 2018, 55(2): 246-264.
[15]	吴林阳, 罗蓉, 郭雪婷, 郭崎. CPU和DRAM加速任务划分方法：大数据处理中Hash Joins的加速实例[J]. 计算机研究与发展, 2018, 55(2): 289-304.

PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4194