(计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京 100190) (中国科学院大学 北京 100049) (panfengfeng@ict.ac.cn)
出版日期:
2018-02-01基金资助:
国家重点研发计划项目(2016YFB1000202);国家自然科学基金项目(61379042)NV-Shuffle: Shuffle Based on Non-Volatile Memory
Pan Fengfeng, Xiong Jin(State Key Laboratory of Computer Architecture (Institute of Computing Technology, Chinese Academy of Sciences), Beijing 100190) (University of Chinese Academy of Sciences, Beijing 100049)
Online:
2018-02-01摘要/Abstract
摘要: Shuffle是大数据处理过程中一个极为重要的阶段.不同类型的Task(或者Stage)之间通过Shuffle进行数据交换.在Shuffle过程中数据需要进行持久化,以达到避免重计算和容错的目的.因此Shuffle的性能是决定大数据处理性能的关键因素之一.由于传统Shuffle阶段的数据通过磁盘文件系统进行持久化,所以影响Shuffle性能的一个重要因素是I/O开销,尤其是对基于内存计算的大数据处理平台,例如Spark,Shuffle阶段的磁盘I/O可能拖延数据处理的时间.而非易失内存(NVM)具有读写速度快、非易失性以及高密度性等诸多优点,它们为改变大数据处理过程中对磁盘I/O的依赖、克服目前基于内存计算的大数据处理中的I/O性能瓶颈提供了新机会.提出一种基于NVM的Shuffle优化策略——NV-Shuffle.NV-Shuffle摒弃了传统Shuffle阶段采用文件系统的存储方式,而使用类似于Memory访问的方式进行Shuffle数据的存储与管理,避免了文件系统的开销,并充分发挥NVM的优势,从而减少Shuffle阶段的耗时.在Spark平台上实现了NV-Shuffle,实验结果显示,对于Shuffle-heavy类型的负载,NV-Shuffle可节省大约10%~40%的执行时间.
参考文献
相关文章 15
[1] | 杨帆, 张鹏, 王展, 元国军, 安学军. 基于在网计算加速的拜占庭容错算法[J]. 计算机研究与发展, 2021, 58(1): 164-177. |
[2] | 包涵, 王意洁, 许方亮. 基于生成矩阵变换的跨数据中心纠删码写入方法[J]. 计算机研究与发展, 2020, 57(2): 291-305. |
[3] | 杨洪章, 杨雅辉, 屠要峰, 孙广宇, 吴中海. 基于“采集—预测—迁移—反馈”机制的主动容错技术[J]. 计算机研究与发展, 2020, 57(2): 306-317. |
[4] | 肖仁智, 冯丹, 胡燏翀, 张晓祎, 程良锋. 面向非易失内存的数据一致性研究综述[J]. 计算机研究与发展, 2020, 57(1): 85-101. |
[5] | 王江,章明星,武永卫,陈康,郑纬民. 类Paxos共识算法研究进展[J]. 计算机研究与发展, 2019, 56(4): 692-707. |
[6] | 李增鹏,马春光,赵明昊. 抵抗自适应密钥恢复攻击的层级全同态加密[J]. 计算机研究与发展, 2019, 56(3): 496-507. |
[7] | 吴宇,杨涓,刘人萍,任津廷,陈咸彰,石亮,刘铎. 近似存储技术综述[J]. 计算机研究与发展, 2018, 55(9): 2002-2015. |
[8] | 李军飞,胡宇翔,邬江兴. 基于拜占庭容错提高SDN控制层可靠性的研究[J]. 计算机研究与发展, 2017, 54(5): 952-960. |
[9] | 向小佳,赵晓芳,刘洋,龚关俊,张晗. 一种正交分解大数据处理系统设计方法及实现[J]. 计算机研究与发展, 2017, 54(5): 1097-1108. |
[10] | 欧阳一鸣,孙成龙,李建华,梁华国,黄正峰,杜高明. 针对瞬时故障和间歇性故障的NoC链路容错方法[J]. 计算机研究与发展, 2017, 54(5): 1109-1120. |
[11] | 叶青,胡明星,汤永利,刘琨,闫玺玺. 基于LWE的高效身份基分级加密方案[J]. 计算机研究与发展, 2017, 54(10): 2193-2204. |
[12] | 何王全,魏迪,权建校,吴伟,漆锋滨. 基于排队理论的动态任务调度模型及容错[J]. 计算机研究与发展, 2016, 53(6): 1271-1280. |
[13] | 周君,李华伟,王天成,李晓维. 面向3维片上网络的轻量级细粒度容错机制[J]. 计算机研究与发展, 2016, 53(2): 341-353. |
[14] | 彭浩,韩江洪,魏振春,卫星. 副版本优先级可提升的全局容错调度算法[J]. 计算机研究与发展, 2016, 53(2): 354-361. |
[15] | 肖中正,陈宁江,贾炅昊,张文博. 一种基于文件支持度的动态副本管理机制[J]. 计算机研究与发展, 2016, 53(2): 431-442. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3626