删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

NV-Shuffle:基于非易失内存的Shuffle机制

本站小编 Free考研考试/2022-01-01

潘锋烽, 熊劲
(计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京 100190) (中国科学院大学 北京 100049) (panfengfeng@ict.ac.cn)
出版日期: 2018-02-01


基金资助:国家重点研发计划项目(2016YFB1000202);国家自然科学基金项目(61379042)

NV-Shuffle: Shuffle Based on Non-Volatile Memory

Pan Fengfeng, Xiong Jin
(State Key Laboratory of Computer Architecture (Institute of Computing Technology, Chinese Academy of Sciences), Beijing 100190) (University of Chinese Academy of Sciences, Beijing 100049)
Online: 2018-02-01







摘要/Abstract


摘要: Shuffle是大数据处理过程中一个极为重要的阶段.不同类型的Task(或者Stage)之间通过Shuffle进行数据交换.在Shuffle过程中数据需要进行持久化,以达到避免重计算和容错的目的.因此Shuffle的性能是决定大数据处理性能的关键因素之一.由于传统Shuffle阶段的数据通过磁盘文件系统进行持久化,所以影响Shuffle性能的一个重要因素是I/O开销,尤其是对基于内存计算的大数据处理平台,例如Spark,Shuffle阶段的磁盘I/O可能拖延数据处理的时间.而非易失内存(NVM)具有读写速度快、非易失性以及高密度性等诸多优点,它们为改变大数据处理过程中对磁盘I/O的依赖、克服目前基于内存计算的大数据处理中的I/O性能瓶颈提供了新机会.提出一种基于NVM的Shuffle优化策略——NV-Shuffle.NV-Shuffle摒弃了传统Shuffle阶段采用文件系统的存储方式,而使用类似于Memory访问的方式进行Shuffle数据的存储与管理,避免了文件系统的开销,并充分发挥NVM的优势,从而减少Shuffle阶段的耗时.在Spark平台上实现了NV-Shuffle,实验结果显示,对于Shuffle-heavy类型的负载,NV-Shuffle可节省大约10%~40%的执行时间.






[1]杨帆, 张鹏, 王展, 元国军, 安学军. 基于在网计算加速的拜占庭容错算法[J]. 计算机研究与发展, 2021, 58(1): 164-177.
[2]包涵, 王意洁, 许方亮. 基于生成矩阵变换的跨数据中心纠删码写入方法[J]. 计算机研究与发展, 2020, 57(2): 291-305.
[3]杨洪章, 杨雅辉, 屠要峰, 孙广宇, 吴中海. 基于“采集—预测—迁移—反馈”机制的主动容错技术[J]. 计算机研究与发展, 2020, 57(2): 306-317.
[4]肖仁智, 冯丹, 胡燏翀, 张晓祎, 程良锋. 面向非易失内存的数据一致性研究综述[J]. 计算机研究与发展, 2020, 57(1): 85-101.
[5]王江,章明星,武永卫,陈康,郑纬民. 类Paxos共识算法研究进展[J]. 计算机研究与发展, 2019, 56(4): 692-707.
[6]李增鹏,马春光,赵明昊. 抵抗自适应密钥恢复攻击的层级全同态加密[J]. 计算机研究与发展, 2019, 56(3): 496-507.
[7]吴宇,杨涓,刘人萍,任津廷,陈咸彰,石亮,刘铎. 近似存储技术综述[J]. 计算机研究与发展, 2018, 55(9): 2002-2015.
[8]李军飞,胡宇翔,邬江兴. 基于拜占庭容错提高SDN控制层可靠性的研究[J]. 计算机研究与发展, 2017, 54(5): 952-960.
[9]向小佳,赵晓芳,刘洋,龚关俊,张晗. 一种正交分解大数据处理系统设计方法及实现[J]. 计算机研究与发展, 2017, 54(5): 1097-1108.
[10]欧阳一鸣,孙成龙,李建华,梁华国,黄正峰,杜高明. 针对瞬时故障和间歇性故障的NoC链路容错方法[J]. 计算机研究与发展, 2017, 54(5): 1109-1120.
[11]叶青,胡明星,汤永利,刘琨,闫玺玺. 基于LWE的高效身份基分级加密方案[J]. 计算机研究与发展, 2017, 54(10): 2193-2204.
[12]何王全,魏迪,权建校,吴伟,漆锋滨. 基于排队理论的动态任务调度模型及容错[J]. 计算机研究与发展, 2016, 53(6): 1271-1280.
[13]周君,李华伟,王天成,李晓维. 面向3维片上网络的轻量级细粒度容错机制[J]. 计算机研究与发展, 2016, 53(2): 341-353.
[14]彭浩,韩江洪,魏振春,卫星. 副版本优先级可提升的全局容错调度算法[J]. 计算机研究与发展, 2016, 53(2): 354-361.
[15]肖中正,陈宁江,贾炅昊,张文博. 一种基于文件支持度的动态副本管理机制[J]. 计算机研究与发展, 2016, 53(2): 431-442.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3626
相关话题/计算机 计算 数据 技术 北京