1(上海交通大学计算机科学与工程系 上海 200240);2(清华大学计算机科学与技术系 北京 100084);3(中兴通讯股份有限公司 南京 210012) (chenmaotang@sjtu.edu.cn)
出版日期:
2021-02-01基金资助:
国家重点研发计划项目(2018YFB1003302);上海交通大学-华为联合实验室项目(FA2018091021-202004)A Distributed Persistent Memory File System Based on RDMA Multicast
Chen Maotang1, Zheng Sheng’an2, You Litong1, Wang Jingyu1, Yan Tian1, Tu Yaofeng3, Han Yinjun3, Huang Linpeng11(Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240);2(Department of Computer Science and Technology, Tsinghua University, Beijing 100084);3(ZTE Corporation, Nanjing 210012)
Online:
2021-02-01Supported by:
This work was supported by the National Key Research and Development Program of China (2018YFB1003302) and the SJTU-Huawei Innovation Research Lab Project (FA2018091021-202004).摘要/Abstract
摘要: 持久性内存技术与远程直接内存访问(remote direct memory access, RDMA)技术的发展,为高效分布式系统的设计提供了新的思路.然而,现有的基于RDMA的分布式系统没有充分利用RDMA的多播能力,难以解决1对多传输场景下的多拷贝文件数据传输问题,严重影响了系统性能.针对此问题,提出一种基于RDMA多播机制的分布式持久性内存文件系统(RDMA multicast transmission based distributed persistent memory file system, MTFS),通过低延迟多播通信机制充分利用RDMA多播能力,将数据高效传输到多个数据节点,从而避免了多拷贝传输操作带来的高延迟.为提升传输操作灵活性,MTFS设计了多模式多播远程过程调用(remote procedure call, RPC)机制,实现了RPC请求自适应识别,并通过优化返回机制将部分传输操作移出关键路径,进一步提升传输效率.同时MTFS提供了轻量级一致性保障机制,通过设计故障恢复功能、数据校验系统、重传策略与窗口机制,当节点出现崩溃时进行快速恢复,并在传输出现错误时实现数据精准检测与纠正,保证了数据的可靠性和一致性.实验证明,MTFS在各测试集上相比现有系统GlusterFS吞吐量提升了10.2~219倍.在Redis数据库的工作负载下,MTFS相比于NOVA取得了最高10.7%的性能提升,并在多线程测试中取得了良好的可扩展性.
参考文献
相关文章 15
[1] | 魏征, 窦禹, 高艳珍, 马捷, 孙凝晖, 邢晶. 一种基于条带的一致性散列数据放置算法[J]. 计算机研究与发展, 2021, 58(4): 888-903. |
[2] | 闫玮, 张兴军, 纪泽宇, 董小社, 姬辰肇. 基于持久性内存的单向移动B+树[J]. 计算机研究与发展, 2021, 58(2): 371-383. |
[3] | 汪庆, 朱博弘, 舒继武. 一种多核友好的持久性内存键值系统[J]. 计算机研究与发展, 2021, 58(2): 397-405. |
[4] | 屠要峰, 陈正华, 韩银俊, 陈兵, 关东海. 基于持久性内存和SSD的后端存储MixStore[J]. 计算机研究与发展, 2021, 58(2): 406-417. |
[5] | 杨帆, 李飞, 舒继武. 安全持久性内存存储研究综述[J]. 计算机研究与发展, 2020, 57(5): 912-927. |
[6] | 陈波, 陆游游, 蔡涛, 陈游旻, 屠要峰, 舒继武. 一种分布式持久性内存文件系统的一致性机制[J]. 计算机研究与发展, 2020, 57(3): 660-667. |
[7] | 何柯文, 张佳辰, 刘晓光, 王刚. 新型存储设备上重复数据删除指纹查找优化[J]. 计算机研究与发展, 2020, 57(2): 269-280. |
[8] | 陈游旻, 朱博弘, 韩银俊, 屠要峰, 舒继武. 一种持久性内存文件系统数据页的混合管理机制[J]. 计算机研究与发展, 2020, 57(2): 281-290. |
[9] | 曾高雄, 胡水海, 张骏雪, 陈凯. 数据中心网络传输协议综述[J]. 计算机研究与发展, 2020, 57(1): 74-84. |
[10] | 陈游旻,陆游游,罗圣美,舒继武. 基于RDMA的分布式存储系统研究综述[J]. 计算机研究与发展, 2019, 56(2): 227-239. |
[11] | 陈娟,胡庆达,陈游旻,陆游游,舒继武,杨晓辉. 一种基于微日志的持久性事务内存系统[J]. 计算机研究与发展, 2018, 55(9): 2029-2037. |
[12] | 安仲奇,杜昊,李强,霍志刚,马捷. 基于高性能I/O技术的Memcached优化研究[J]. 计算机研究与发展, 2018, 55(4): 864-874. |
[13] | 肖中正, 陈宁江, 魏峻, 张文博. 一种面向海量存储系统的高效元数据集群管理方案[J]. 计算机研究与发展, 2015, 52(4): 929-942. |
[14] | 周 江, 王伟平, 孟 丹, 马 灿, 古晓艳, 蒋 杰,. 面向大数据分析的分布式文件系统关键技术[J]. 计算机研究与发展, 2014, 51(2): 382-394. |
[15] | 赵跃龙 谢晓玲 蔡咏才 王国华 刘 霖. 一种性能优化的小文件存储访问策略的研究[J]. , 2012, 49(7): 1579-1586. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4352