1(中国科学院计算机网络信息中心 北京 100190);2(中国科学院大学 北京 100190) (liushifang@cnic.cn)
出版日期:
2020-12-01基金资助:
国家重点研发计划项目(2017YFB0202202);中国科学院战略性先导科技专项(C类)(XDC01040000)Efficient Implementation of Parallel Symmetric Matrix Tridiagonalization Algorithm on GPU Cluster
Liu Shifang1,2, Zhao Yonghua1, Yu Tianyu1,2, Huang Rongfeng1,21(Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190);2(University of Chinese Academy of Sciences, Beijing 100190)
Online:
2020-12-01Supported by:
This work was supported by National Key Research and Development Program of China (2017YFB0202202) and the Strategic Priority Research Program of Chinese Academy of Sciences (C) (XDC01040000).摘要/Abstract
摘要: 对称矩阵三对角化是求解稠密特征问题的关键计算过程.针对GPU集群采用了MPI(message passing interface)和GPU级2级并行方法设计实现了基于MPI和CUDA(compute unified device architecture )的稠密对称矩阵三对角化算法.在MPI集群级并行中,通过将2维通信域中行-列通信域间的全局数据通信设计为完全并行的点-点数据通信方式,改善了三对角化MPI并行算法的通信性能.通过改进原矩阵三对角化的MPI并行算法,避免了在GPU级并行中使用的不规则的矩阵-向量运算,这部分的并行性能提升了1倍左右.并且,将在GPU并行中存在的小粒度计算合并为较大粒度计算,该策略可通过加大计算密集度来充分地发挥GPU的计算能力,增加GPU的利用率,从而提升了算法的性能.此外,利用多个CUDA流使算法中独立的CUDA操作可以在不同的流中并发执行.并且,在并行算法中,利用CPU与GPU之间的异步数据传输,使得在不同流中的数据传输和核函数同时执行,隐藏了数据传输的时间,进一步提升了算法的性能.在中国科学院超级计算机系统“元”上,使用Nvidia Tesla K20 GPGPU测试了不同规模矩阵的基于MPI+CUDA的三对角化并行块算法的性能,取得了较好的加速效果与性能,并且具有良好的可扩展性.
参考文献
相关文章 15
[1] | 毛安琪, 汤小春, 丁朝, 李战怀. 集中式集群资源调度框架的可扩展性优化[J]. 计算机研究与发展, 2021, 58(3): 497-512. |
[2] | 潘晨,刘志强,刘振,龙宇. 区块链可扩展性研究:问题与方法[J]. 计算机研究与发展, 2018, 55(10): 2099-2110. |
[3] | 陈继承,赵雅倩,李一韩,王恩东,史宏志,唐士斌. MPD:结点具有多个并行缓存一致性域的CC-NUMA系统[J]. 计算机研究与发展, 2017, 54(4): 775-786. |
[4] | 张东,亓开元,吴楠,辛国茂,刘正伟,颜秉珩,郭锋. 云海大数据一体机体系结构和关键技术[J]. 计算机研究与发展, 2016, 53(2): 374-389. |
[5] | 雷斐,董德尊,庞征斌,廖湘科,杨明英. Paleyfly:一种可扩展的高速互连网络拓扑结构[J]. 计算机研究与发展, 2015, 52(6): 1329-1340. |
[6] | 赵长海,王狮虎,罗国安,文佳敏,张建磊. 高度可扩展的3D叠前Kirchhoff时间偏移并行算法[J]. 计算机研究与发展, 2015, 52(4): 869-878. |
[7] | 孙振元,许鲁,刘振军,董欢庆,刘昌. 网络分簇BWRAID:更快的扩展、恢复和读写性能[J]. 计算机研究与发展, 2015, 52(11): 2568-2576. |
[8] | 周 江, 王伟平, 孟 丹, 马 灿, 古晓艳, 蒋 杰,. 面向大数据分析的分布式文件系统关键技术[J]. 计算机研究与发展, 2014, 51(2): 382-394. |
[9] | 熊焕亮,曾国荪,吴沧海. 一种等性能面积的并行计算可扩展性度量方法[J]. 计算机研究与发展, 2014, 51(11): 2547-2558. |
[10] | 曹宏嘉 卢宇彤 谢 旻 周恩强. 并行作业启动及其可扩展性分析[J]. , 2013, 50(8): 1755-1761. |
[11] | 王少辉, 刘素娟, 陈丹伟,. 满足后向隐私的可扩展RFID双向认证方案[J]. 计算机研究与发展, 2013, 50(6): 1276-1284. |
[12] | 刘 全, 傅启明, 杨旭东, 荆 玲, 李 瑾, 李 娇,. 一种基于智能调度的可扩展并行强化学习方法[J]. , 2013, 50(4): 843-851. |
[13] | 穆 飞 薛 巍 舒继武 郑纬民. 一种面向大规模存储系统的数据副本映射算法[J]. , 2009, 46(3): 492-497. |
[14] | 吴 艾 刘心松 符青云 刘克剑. DPVoD:基于P2P的视频点播体系结构[J]. , 2008, 45(2): 269-277. |
[15] | 赵永华, 迟学斌, 程 强,. 广义Hermitian特征问题标准化转换的有效并行块算法[J]. , 2007, 44(10): 1724-1732. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4316