删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

太湖之光上利用OpenACC移植和优化GTC-P

本站小编 Free考研考试/2022-01-01

王一超1,林新华1,2,蔡林金1,TangWilliam3,EthierStephane3,王蓓3,施忠伟1,4,松岗聪2
1(上海交通大学高性能计算中心 上海 200240); 2(东京工业大学 日本东京 1528550); 3(普林斯顿大学等离子体物理实验室 美国新泽西州普林斯顿 08540); 4(英伟达公司 新加坡 138522) (wangyichao@sjtu.edu.cn)
出版日期: 2018-04-01


基金资助:国家重点研发计划项目(2016YFB0201400,2016YFB0201800);美国自然科学基金跨学科合作项目(ACI-1440733);NVIDIA GPU全球卓越中心;日本学术振兴会RONPAKU项目(113209)

Porting and Optimizing GTC-P on TaihuLight Supercomputer with OpenACC

Wang Yichao1, Lin Xinhua1,2, Cai Linjin1, Tang William3, Ethier Stephane3, Wang Bei3, See Simon1,4, Satoshi Matsuoka2
1(Center for High Performance Computing, Shanghai Jiao Tong University, Shanghai 200240); 2(Tokyo Institute of Technology, Tokyo, Japan 1528550); 3(Princeton Plasma Physics Laboratory Princeton University, Princeton, NJ, USA 08540); 4(NVIDIA, Singapore 138522)
Online: 2018-04-01







摘要/Abstract


摘要: 神威“太湖之光”是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFLOPS.该系统提供了基于指导语句的并行编程工具OpenACC,兼容OpenACC 2.0编程标准,并添加了部分定制化功能.GTC-P是一个具有重要物理意义的科学应用,算法基于高性能计算领域中被广泛使用的PIC(particle-in-cell)方法.利用神威OpenACC并行编程模型在“太湖之光”上成功移植了GTC-P应用.在移植过程中,鉴于OpenACC编译器尚无法解决的性能瓶颈,提出了3种基于中间代码二次开发的优化方法:1)消除原子操作;2)避免低效的全局访存操作;3)手动添加SIMD intrinsics指令.实验结果表明,在64个从核上相比1个主核,优化后的函数charge和push分别实现了1.6倍和86倍的加速比,同时GTC-P代码整体取得了2.5倍的加速比.优化结果证明了基于中间代码的手动优化对利用神威OpenACC移植的PIC算法在“太湖之光”上的性能提升非常重要.






[1]吴琦,倪裕芳,黄小猛. 基于“神威·太湖之光”的区域海洋模式并行优化[J]. 计算机研究与发展, 2019, 56(7): 1556-1566.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3678
相关话题/优化 代码 计算机 物理 上海交通大学