1(东华理工大学江西省放射性地学大数据技术工程实验室 南昌 330013);2(东华理工大学信息工程学院 南昌 330013);3(东华理工大学创新创业学院 南昌 330013);4(武汉大学计算机学院 武汉 430072);5(南京审计大学 南京 211815) (zhangjun_whu@whu.edu.cn)
出版日期:
2020-06-01基金资助:
国家自然科学基金项目(61662002,61972293,61902189);江西省放射性地学大数据技术工程实验室项目(JELRGBDT201905);江苏省基础研究计划(自然科学基金)项目(BK20180821)Performance Optimization of Cache Subsystem in General Purpose Graphics Processing Units: A Survey
Zhang Jun1,2, Xie Jingcheng2, Shen Fanfan5, Tan Hai3, Wang Lümeng4, He Yanxiang41(Jiangxi Engineering Laboratory on Radioactive Geoscience and Big Data Technology, Eastern China University of Technology, Nanchang 330013);2(College of Information Engineering, Eastern China University of Technology, Nanchang 330013);3(School of Innovation and Entrepreneurship, Eastern China University of Technology, Nanchang 330013);4(School of Computer Science, Wuhan University, Wuhan 430072);5(Nanjing Audit University, Nanjing 211815)
Online:
2020-06-01Supported by:
This work was supported by the National Natural Science Foundation of China (61662002, 61972293, 61902189), the Project of Jiangxi Engineering Laboratory on Radioactive Geoscience and Big Data Technology (JELRGBDT201905), the Natural Science Foundation of Jiangsu Province(BK20180821).摘要/Abstract
摘要: 随着工艺和制程技术的不断发展以及体系架构的日趋完善,通用图形处理器(general purpose graphics processing units, GPGPU)的并行计算能力得到了很大的提升,其在高性能、高吞吐量等通用计算应用场景的使用越来越广泛.GPGPU通过支持大量线程的并发执行,可以较好地隐藏长延时访存操作,从而获得高并行计算能力.然而,GPGPU在处理计算和访存不规则的应用时,其存储子系统的效率受到很大影响,尤其是片上缓存的争用情况尤为突出,难以及时提供计算操作所需的数据,使得GPGPU的高并行计算能力不能得到充分发挥.解决片上缓存的争用问题、优化缓存子系统的性能,是优化GPGPU性能的主要解决方案之一,也是目前研究GPGPU性能优化的主要热点之一.目前,针对GPGPU缓存子系统的性能优化研究主要集中在线程级并行度(thread level parallelism, TLP)调节、访存顺序调节、数据通量增强、最后一级缓存(last level cache, LLC)优化和基于非易失性存储(non-volatile memory, NVM)的GPGPU缓存新架构设计等5个方面.也从这5个方面重点分析讨论了目前主要的GPGPU缓存子系统性能优化方法,并在最后指出了未来GPGPU缓存子系统优化需要进一步探讨的问题,对GPGPU缓存子系统性能优化的研究有重要意义.
参考文献
相关文章 15
[1] | 朱泓睿, 元国军, 姚成吉, 谭光明, 王展, 户忠哲, 张晓扬, 安学军. 分布式深度学习训练网络综述[J]. 计算机研究与发展, 2021, 58(1): 98-115. |
[2] | 王艳, 李念爽, 王希龄, 钟凤艳. 编码技术改进大规模分布式机器学习性能综述[J]. 计算机研究与发展, 2020, 57(3): 542-561. |
[3] | 沈洁, 龙标, 姜浩, 黄春. 飞腾处理器上向量三角函数的设计实现与优化[J]. 计算机研究与发展, 2020, 57(12): 2610-2620. |
[4] | 孙昌爱,王真,潘琳. 面向WS-BPEL程序的变异测试优化技术[J]. 计算机研究与发展, 2019, 56(4): 895-905. |
[5] | 杨梅芳, 车永刚, 高翔. 基于OpenMP 4.0的发动机燃烧模拟软件异构并行优化[J]. 计算机研究与发展, 2018, 55(2): 400-408. |
[6] | 张军,何炎祥,沈凡凡,江南,李清安. 基于2阶段同步的GPGPU线程块压缩调度方法[J]. 计算机研究与发展, 2016, 53(6): 1173-1185. |
[7] | 李甜甜,于戈,郭朝鹏,宋杰. 基于MapReduce的多元连接优化方法[J]. 计算机研究与发展, 2016, 53(2): 467-478. |
[8] | 刘松,伍卫国,赵博,蒋庆. 面向局部性和并行优化的循环分块技术[J]. 计算机研究与发展, 2015, 52(5): 1160-1176. |
[9] | 王勇献, 张理论, 车永刚, 徐传福, 刘巍, 程兴华. 高阶精度CFD应用在天河2系统上的异构并行模拟与性能优化[J]. 计算机研究与发展, 2015, 52(4): 833-842. |
[10] | 罗红兵 张晓霞 王 伟 武林平. 科学计算应用程序单核指令级优化研究[J]. 计算机研究与发展, 2014, 51(6): 1263-1269. |
[11] | 顾 荣 严金双 杨晓亮 袁春风 黄宜华. Hadoop MapReduce短作业执行性能优化[J]. 计算机研究与发展, 2014, 51(6): 1270-1280. |
[12] | 李 焱, 张云泉,. 异构平台上性能自适应FFT框架[J]. 计算机研究与发展, 2014, 51(3): 637-649. |
[13] | 孙相征, 张云泉, 王 婷, 李 焱, 袁 良,. 对角线稀疏矩阵的SpMV自适应性能优化[J]. , 2013, 50(3): 648-656. |
[14] | 张惠臻, 王 超, 李 曦, 周学海,. 可重构指令集处理器的代码优化生成算法研究[J]. , 2012, 49(9): 2018-2026. |
[15] | 袁 娥, 张云泉, 刘芳芳, 孙相征,. SpMV的自动性能优化实现技术及其应用研究[J]. , 2009, 46(7): 1117-1126. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4195