1(计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京 100190);2(中国科学院计算技术研究所 北京 100190);3(中国科学院大学计算机与控制学院 北京 100049) (xiezhen@ncic.ac.cn)
出版日期:
2021-03-01基金资助:
国家重点研发项目(2018YFB0204400);中国科学院战略性先导科技专项(C类)(XDC05010100);国家自然科学基金项目(62032023, 61972377, 61702483)Research on Optimal Performance of Sparse Matrix-Vector Multiplication and Convoulution Using the Probability-Process-Ram Model
Xie Zhen1,2,3, Tan Guangming1,2, Sun Ninghui1,21(State Key Laboratory of Computer Architecture (Institute of Computing Technology, Chinese Academy of Sciences), Beijing 100190);2(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190);3(School of Computer and Control Engineering, University of Chinese Academy of Sciences, Beijing 100049)
Online:
2021-03-01Supported by:
This work was supported by the National Key Research and Development Program of China (2018YFB0204400), the Strategic Priority Research Program of Chinese Academy of Sciences (C)(XDC05010100), and the National Natural Science Foundation of China (62032023, 61972377, 61702483).摘要/Abstract
摘要: 稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心, 是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作, 但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器, 仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈, 同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法, 建模程序在真实机器上的运行细节, 可以得出更加精确的性能预测, 并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型, 并在一个通用处理器上建模程序内指令执行和数据传输开销, 其中包括使用模型预测各种指令数量及内存层次之间的数据传输大小去分析程序各个阶段的性能瓶颈, 并且根据模型反馈的信息提出优化方案以及优化后的性能期望.最终使用PPR建模和优化2个计算核心, 同时也比较了与常用的Roofline和ECM模型的区别.
参考文献
相关文章 15
[1] | 刘雁孝, 吴萍, 孙钦东. 基于区域卷积神经网络的图像秘密共享方案[J]. 计算机研究与发展, 2021, 58(5): 1065-1074. |
[2] | 李腾, 乔伟, 张嘉伟, 高怿旸, 王申奥, 沈玉龙, 马建峰. 隐私保护的基于图卷积神经网络的攻击溯源方法[J]. 计算机研究与发展, 2021, 58(5): 1006-1020. |
[3] | 周航, 詹永照, 毛启容. 基于时空融合图网络学习的视频异常事件检测[J]. 计算机研究与发展, 2021, 58(1): 48-59. |
[4] | 陈可佳, 鲁浩, 张嘉俊. 条件变分时序图自编码器[J]. 计算机研究与发展, 2020, 57(8): 1663-1673. |
[5] | 陈亦琦, 钱铁云, 李万理, 梁贻乐. 基于复合关系图卷积的属性网络嵌入方法[J]. 计算机研究与发展, 2020, 57(8): 1674-1682. |
[6] | 林培光, 周佳倩, 温玉莲. SCONV:一种基于情感分析的金融市场趋势预测方法[J]. 计算机研究与发展, 2020, 57(8): 1769-1778. |
[7] | 李若南, 李金宝. 一种无源被动室内区域定位方法的研究[J]. 计算机研究与发展, 2020, 57(7): 1381-1392. |
[8] | 邢新颖, 冀俊忠, 姚垚. 基于自适应多任务卷积神经网络的脑网络分类方法[J]. 计算机研究与发展, 2020, 57(7): 1449-1459. |
[9] | 于海涛, 杨小汕, 徐常胜. 基于多模态输入的对抗式视频生成方法[J]. 计算机研究与发展, 2020, 57(7): 1522-1530. |
[10] | 李曈, 马伟, 徐士彪, 张晓鹏. 适应立体匹配任务的端到端深度网络[J]. 计算机研究与发展, 2020, 57(7): 1531-1538. |
[11] | 王庆林, 李东升, 梅松竹, 赖志权, 窦勇. 面向飞腾多核处理器的Winograd快速卷积算法优化[J]. 计算机研究与发展, 2020, 57(6): 1140-1151. |
[12] | 张蕊, 李锦涛. 基于深度学习的场景分割算法研究综述[J]. 计算机研究与发展, 2020, 57(4): 859-875. |
[13] | 刘烨, 黄金筱, 马于涛. 基于混合神经网络和注意力机制的软件缺陷自动分派方法[J]. 计算机研究与发展, 2020, 57(3): 461-473. |
[14] | 杜鹏, 丁世飞. 基于混合词向量深度学习模型的DGA域名检测方法[J]. 计算机研究与发展, 2020, 57(2): 433-446. |
[15] | 贾子钰, 林友芳, 刘天航, 杨凯昕, 张鑫旺, 王晶. 基于多尺度特征提取与挤压激励模型的运动想象分类方法[J]. 计算机研究与发展, 2020, 57(12): 2481-2489. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4378