(国防科技大学计算机学院 长沙 410073) (j.shen@nudt.edu.cn)
出版日期:
2020-12-01基金资助:
“核高基”国家科技重大专项基金项目(2018ZX01029-103);国家自然科学基金项目(61902407);湖南省自然科学基金资助项目(2018JJ3616)Implementation and Optimization of Vector Trigonometric Functions on Phytium Processors
Shen Jie, Long Biao, Jiang Hao, Huang Chun(College of Computer, National University of Defense Technology, Changsha 410073)
Online:
2020-12-01Supported by:
This work was supported by the National Science and Technology Major Projects of Hegaoji (2018ZX01029-103), the National Natural Science Foundation of China (61902407), and Hunan Provincial Natural Science Foundation of China (2018JJ3616).摘要/Abstract
摘要: 得益于单指令多数据(single instruction multiple data, SIMD)向量化技术,处理器浮点计算能力获得了成倍的提升,然而当前SIMD向量部件和指令集仅支持加、减、乘、除、逻辑运算等基本操作,对浮点超越函数没有提供直接的支持.作为浮点计算中最耗时的一类函数,如何提高其性能成为底层数学库优化工作的一个重点.面向超越函数中的三角函数,提出一种利用SIMD向量部件设计、实现与优化向量三角函数的方法.该方法结合标量数学库分段计算与向量数学库向量化实现的优势,增加和优化了向量三角函数中的分支处理,既减少了函数实现中的冗余计算,又提高了分支情况下向量部件的利用率.在飞腾处理器上的实验表明:所提优化方法既保证了向量三角函数的精度,同时有效提高了函数性能,与原始向量三角函数相比平均性能加速比为2.04倍.
参考文献
相关文章 15
[1] | 朱泓睿, 元国军, 姚成吉, 谭光明, 王展, 户忠哲, 张晓扬, 安学军. 分布式深度学习训练网络综述[J]. 计算机研究与发展, 2021, 58(1): 98-115. |
[2] | 张军, 谢竟成, 沈凡凡, 谭海, 汪吕蒙, 何炎祥. 通用图形处理器缓存子系统性能优化方法综述[J]. 计算机研究与发展, 2020, 57(6): 1191-1207. |
[3] | 王艳, 李念爽, 王希龄, 钟凤艳. 编码技术改进大规模分布式机器学习性能综述[J]. 计算机研究与发展, 2020, 57(3): 542-561. |
[4] | 孙昌爱,王真,潘琳. 面向WS-BPEL程序的变异测试优化技术[J]. 计算机研究与发展, 2019, 56(4): 895-905. |
[5] | 杨梅芳, 车永刚, 高翔. 基于OpenMP 4.0的发动机燃烧模拟软件异构并行优化[J]. 计算机研究与发展, 2018, 55(2): 400-408. |
[6] | 李甜甜,于戈,郭朝鹏,宋杰. 基于MapReduce的多元连接优化方法[J]. 计算机研究与发展, 2016, 53(2): 467-478. |
[7] | 刘松,伍卫国,赵博,蒋庆. 面向局部性和并行优化的循环分块技术[J]. 计算机研究与发展, 2015, 52(5): 1160-1176. |
[8] | 王勇献, 张理论, 车永刚, 徐传福, 刘巍, 程兴华. 高阶精度CFD应用在天河2系统上的异构并行模拟与性能优化[J]. 计算机研究与发展, 2015, 52(4): 833-842. |
[9] | 罗红兵 张晓霞 王 伟 武林平. 科学计算应用程序单核指令级优化研究[J]. 计算机研究与发展, 2014, 51(6): 1263-1269. |
[10] | 顾 荣 严金双 杨晓亮 袁春风 黄宜华. Hadoop MapReduce短作业执行性能优化[J]. 计算机研究与发展, 2014, 51(6): 1270-1280. |
[11] | 李 焱, 张云泉,. 异构平台上性能自适应FFT框架[J]. 计算机研究与发展, 2014, 51(3): 637-649. |
[12] | 孙相征, 张云泉, 王 婷, 李 焱, 袁 良,. 对角线稀疏矩阵的SpMV自适应性能优化[J]. , 2013, 50(3): 648-656. |
[13] | 张惠臻, 王 超, 李 曦, 周学海,. 可重构指令集处理器的代码优化生成算法研究[J]. , 2012, 49(9): 2018-2026. |
[14] | 袁 娥, 张云泉, 刘芳芳, 孙相征,. SpMV的自动性能优化实现技术及其应用研究[J]. , 2009, 46(7): 1117-1126. |
[15] | 李 磊, 牛春雷, 陈宁江, 魏 峻,. 一种高效的Web服务性能优化策略[J]. , 2007, 44(7): 1191-1198. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4314