1(中国科学院计算技术研究所 北京 100190); 2(中国科学院大学 北京 100049); 3(上海寒武纪信息科技有限公司 上海 201306) (zhangxiao@ict.ac.cn)
出版日期: 2019-09-10基金资助:国家重点研发计划项目(2017YFA0700900,2017YFA0700902,2017YFA0700901,2017YFB1003101);国家自然科学基金项目(61472396,61432016,61473275,61522211,61532016,61521092,61502446,61672491,61602441,61602446,61732002,61702478,61732020);北京市自然科学基金项目(JQ18013);国家“九七三”重点基础研究发展计划基金项目(2015CB358800);“核心电子器件、高端通用芯片及基础软件产品”国家科技重大专项基金项目(2018ZX01031102);中国科学院科技成果转移转化重点专项(KFJ-HGZX-013);中国科学院战略性先导科技专项(B类)(XDB32050200)Machine Learning Inference Framework on Multi-Core Processor
Zhang Xiao1,2,3 , Zhi Tian1,31(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190); 2(University of Chinese Academy of Sciences, Beijing 100049); 3(Cambricon Tech.Ltd., Shanghai 201306)
Online: 2019-09-10Supported by:This work was supported by the National Key Research and Development Program of China (2017YFA0700900, 2017YFA0700902, 2017YFA0700901, 2017YFB1003101), the National Natural Science Foundation of China (61472396, 61432016, 61473275, 61522211, 61532016, 61521092, 61502446, 61672491, 61602441, 61602446, 61732002, 61702478, 61732020), the Beijing Natural Science Foundation (JQ18013), the National Basic Research Program of China (973 Program) (2015CB358800), the National Science and Technology Major Projects of Hegaoji (2018ZX01031102), the Transformation and Transfer of Scientific and Technological Achievements of Chinese Academy of Sciences (KFJ-HGZX-013), and the Strategic Priority Research Program of Chinese Academy of Sciences (XDB32050200).摘要/Abstract
摘要: 近年来,深度神经网络被广泛应用于各个领域并取得了极大的成功.由于神经网络模型的尺寸和计算量的不断增加,为了能够高效迅速地完成神经网络的计算,包括GPU和专用加速器在内的很多新型硬件处理器被用于深度学习的计算.尽管如此,通用处理器作为目前最为常见和易于获得的计算平台,探究如何高效地在其上运行神经网络算法同样具有重要意义.多核处理器在训练阶段可以采用数据并行的方式来提高数据吞吐量,加快训练速度.然而在推理阶段,相比吞吐量场景,端到端的时延往往更加重要,因为这决定了处理器在某个场景下的可用性.传统的数据并行方案不能满足推理场景下对处理器小数据、低延迟的要求.因此,对于多核的处理器结构,需要在算子内部对计算进行拆分,才能够充分利用多核结构的硬件资源.考虑到处理器的计算特点,需要一种精细的方法来对计算图中的算子进行合理的拆分,才能真正有效地发挥出多核处理器的计算潜能.提出一种基于算子拆分的并行框架,可以用较小的开销实现处理器由单核向多核结构上的扩展,并且能够针对给定的网络和底层处理器特点给出一种高效的拆分方案.实验结果表明:该方法能有效降低各种网络在多核处理器上的端到端时延.
参考文献
相关文章 15
| [1] | 刘烨, 黄金筱, 马于涛. 基于混合神经网络和注意力机制的软件缺陷自动分派方法[J]. 计算机研究与发展, 2020, 57(3): 461-473. |
| [2] | 朱兆坤, 李金宝. 多特征信息融合LSTM-RNN检测OSA方法[J]. 计算机研究与发展, 2020, 57(12): 2547-2555. |
| [3] | 刘奇旭, 刘心宇, 罗成, 王君楠, 陈浪平, 刘嘉熹. 基于双向循环神经网络的安卓浏览器指纹识别方法[J]. 计算机研究与发展, 2020, 57(11): 2294-2311. |
| [4] | 刘颉羲,陈松灿. 基于混合门单元的非平稳时间序列预测[J]. 计算机研究与发展, 2019, 56(8): 1642-1651. |
| [5] | 张志昌,张珍文,张治满. 基于IndRNN-Attention的用户意图分类[J]. 计算机研究与发展, 2019, 56(7): 1517-1524. |
| [6] | 张祥文,陆紫耀,杨静,林倩,卢宇,王鸿吉,苏劲松. 基于带权词格的循环神经网络句子语义表示建模[J]. 计算机研究与发展, 2019, 56(4): 854-865. |
| [7] | 吴法民,吕广奕,刘淇,何明,常标,何伟栋,钟辉,张乐. 视频实时评论的深度语义表征方法[J]. 计算机研究与发展, 2019, 56(2): 293-305. |
| [8] | 庄连生, 吕扬, 杨健, 李厚强. 时频联合长时循环神经网络[J]. 计算机研究与发展, 2019, 56(12): 2641-2648. |
| [9] | 陈昱,刘中金,赵威威,马原,石志强,孙利民. 一种大规模的跨平台同源二进制文件检索方法[J]. 计算机研究与发展, 2018, 55(7): 1498-1507. |
| [10] | 陈继承,李一韩,赵雅倩,王恩东,史宏志,唐士斌. 一种基于共享转发态的多级缓存一致性协议[J]. 计算机研究与发展, 2017, 54(4): 764-774. |
| [11] | 宫晓利,于海洋,孙承君,李涛,张金,马捷. XOS:面向用户体验质量的高能效异构多核调度算法[J]. 计算机研究与发展, 2016, 53(7): 1467-1477. |
| [12] | 朱素霞,陈德运,季振洲,孙广路,张浩. 面向监听一致性协议的并发内存竞争记录算法[J]. 计算机研究与发展, 2016, 53(6): 1238-1248. |
| [13] | 张必英, 陈红松, 崔刚, 傅忠传. 温度约束多核处理器最大稳态吞吐量分析[J]. 计算机研究与发展, 2015, 52(9): 2083-2093. |
| [14] | 王恩东,唐士斌,陈继承,王洪伟,倪璠,赵雅倩. 多核处理器目录缓存结构设计[J]. 计算机研究与发展, 2015, 52(6): 1242-1253. |
| [15] | 栾华,周明全,付艳. 多核处理器上的频繁图挖掘方法[J]. 计算机研究与发展, 2015, 52(12): 2844-2856. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4013
