删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向多核处理器的机器学习推理框架

本站小编 Free考研考试/2022-01-01

张潇1,2,3, 支天1,3
1(中国科学院计算技术研究所 北京 100190); 2(中国科学院大学 北京 100049); 3(上海寒武纪信息科技有限公司 上海 201306) (zhangxiao@ict.ac.cn)
出版日期: 2019-09-10


基金资助:国家重点研发计划项目(2017YFA0700900,2017YFA0700902,2017YFA0700901,2017YFB1003101);国家自然科学基金项目(61472396,61432016,61473275,61522211,61532016,61521092,61502446,61672491,61602441,61602446,61732002,61702478,61732020);北京市自然科学基金项目(JQ18013);国家“九七三”重点基础研究发展计划基金项目(2015CB358800);“核心电子器件、高端通用芯片及基础软件产品”国家科技重大专项基金项目(2018ZX01031102);中国科学院科技成果转移转化重点专项(KFJ-HGZX-013);中国科学院战略性先导科技专项(B类)(XDB32050200)

Machine Learning Inference Framework on Multi-Core Processor

Zhang Xiao1,2,3 , Zhi Tian1,3
1(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190); 2(University of Chinese Academy of Sciences, Beijing 100049); 3(Cambricon Tech.Ltd., Shanghai 201306)
Online: 2019-09-10


Supported by:This work was supported by the National Key Research and Development Program of China (2017YFA0700900, 2017YFA0700902, 2017YFA0700901, 2017YFB1003101), the National Natural Science Foundation of China (61472396, 61432016, 61473275, 61522211, 61532016, 61521092, 61502446, 61672491, 61602441, 61602446, 61732002, 61702478, 61732020), the Beijing Natural Science Foundation (JQ18013), the National Basic Research Program of China (973 Program) (2015CB358800), the National Science and Technology Major Projects of Hegaoji (2018ZX01031102), the Transformation and Transfer of Scientific and Technological Achievements of Chinese Academy of Sciences (KFJ-HGZX-013), and the Strategic Priority Research Program of Chinese Academy of Sciences (XDB32050200).




摘要/Abstract


摘要: 近年来,深度神经网络被广泛应用于各个领域并取得了极大的成功.由于神经网络模型的尺寸和计算量的不断增加,为了能够高效迅速地完成神经网络的计算,包括GPU和专用加速器在内的很多新型硬件处理器被用于深度学习的计算.尽管如此,通用处理器作为目前最为常见和易于获得的计算平台,探究如何高效地在其上运行神经网络算法同样具有重要意义.多核处理器在训练阶段可以采用数据并行的方式来提高数据吞吐量,加快训练速度.然而在推理阶段,相比吞吐量场景,端到端的时延往往更加重要,因为这决定了处理器在某个场景下的可用性.传统的数据并行方案不能满足推理场景下对处理器小数据、低延迟的要求.因此,对于多核的处理器结构,需要在算子内部对计算进行拆分,才能够充分利用多核结构的硬件资源.考虑到处理器的计算特点,需要一种精细的方法来对计算图中的算子进行合理的拆分,才能真正有效地发挥出多核处理器的计算潜能.提出一种基于算子拆分的并行框架,可以用较小的开销实现处理器由单核向多核结构上的扩展,并且能够针对给定的网络和底层处理器特点给出一种高效的拆分方案.实验结果表明:该方法能有效降低各种网络在多核处理器上的端到端时延.






[1]刘烨, 黄金筱, 马于涛. 基于混合神经网络和注意力机制的软件缺陷自动分派方法[J]. 计算机研究与发展, 2020, 57(3): 461-473.
[2]朱兆坤, 李金宝. 多特征信息融合LSTM-RNN检测OSA方法[J]. 计算机研究与发展, 2020, 57(12): 2547-2555.
[3]刘奇旭, 刘心宇, 罗成, 王君楠, 陈浪平, 刘嘉熹. 基于双向循环神经网络的安卓浏览器指纹识别方法[J]. 计算机研究与发展, 2020, 57(11): 2294-2311.
[4]刘颉羲,陈松灿. 基于混合门单元的非平稳时间序列预测[J]. 计算机研究与发展, 2019, 56(8): 1642-1651.
[5]张志昌,张珍文,张治满. 基于IndRNN-Attention的用户意图分类[J]. 计算机研究与发展, 2019, 56(7): 1517-1524.
[6]张祥文,陆紫耀,杨静,林倩,卢宇,王鸿吉,苏劲松. 基于带权词格的循环神经网络句子语义表示建模[J]. 计算机研究与发展, 2019, 56(4): 854-865.
[7]吴法民,吕广奕,刘淇,何明,常标,何伟栋,钟辉,张乐. 视频实时评论的深度语义表征方法[J]. 计算机研究与发展, 2019, 56(2): 293-305.
[8]庄连生, 吕扬, 杨健, 李厚强. 时频联合长时循环神经网络[J]. 计算机研究与发展, 2019, 56(12): 2641-2648.
[9]陈昱,刘中金,赵威威,马原,石志强,孙利民. 一种大规模的跨平台同源二进制文件检索方法[J]. 计算机研究与发展, 2018, 55(7): 1498-1507.
[10]陈继承,李一韩,赵雅倩,王恩东,史宏志,唐士斌. 一种基于共享转发态的多级缓存一致性协议[J]. 计算机研究与发展, 2017, 54(4): 764-774.
[11]宫晓利,于海洋,孙承君,李涛,张金,马捷. XOS:面向用户体验质量的高能效异构多核调度算法[J]. 计算机研究与发展, 2016, 53(7): 1467-1477.
[12]朱素霞,陈德运,季振洲,孙广路,张浩. 面向监听一致性协议的并发内存竞争记录算法[J]. 计算机研究与发展, 2016, 53(6): 1238-1248.
[13]张必英, 陈红松, 崔刚, 傅忠传. 温度约束多核处理器最大稳态吞吐量分析[J]. 计算机研究与发展, 2015, 52(9): 2083-2093.
[14]王恩东,唐士斌,陈继承,王洪伟,倪璠,赵雅倩. 多核处理器目录缓存结构设计[J]. 计算机研究与发展, 2015, 52(6): 1242-1253.
[15]栾华,周明全,付艳. 多核处理器上的频繁图挖掘方法[J]. 计算机研究与发展, 2015, 52(12): 2844-2856.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4013
相关话题/计算机 计算 数据 中国科学院 结构

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 数据中心能耗模型及能效算法综述
    王继业1,周碧玉2,张法3,石翔3,曾楠1,刘志勇31(国家电网公司北京100031);2(中国科学院信息工程研究所北京100089);3(中国科学院计算技术研究所北京100190)(jiyewang@sgcc.com.cn)出版日期:2019-08-01基金资助:国家重点研发计划项目(2017YF ...
    本站小编 Free考研考试 2022-01-01
  • 基于深度神经网络结构的互联网金融市场动态预测
    赵洪科1,吴李康2,李徵2,张兮1,刘淇2,陈恩红21(天津大学管理与经济学部天津300072);2(大数据分析与应用安徽省重点实验室(中国科学技术大学)合肥230027)(hongke@tju.edu.cn)出版日期:2019-08-01基金资助:国家自然科学基金项目(71790594,71722 ...
    本站小编 Free考研考试 2022-01-01
  • 基于边缘计算的可信执行环境研究
    宁振宇,张锋巍,施巍松(韦恩州立大学计算机科学系美国密歇根州底特律48202)(zhenyu.ning@wayne.edu)出版日期:2019-07-01AStudyofUsingTEEonEdgeComputingNingZhenyu,ZhangFengwei,ShiWeisong(Departm ...
    本站小编 Free考研考试 2022-01-01
  • 基于动态策略学习的关键内存数据访问监控
    冯馨玥1,2,杨秋松1,石琳1,王青1,2,3,李明树11(中国科学院软件研究所基础软件国家工程研究中心北京100190);2(中国科学院大学北京100049);3(计算机科学国家重点实验室(中国科学院软件研究所)北京100190)(xinyue@nfs.iscas.ac.cn)出版日期:2019- ...
    本站小编 Free考研考试 2022-01-01
  • 面向时间序列大数据海量并行贝叶斯因子化分析方法
    高腾飞,刘勇琰,汤云波,张垒,陈丹(武汉大学计算机学院武汉430072)(gaotengfei@whu.edu.cn)出版日期:2019-07-01基金资助:国家自然科学基金项目(61772380);湖北省自然科学基金创新群体项目(2017CFA007)AMassivelyParallelBayes ...
    本站小编 Free考研考试 2022-01-01
  • 类脑机的思想与体系结构综述
    黄铁军1,余肇飞1,刘怡俊21(北京大学计算机科学技术系北京100871);2(广东工业大学信息工程学院广州510006)(tjhuang@pku.edu.cn)出版日期:2019-06-01基金资助:国家自然科学基金项目(61425025);广东省重点领域研发计划项目(2018B030338001 ...
    本站小编 Free考研考试 2022-01-01
  • 2019面向人工智能的计算机体系结构专题前言
    刘志勇1,窦勇21(中国科学院计算技术研究所北京100190);2(国防科技大学长沙410073)收稿日期:2019-06-04修回日期:2019-06-04出版日期:2019-06-01Received:2019-06-04Revised:2019-06-04Online:2019-06-01摘要 ...
    本站小编 Free考研考试 2022-01-01
  • 多层神经网络算法的计算特征建模方法
    方荣强1,王晶1,4,姚治成2,刘畅1,张伟功3,41(首都师范大学信息工程学院北京100048);2(体系结构国家重点实验室(中国科学院计算技术研究所)北京100190);3(高可靠嵌入式系统技术北京市工程研究中心(首都师范大学)北京100048);4(北京成像理论与技术高精尖创新中心(首都师范大 ...
    本站小编 Free考研考试 2022-01-01
  • 基于3D忆阻器阵列的神经网络内存计算架构
    毛海宇,舒继武(清华大学计算机科学与技术系北京100084)(mhy15@mails.tsinghua.edu.cn)出版日期:2019-06-01基金资助:国家重点研发计划项目(2018YFB1003301);国家自然科学基金项目(61832011)3DMemristorArrayBasedNeu ...
    本站小编 Free考研考试 2022-01-01
  • 基于细粒度数据流架构的稀疏神经网络全连接层加速
    向陶然1,2,叶笑春1,李文明1,冯煜晶1,2,谭旭1,2,张浩1,范东睿1,21(计算机体系结构国家重点实验室(中国科学院计算技术研究所)北京100190);2(中国科学院大学北京100049)(xiangtaoran@ict.ac.cn)出版日期:2019-06-01基金资助:国家重点研发计划项 ...
    本站小编 Free考研考试 2022-01-01