删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向稀疏卷积神经网络的GPU性能优化方法

本站小编 Free考研考试/2022-01-02

摘要:近些年来,深度卷积神经网络在多项任务中展现了惊人的能力,并已经被用在物体检测、自动驾驶和机器翻译等众多应用中.但这些模型往往参数规模庞大,并带来了沉重的计算负担.神经网络的模型剪枝技术能够识别并删除模型中对精度影响较小的参数,从而降低模型的参数数目和理论计算量,给模型的高效执行提供了机会.然而,剪枝后的稀疏模型却难以在GPU上实现高效执行,其性能甚至差于剪枝前的稠密模型,导致模型剪枝难以带来真正的执行性能收益.提出一种稀疏感知的代码生成方法,能够生成高效的稀疏卷积GPU程序.首先为卷积算子设计了算子模板,并结合GPU的特点对模板代码进行了多种优化.算子模板中的源代码经过编译和分析被转换为算子中间表示模板,设计了一种稀疏代码生成方法,能够结合剪枝后的稀疏参数,基于中间表示模板生成对应的稀疏卷积代码.同时,利用神经网络执行过程中的数据访问特点对数据的访问和放置进行了优化,有效提升了访存吞吐量.最后,稀疏参数的位置信息被隐式编码在生成的代码中,不需要额外的索引结构,降低了访存需求.在实验中证明了:相对于GPU上已有的稀疏神经网络执行方法,提出的稀疏感知的代码生成方法能够有效提升稀疏卷积神经网络的性能.



Abstract:In recent years, with dominating capability shown in plenty of tasks, deep convolutional neural networks have been deployed in applications including object detection, autonomous driving, machine translation, etc. But these models are accompanied by huge amounts of parameters and bring a heavy computational burden. The neural network pruning technique can recognize and remove parameters that contribute little to the accuracy, resulting in reduced amounts of parameters and decreased theoretical computational requirement, thus providing a chance to accelerate neural network models. However, it is hard for the pruned sparse models to achieve efficient execution on GPUs, and the performance of sparse models cannot even match their well-optimized dense counterparts. This study designs a sparsity-aware code generating method, which can generate efficient GPU code for sparse convolutions in pruned neural networks. First, a template is designed for convolution operators with several optimizations targeting GPU architecture. Through compiling and analyzing, the operator template is transformed to the intermediate representation template, which serves as the input to the designed algorithm to generate sparse convolution code according to specific sparse convolution parameters. Moreover, to improve memory throughput, optimizations are performed on data access and data placement based on the characteristics of memory access in neural networks. Finally, as the location information can be encoded into the generated code implicitly, the index structure for the sparse parameters can be eliminated, reducing the memory footprint during the execution. In experiments, it is demonstrated that the proposed sparse code generating method can improve the performance of sparse convolutional neural networks compared with current methods.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/6051
相关话题/代码 设计 计算 数据 优化

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于双层协同的联盟区块链隐私数据保护方法
    摘要:为了解决联盟区块链平台中的隐私保护问题,提出了一种基于双层协同的隐私数据保护方法,包括:(1)链间隐私保护:通过将不同业务的数据进行分流处理、分区存储,实现了不同业务之间的隐私机密性保护;(2)链内隐私保护:通过在交易体中嵌入字段来指定链内隐私数据的参与方,并由接收交易的区块链节点作为中转节点 ...
    本站小编 Free考研考试 2022-01-02
  • 大规模路网图下关键词覆盖最优路径查询优化
    摘要:游客倾向于采用个性化的旅游路线,规划这样的路线需要综合考量路径长度、路径开销和路径覆盖的兴趣点.关键词覆盖最优路径查询(KOR)就是用于规划这样的路线的一类查询,其处理过程通常包括预处理和路径拓展.由于路网图规模的不断扩大,现有算法预处理所需内存开销急剧上升,由于内存不足,导致较大规模的路网不 ...
    本站小编 Free考研考试 2022-01-02
  • 多媒体内容的多维度相似性计算与搜索专题前言
    摘要:Abstract:PDF全文下载地址:http://jos.org.cn/jos/article/pdf/5936 ...
    本站小编 Free考研考试 2022-01-02
  • 面向异构融合处理器的性能分析、优化及应用综述
    摘要:随着异构计算技术的不断进步,CPU和GPU等设备相集成的异构融合处理器在近些年得到了充分的发展,并引起了学术界和工业界的关注.将多种设备进行集成带来了许多好处,例如,多种设备可以访问同样的内存,可以进行细粒度的交互.然而,这也带来了系统编程和优化方面的巨大挑战.充分发挥异构融合处理器的性能,需 ...
    本站小编 Free考研考试 2022-01-02
  • 基于日志数据的分布式软件系统故障诊断综述
    摘要:基于日志数据的故障诊断是指通过智能化手段分析系统运行时产生的日志数据以自动化地发现系统异常、诊断系统故障.随着智能运维(artificialintelligenceforIToperations,简称AIOps)的快速发展,该技术正成为学术界和工业界的研究热点.首先总结了基于日志数据的分布式软 ...
    本站小编 Free考研考试 2022-01-02
  • 面向移动Web应用的浏览器缓存性能度量与优化
    摘要:随着移动互联网的飞速发展,用户越来越多地通过移动设备访问Web应用.浏览器为Web应用提供基本的计算、渲染等运行时支撑,其缓存机制可以支持Web应用直接从本地而不是通过网络来获取可复用资源,不仅能够减少整体的执行时间从而提升应用加载速度,还能够减少网络流量使用和电池电量消耗,从而保证移动Web ...
    本站小编 Free考研考试 2022-01-02
  • 数据中心网络负载均衡问题研究
    摘要:数据中心网络是现代网络和云计算的重要基础设施,实现数据中心网络负载均衡是保证网络吞吐并提高服务体验的关键环节.首先分析了数据中心网络与传统互联网之间的区别,总结其特点及特殊性在负载均衡方案设计方面的优势.然后从数据中心的复杂性和多样性角度分析其负载均衡方案设计所面临的挑战.将现有数据中心网络负 ...
    本站小编 Free考研考试 2022-01-02
  • 信息物理系统软件设计自动化专题前言
    摘要:为了更精确地认识与改造世界,新一代的嵌入式系统必须将计算世界与物理世界作为紧密交互的整体进行认知,实现集计算、通信与控制于一体的深度融合的理论体系与技术框架,即信息物理系统(cyber-physicalsystems,简称CPS).与传统嵌入式系统不同,CPS充分考虑了计算部件与物理环境的深度 ...
    本站小编 Free考研考试 2022-01-02
  • 基于堆叠泛化的设计模式检测方法
    摘要:设计模式检测是理解和维护软件系统的一项重要工作.以高效识别设计模式变体和提高设计模式识别准确率为目的,将面向对象度量与模式微结构相结合,提出一种基于堆叠泛化的设计模式检测方法.该方法应用典型的机器学习算法,分别训练度量分类器和微结构分类器,并基于两者的预测值和相关对象模型特征进一步训练,从而形 ...
    本站小编 Free考研考试 2022-01-02
  • 面向大数据分析作业的启发式云资源供给方法
    摘要:云计算已成为大数据分析作业的主流运行支撑环境,选择合适的云资源优化其性能面临巨大挑战.当前研究主要考虑大数据分析框架(如Hadoop,Spark等)的多样性,采用机器学习方法进行资源供给,但样本少容易陷入局部最优解.提出了大数据环境下基于负载分类的启发式云资源供给方法RP-CH,基于云资源共享 ...
    本站小编 Free考研考试 2022-01-02