删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

分布式深度学习框架下基于性能感知的DBS-SGD算法

本站小编 Free考研考试/2022-01-01

纪泽宇,张兴军,付哲,高柏松,李靖波
(西安交通大学计算机科学与技术学院 西安 710049) (zeyu.ji@stu.xjtu.edu.cn)
出版日期: 2019-11-12


基金资助:国家重点研发计划项目(2016YFB0200902)

Performance-Awareness Based Dynamic Batch Size SGD for Distributed Deep Learning Framework

Ji Zeyu, Zhang Xingjun, Fu Zhe, Gao Bosong, Li Jingbo
(School of Computer Science and Technology, Xi’an Jiaotong University, Xi’an 710049)
Online: 2019-11-12







摘要/Abstract


摘要: 通过增加模型的深度以及训练数据的样本数量,深度神经网络模型能够在多个机器学习任务中获得更好的性能,然而这些必要的操作会使得深度神经网络模型训练的开销相应增大.因此为了更好地应对大量的训练开销,在分布式计算环境中对深度神经网络模型的训练过程进行加速成为了研发人员最常用的手段.随机梯度下降(stochastic gradient descent, SGD)算法是当前深度神经网络模型中最常见的训练算法之一,然而SGD在进行并行化的时候容易产生梯度过时问题,从而影响算法的整体收敛性.现有解决方案大部分针对的是各节点性能差别较小的高性能计算(high performance computing, HPC)环境,很少有研究考虑过各节点性能差别较大的集群环境.针对上述问题进行研究并提出了一种基于性能感知技术的动态batch size随机梯度下降算法(dynamic batch size SGD, DBS-SGD).该算法通过分析各节点的计算能力,对各节点的minibatch进行动态分配,从而保证了节点间每次迭代更新的时间基本一致,进而降低了节点的平均梯度过时值.提出的算法能够有效优化异步更新策略中存在的梯度过时问题.选用常用的图像分类基准Mnist和cifar10作为训练数据集,将该算法与异步随机梯度下降(asynchronous SGD, ASGD)算法、n-soft算法进行了对比.实验结果表明:在不损失加速比的情况下,Mnist数据集的loss函数值降低了60%,cifar数据集的准确率提升了约10%,loss函数值降低了10%,其性能高于ASGD算法和n-soft算法,接近同步策略下的收敛曲线.






[1]姜桂圆 张桂玲 张大坤. SIFT特征分布式并行提取算法[J]. , 2012, 49(5): 1130-1141.
[2]王 鹏, 孟 丹, 詹剑锋, 涂碧波,. 数据密集型计算编程模型研究进展[J]. , 2010, 47(11): 1993-2002.
[3]王轶然, 陈 莉, 冯晓兵, 张兆庆,. 全局部分重复计算划分[J]. , 2006, 43(12): 2158-2165.
[4]张发存, 赵晓红, 王 忠, 沈绪榜,. 面向算法的SIMD计算机数学模型及其应用研究[J]. , 2005, 42(4): 557-562.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4045
相关话题/数据 计算 环境 西安交通大学 实验