摘要:机器学习问题通常会转换成一个目标函数去求解,优化算法是求解目标函数中参数的重要工具.在大数据环境下,需要设计并行与分布式的优化算法,通过多核计算和分布式计算技术来加速训练过程.近年来,该领域涌现了大量研究工作,部分算法也在各机器学习平台得到广泛应用.针对梯度下降算法、二阶优化算法、邻近梯度算法、坐标下降算法、交替方向乘子算法这5类最常见的优化方法展开研究,每一类算法分别从单机并行和分布式并行来分析相关研究成果,并从模型特性、输入数据特性、算法评价、并行计算模型等角度对每种算法进行详细对比.随后,对有代表性的可扩展机器学习平台中优化算法的实现和应用情况进行对比分析.同时,对所介绍的所有优化算法进行多层次分类,方便用户根据目标函数类型选择合适的优化算法,也可以通过该多层次分类图交叉探索如何将优化算法应用到新的目标函数类型.最后分析了现有优化算法存在的问题,提出可能的解决思路,并对未来研究方向进行展望.
Abstract:Machine learning problems can be viewed as optimization-centric programs, and the optimization algorithm is an important tool to solve the objective function. In the era of big data, in order to speed up the training process, it is essential to design parallel and distributed optimization algorithms by multi-core computing and distributed computing technologies. In recent years, there are a lot of research works in this field, and some algorithms have been widely applied on machine learning platforms. In this paper, five common optimization algorithms, including gradient descent algorithm, second order optimization algorithm, proximal gradient algorithm, coordinate descent algorithm and alternating direction method of multiplier, are studied. Each type of algorithm is analyzed from the view of parallel and distributed respectively, and algorithms of the same type are compared by their model type, input data characteristic, algorithm evaluation and parallel communication mode. In addition, the implementations and applications of the optimization algorithm on representative scalable machine learning platforms are analyzed. Meanwhile, all the optimization algorithms introduced in this paper are categorized by a hierarchical classification diagram, which can be used as a tool to select the appropriate optimization algorithm according to the objective function type, and also to cross explore how to apply optimization algorithms to the new objective function type. Finally, the problems of the existing optimization algorithms are discussed, and the possible solutions and the future research directions are proposed.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5376
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
可扩展机器学习的并行与分布式优化算法综述
本站小编 Free考研考试/2022-01-02
相关话题/优化 计算 数据 环境 技术
分布式数据库中一致性与可用性的关系
摘要:随着各类应用在数据量和业务量上的扩展,单机数据库系统越发难以应对现实需求.分布式数据库能够根据业务的需求动态地扩容,因此逐步开始受到应用的青睐.近年来,分布式数据库产品层出不穷,并在互联网应用中被大量投入使用.然而,分布式数据库的系统复杂度前所未有.为了让系统可用,设计者需要在多种属性中作合理 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02区块链与可信数据管理:问题与方法
摘要:作为支撑比特币实现无中心高可信的账本管理的技术,区块链在金融领域得到了广泛关注.区块链实现了不完全可信环境中的可信数据管理,具有去中心化、防篡改、不可抵赖、强一致和完整性等特性,但同时也存在高延迟和低吞吐率的性能问题.在互联网技术发展、新型应用层出不穷的大背景下,借鉴区块链在数字加密货币应用中 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02物联网环境下数据转发模型研究
摘要:随着5G移动通信技术、软件定义网络、命名数据网、移动边缘计算或雾计算等新兴技术或方法的出现及深入研究,物联网应用得到进一步升华.在这种应用场景多样化、服务质量高要求、参与对象普及化的环境下,隶属物联网子范畴的传统无线传感器网络数据转发模型已经不能完全适应这种时代需求,更加适合物联网应用的数据转 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02互联网自治域间IP源地址验证技术综述
摘要:当前,互联网是基于目的地址转发,对源地址不作验证.而互联网很多安全问题的根源在于源地址的不可信.另一方面,随着互联网规模和复杂度的增大以及对政治、经济利益影响的加深,域间路由系统对互联网的稳定运行起着愈发关键的作用.美国国土安全部将域间路由安全问题列入了美国信息安全的国家战略.近年来,以IP源 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于EPAS技术的日照市大气单颗粒物理化学特性及来源研究
摘要摘要:城市地区大气气溶胶颗粒的物理化学特性复杂,理清单颗粒精细的化学成分和混合状态对于大气污染溯源和精细治理具有重要意义。本研究利用被动式气溶胶采样器分别在山东省日照市城区和钢铁园区两个区域进行了定点采样,并利用智能扫描电镜环境颗粒物分析系统(IntelliSEMEPAS)对采集的大气单颗粒物样 ...中科院大气物理研究所 本站小编 Free考研考试 2022-01-02基于EPAS技术的日照市大气单颗粒物理化学特性及来源研究
摘要摘要:城市地区大气气溶胶颗粒的物理化学特性复杂,理清单颗粒精细的化学成分和混合状态对于大气污染溯源和精细治理具有重要意义。本研究利用被动式气溶胶采样器分别在山东省日照市城区和钢铁园区两个区域进行了定点采样,并利用智能扫描电镜环境颗粒物分析系统(IntelliSEMEPAS)对采集的大气单颗粒物样 ...中科院大气物理研究所 本站小编 Free考研考试 2022-01-02基于MODIS数据地表反照率时空变化特征及影响因子研究
摘要摘要:地表反照率表征地球表面对太阳辐射的反射能力,是影响地表辐射能量收支平衡的关键参数。本文以淮河流域为例,利用MODIS(MODerateresolutionImagingSpectroradiometer)数据,采用网格趋势分析、异常变化分析、相关分析和灰色关联度分析等方法,分析了淮河流域2 ...中科院大气物理研究所 本站小编 Free考研考试 2022-01-02基于MODIS数据地表反照率时空变化特征及影响因子研究
摘要摘要:地表反照率表征地球表面对太阳辐射的反射能力,是影响地表辐射能量收支平衡的关键参数。本文以淮河流域为例,利用MODIS(MODerateresolutionImagingSpectroradiometer)数据,采用网格趋势分析、异常变化分析、相关分析和灰色关联度分析等方法,分析了淮河流域2 ...中科院大气物理研究所 本站小编 Free考研考试 2022-01-02多层城市冠层模型参数优化及对京津冀城市群的高温模拟
摘要摘要:针对京津冀高温模拟,综合运用卫星和地面气象观测数据、参数敏感性试验等技术方法,确定了耦合了多层城市冠层模型的中尺度数值模式(WRF/BEP/BEM)的地表反照率、比辐射率和人为热等参数的本地化配置。数值对比试验表明,参照试验中优化地表反照率、比辐射率和人为热(通过本地优化BEM输入参数来实 ...中科院大气物理研究所 本站小编 Free考研考试 2022-01-02多层城市冠层模型参数优化及对京津冀城市群的高温模拟
摘要摘要:针对京津冀高温模拟,综合运用卫星和地面气象观测数据、参数敏感性试验等技术方法,确定了耦合了多层城市冠层模型的中尺度数值模式(WRF/BEP/BEM)的地表反照率、比辐射率和人为热等参数的本地化配置。数值对比试验表明,参照试验中优化地表反照率、比辐射率和人为热(通过本地优化BEM输入参数来实 ...中科院大气物理研究所 本站小编 Free考研考试 2022-01-02