日前,《国家科学评论》(National Science Review,NSR)在线发表了由北京大学信息科学技术学院、高可信软件技术教育部重点实验室崔斌教授课题组与腾讯数据平台部合作撰写的论文《一种新型大规模分布式机器学习系统Angel》(Angel: a new large-scale machine learning system,DOI: 10.1093/nsr/nwx018)。这是首篇刊登在NSR的信息科学领域研究论文。
文章回顾了学术界和工业界近期共同关注的机器学习系统,着重介绍了Angel系统的设计思想和实现细节,并通过对多个大规模数据集上不同机器学习算法和系统的比较,验证了Angel系统在分布式机器学习方面的有效性。
现有的机器学习系统都是针对不同类型的机器学习任务而搭建的。数据流系统Hadoop和Spark适用于通用的数据处理任务和构建机器学习流水线,但缺乏参数共享机制,存在单点瓶颈性能问题;图计算系统GraphLab、GraphX和Tux2等将机器学习计算抽象成图结构,可利用图结构的特性加速,但只适合具有稀疏图结构的算法;深度学习系统TensorFlow、MXNet和Caffe2等利用参数服务器或全局归约进行分布式神经网络的训练,可利用GPU对神经网络的计算加速,但缺乏对稀疏图结构的优化和支持。
由北京大学-腾讯协同创新实验室开发的开源系统Angel(源代码见https://github.com/Tencent/angel)兼顾工业界的高可用性和学术界的创新性,集成和优化多种机器学习算法,是一个基于参数服务器理念的分布式机器学习框架,使机器学习算法在高维度模型上轻松运行。它围绕模型共享的核心理念,将高维度的大模型合理地切分到多个参数服务器节点,并通过高效的模型更新接口、运算函数和多变的同步协议实现各种高效的机器学习算法。得益于良好的设计,Angel既能独立运行、高效执行多种机器学习算法,也能作为参数服务器服务,支持Spark和现有深度学习框架,并为其加速。联合课题组基于工业界的海量数据,反复实践和调优,使得Angel具有广泛的适用性和稳定性,模型维度越高,优势越明显。经过在真实数据集上的对比,Angel在多种机器学习算法上的性能优于XGBoost、Spark、Petuum、TensorFlow等常用机器学习系统,已被应用于腾讯视频点击预测和广告推荐等实际业务中。
Angel系统框架
Angel目前基于Java和Scala开发,未来还将加入Python等多种语言接口,使用更便捷,且参数服务器服务能力会进一步提升,支持图计算和深度学习框架。
编辑:山石
?
?
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
北京大学-腾讯协同创新实验室关于分布式机器学习系统Angel的研究取得重要进展
本站小编 Free考研/2020-04-10
相关话题/系统 计算
工学院谢广明课题组研制出新型水下通信系统
近期,北京大学工学院谢广明教授领导的课题组研制出一种新型的水下电场通信系统,为目前水下机器人通信提供了一种新思路,相关论文发表于仿生科学领域国际顶级期刊Bioinspiration&Biomimetics。由于水环境的特殊性,水下通信不像陆地上那样方便自如,其一定程度上限制了水下机器人大规模应用。传 ...北京大学通知公告 本站小编 Free考研 2020-04-10北大信息科学技术学院康晋锋教授课题组在基于阻变器件的计算、存储一体化计算机架构研究中取得重要进展
随着物联网、可穿戴设备和智慧医疗的发展,数据量呈爆炸式增长,亟待研发高效率、高集成度、低功耗的信息处理系统。近日,北京大学信息科学技术学院康晋锋教授课题组在利用新型阻变器件构建可实时逻辑重构的计算、存储一体化并行处理硬件架构研究方面取得重要进展。研究成果以“面向大规模信息处理应用的可重构非挥发存储计 ...北京大学通知公告 本站小编 Free考研 2020-04-10信息学院张大成教授课题组在微机电系统领域国际标准制定方面取得重大突破
日前,由北京大学牵头、北大信息科学技术学院张大成教授课题组提案的“硅基微电机系统制造技术:微键合区剪切和拉压强度检测方法”(SiliconbasedMEMSfabricationtechnology-Measurementmethodofpull-pressandshearingstrengthof ...北京大学通知公告 本站小编 Free考研 2020-04-10城环学院生态系博士生在Ecology Letters上撰文 揭示富营养化改变淡水生态系统氮磷计量特征
8月8日,北京大学城市与环境学院生态系博士生严正兵以第一作者身份,在国际著名生态学期刊EcologyLetters上,发表题为Phosphorusaccumulatesfasterthannitrogengloballyinfreshwaterecosystemsunderanthropogenic ...北京大学通知公告 本站小编 Free考研 2020-04-10信息科学技术学院许进教授团队提出一种从底层全并行的计算模型——探针机
近日,北京大学信息科学技术学院、高可信软件技术教育部重点实验室许进教授所撰写的《探针机》(Probemachine)一文,在美国电气电子工程师学会(theInstituteofElectricalandElectronicsEngineers)主办的《神经网络与学习系统汇刊》(IEEETransac ...北京大学通知公告 本站小编 Free考研 2020-04-10信息科学技术学院张铭教授课题组在人机对话系统研究中取得重要进展
人机对话系统是人工智能的重大挑战之一。目前的自动人机对话系统(如Siri和小冰)在自由对话条件下,都是以被动应答的形式为主,即顺着用户话语回复,尚不能主动完成话题迁移。然而,类比人与人之间的实际对话,新的话题应由双方交替引入;机器也应承担主动引导话题的任务,尤其是当对话陷入僵局,即用户对当前话题没有 ...北京大学通知公告 本站小编 Free考研 2020-04-10信息科学技术学院焦秉立课题组应邀在NGMN论坛作同频同时全双工技术系统级展示
日前,由下一代移动网络(nextgenerationmobilenetworks,NGMN)联盟等主办的NGMN论坛暨第五代移动通信网络(fifth-generation,5G)峰会在台北举行。由北京大学信息科学技术学院焦秉立教授课题组与清华大学、台湾新竹交通大学共同组成的科研团队作为在同频同时全双 ...北京大学通知公告 本站小编 Free考研 2020-04-10沈阳工程学院能源与动力学院导师教师师资介绍简介-电站系统仿真、控制与信息技术-曹福毅
电站系统仿真、控制与信息技术-曹福毅 ...沈阳工程学院 本站小编 Free考研考试 2020-04-09沈阳工程学院能源与动力学院导师教师师资介绍简介-企业导师-丁永允-电站系统仿真、控制与信息技术
企业导师-丁永允-电站系统仿真、控制与信息技术 ...沈阳工程学院 本站小编 Free考研考试 2020-04-09沈阳工程学院能源与动力学院导师教师师资介绍简介-企业导师-郭宝仁-电站系统优化与节能
企业导师-郭宝仁-电站系统优化与节能 ...沈阳工程学院 本站小编 Free考研考试 2020-04-09