删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

北京大学-腾讯协同创新实验室关于分布式机器学习系统Angel的研究取得重要进展

本站小编 Free考研/2020-04-10

日前,《国家科学评论》(National Science ReviewNSR)在线发表了由北京大学信息科学技术学院、高可信软件技术教育部重点实验室崔斌教授课题组与腾讯数据平台部合作撰写的论文《一种新型大规模分布式机器学习系统Angel》(Angel: a new large-scale machine learning system,DOI: 10.1093/nsr/nwx018)。这是首篇刊登在NSR的信息科学领域研究论文。
文章回顾了学术界和工业界近期共同关注的机器学习系统,着重介绍了Angel系统的设计思想和实现细节,并通过对多个大规模数据集上不同机器学习算法和系统的比较,验证了Angel系统在分布式机器学习方面的有效性。
现有的机器学习系统都是针对不同类型的机器学习任务而搭建的。数据流系统Hadoop和Spark适用于通用的数据处理任务和构建机器学习流水线,但缺乏参数共享机制,存在单点瓶颈性能问题;图计算系统GraphLab、GraphX和Tux2等将机器学习计算抽象成图结构,可利用图结构的特性加速,但只适合具有稀疏图结构的算法;深度学习系统TensorFlow、MXNet和Caffe2等利用参数服务器或全局归约进行分布式神经网络的训练,可利用GPU对神经网络的计算加速,但缺乏对稀疏图结构的优化和支持。
由北京大学-腾讯协同创新实验室开发的开源系统Angel(源代码见https://github.com/Tencent/angel)兼顾工业界的高可用性和学术界的创新性,集成和优化多种机器学习算法,是一个基于参数服务器理念的分布式机器学习框架,使机器学习算法在高维度模型上轻松运行。它围绕模型共享的核心理念,将高维度的大模型合理地切分到多个参数服务器节点,并通过高效的模型更新接口、运算函数和多变的同步协议实现各种高效的机器学习算法。得益于良好的设计,Angel既能独立运行、高效执行多种机器学习算法,也能作为参数服务器服务,支持Spark和现有深度学习框架,并为其加速。联合课题组基于工业界的海量数据,反复实践和调优,使得Angel具有广泛的适用性和稳定性,模型维度越高,优势越明显。经过在真实数据集上的对比,Angel在多种机器学习算法上的性能优于XGBoost、Spark、Petuum、TensorFlow等常用机器学习系统,已被应用于腾讯视频点击预测和广告推荐等实际业务中。

Angel系统框架
Angel目前基于Java和Scala开发,未来还将加入Python等多种语言接口,使用更便捷,且参数服务器服务能力会进一步提升,支持图计算和深度学习框架。
编辑:山石
?
?

相关话题/系统 计算