一种海量数据快速聚类算法
何倩1, 李双富1,2, 黄焕1, 徐红11. 桂林电子科技大学 卫星导航定位与位置服务国家地方联合工程研究中心, 桂林 541004;
2. 广西交科集团有限公司, 南宁 530007
收稿日期:
2019-05-11出版日期:
2020-06-28发布日期:
2020-06-24作者简介:
何倩(1979-),男,教授,博士生导师,E-mail:heqian@guet.edu.cn.基金资助:
国家自然科学基金项目(61661015,61967005);广西创新驱动重大专项项目(AA17202024);广西科技创新团队项目(2019GXNSFGA245004)A Fast Clustering Algorithm for Massive Data
HE Qian1, LI Shuang-fu1,2, HUANG Huan1, XU Hong11. State and Local Joint Engineering Research Center for Satellite Navigation and Location Service, Guilin University of Electronic Technology, Guilin 541004, China;
2. Guangxi Jiaoke Group Company Limited, Nanning 530007, China
Received:
2019-05-11Online:
2020-06-28Published:
2020-06-24Supported by:
摘要/Abstract
摘要: 为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法.
中图分类号:
TP311
引用本文
何倩, 李双富, 黄焕, 徐红. 一种海量数据快速聚类算法[J]. 北京邮电大学学报, 2020, 43(3): 118-124.
HE Qian, LI Shuang-fu, HUANG Huan, XU Hong. A Fast Clustering Algorithm for Massive Data[J]. Journal of Beijing University of Posts and Telecommunications, 2020, 43(3): 118-124.
PDF全文下载地址:
https://journal.bupt.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4641