密度峰值聚类算法综述

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-01-01

陈叶旺^1,2,3,4, 申莲莲¹, 钟才明⁵, 王田¹, 陈谊², 杜吉祥¹

¹(华侨大学计算机科学与技术学院福建厦门 361021);²(食品安全大数据技术北京市重点实验室(北京工商大学) 北京 100048);³(江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州 215006);⁴(福建省大数据智能与安全重点实验室(华侨大学) 福建厦门 361021);⁵(宁波大学信息学院浙江宁波 315211) (ywchen@hqu.edu.cn)

出版日期: 2020-02-01

基金资助:国家自然科学基金项目(61673186,71771094,61876068,61972010)；泉州市高层次人才创新创业项目(2018C114R,2018C110R)；福建省科技计划项目(2017H01010065,2019H01010129)

Survey on Density Peak Clustering Algorithm

Chen Yewang^1,2,3,4, Shen Lianlian¹, Zhong Caiming⁵, Wang Tian¹, Chen Yi², and Du Jixiang¹

¹(College of Computer Science and Technology, Huaqiao University, Xiamen, Fujian 361021);²(Beijing Key Laboratory of Big Data Technology for Food Safety (Beijing Technology and Business University), Beijing 100048);³(Provincial Key Laboratory for Computer Information Processing Technology (Soochow University), Suzhou, Jiangsu 215006);⁴(Fujian Key Laboratory of Big Data Intelligence and Security (Huaqiao University), Xiamen, Fujian 361021);⁵(College of Information, Ningbo University, Ningbo, Zhejiang 315211)

Online: 2020-02-01

Supported by:This work was supported by the National Natural Science Foundation of China (61673186, 71771094, 61876068, 61972010), the Quanzhou City Science & Technology Program of China (2018C114R, 2018C110R), and the Project of Science and Technology Plan of Fujian Province of China (2017H01010065, 2019H01010129).

摘要/Abstract

摘要： 密度峰值聚类(density peak, DPeak)算法是一种简单有效的聚类算法，它可将任意维度数据映射成2维，在降维后的空间中建构出数据之间的层次关系，可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点，可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图，另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态，对该算法的各种改进或变种从以下3方面进行了总结和梳理：首先，介绍了DPeak算法原理，对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后，发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处，因而认为其可能为mean shift的一个特殊变种.其次，讨论了DPeak的几个不足之处，如复杂度较高、自适应性不足、精度低和高维数据适用性差等，将针对这些缺点进行改进的相关算法做了分类讨论.此外，梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后，探讨了密度峰值聚类算法所存在的问题及挑战，同时对进一步的工作进行展望.

参考文献

相关文章 15

[1]	蒲勇霖, 于炯, 鲁亮, 李梓杨, 国冰磊, 廖彬. 基于Storm平台的数据恢复节能策略[J]. 计算机研究与发展, 2021, 58(3): 479-496.
[2]	吴宗友, 白昆龙, 杨林蕊, 王仪琦, 田英杰. 电子病历文本挖掘研究综述[J]. 计算机研究与发展, 2021, 58(3): 513-527.
[3]	林霄, 姬硕, 岳胜男, 孙卫强, 胡卫生. 面向跨数据中心网络的节点约束存储转发调度方法[J]. 计算机研究与发展, 2021, 58(2): 319-337.
[4]	陶涛, 孙玉娥, 陈冬梅, 杨文建, 黄河, 罗永龙. 一种基于智能手机传感器数据的地图轮廓生成方法[J]. 计算机研究与发展, 2020, 57(7): 1490-1507.
[5]	许丹亚, 王晶, 王利, 张伟功. 基于Spark的大数据访存行为跨层分析工具[J]. 计算机研究与发展, 2020, 57(6): 1179-1190.
[6]	申毅杰, 曾丹, 熊劲. 基于收益模型的Spark SQL数据重用机制[J]. 计算机研究与发展, 2020, 57(2): 318-332.
[7]	赵慧慧, 赵凡, 陈仁海, 冯志勇. 基于地理空间大数据的高效索引与检索算法[J]. 计算机研究与发展, 2020, 57(2): 333-345.
[8]	胡学钢, 刘菲, 卜晨阳. 教育大数据中认知跟踪模型研究进展[J]. 计算机研究与发展, 2020, 57(12): 2523-2546.
[9]	田继伟,王劲松,石凯. 基于PU与生成对抗网络的POI定位算法[J]. 计算机研究与发展, 2019, 56(9): 1843-1850.
[10]	刘芳,李戈,胡星,金芝. 基于深度学习的程序理解研究进展[J]. 计算机研究与发展, 2019, 56(8): 1605-1620.
[11]	洪敏,贾彩燕,李亚芳,于剑. 样本加权的多视图聚类算法[J]. 计算机研究与发展, 2019, 56(8): 1677-1685.
[12]	艾科,马国帅,杨凯凯,钱宇华. 一种基于集成学习的科研合作者潜力预测分类方法[J]. 计算机研究与发展, 2019, 56(7): 1383-1395.
[13]	高腾飞,刘勇琰,汤云波,张垒,陈丹. 面向时间序列大数据海量并行贝叶斯因子化分析方法[J]. 计算机研究与发展, 2019, 56(7): 1567-1577.
[14]	赵宇海,印莹,李源,汪嗣尧,王国仁. 一种面向大规模序列数据的交互特征并行挖掘算法[J]. 计算机研究与发展, 2019, 56(5): 992-1006.
[15]	王悦,樊凯. 隐藏访问策略的高效CP-ABE方案[J]. 计算机研究与发展, 2019, 56(10): 2151-2159.

PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4124