删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于随机投影的高维数据流聚类

本站小编 Free考研考试/2022-01-01

朱颖雯1,2,3,陈松灿1,2
1(南京航空航天大学计算机科学与技术学院 南京 211106);2(模式分析与机器智能工业和信息化部重点实验室(南京航空航天大学) 南京 211106);3(三江学院计算机科学与工程学院 南京 210012) (yingwen.zhu@nuaa.edu.cn)
出版日期: 2020-08-01


基金资助:国家自然科学基金重点项目(61732006)

High Dimensional Data Stream Clustering Algorithm Based on Random Projection

Zhu Yingwen1,2,3, Chen Songcan1,2
1(College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106);2(MIIT Key Laboratory of Pattern Analysis and Machine Intelligence (Nanjing University of Aeronautics and Astronautics), Nanjing 211106);3(College of Computer Science and Engineering, Sanjiang University, Nanjing 210012)
Online: 2020-08-01


Supported by:This work was supported by the Key Program of National Natural Science Foundation of China (61732006).




摘要/Abstract


摘要: 高维数据流在许多现实应用中广泛存在,例如网络监控.不同于传统的静态数据聚类问题,数据流聚类面临有限内存、单遍扫描、实时响应和概念漂移等问题.然而现有许多数据流聚类算法在处理高维数据时,常常因产生维数灾难而导致高计算复杂度和较差的性能.为了解决此问题,基于随机投影和自适应谐振理论(adaptive resonance theory, ART)提出了一种针对高维数据流的高效聚类算法RPFART.该算法具有线性计算复杂度,仅包含1个超参数,并对参数设置鲁棒.详细分析了随机投影对ART的主要影响,尽管该算法仅简单地将随机投影与ART方法进行了结合,但在多个数据集上的实验结果表明:即使将原始尺寸压缩到10%,该方法仍可以达到与RPGStream算法相当的性能.对于ACT1数据集,其维数从67500减少到6750.






[1]李松, 胡晏铭, 郝晓红, 张丽平, 郝忠孝. 基于维度分组降维的高维数据近似k近邻查询[J]. 计算机研究与发展, 2021, 58(3): 609-623.
[2]夏冬雪, 杨燕, 王浩, 阳树洪. 基于邻域多核学习的后融合多视图聚类算法[J]. 计算机研究与发展, 2020, 57(8): 1627-1638.
[3]王婷, 王娜, 崔运鹏, 李欢. 基于半监督学习的无线网络攻击行为检测优化方法[J]. 计算机研究与发展, 2020, 57(4): 791-802.
[4]赵慧慧, 赵凡, 陈仁海, 冯志勇. 基于地理空间大数据的高效索引与检索算法[J]. 计算机研究与发展, 2020, 57(2): 333-345.
[5]陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394.
[6]秦红, 王皓, 魏晓超, 郑志华. 安全的常数轮多用户k-均值聚类计算协议[J]. 计算机研究与发展, 2020, 57(10): 2188-2200.
[7]刘逸凡, 徐昆. 多光源绘制方法综述[J]. 计算机研究与发展, 2020, 57(1): 17-31.
[8]张佳影,王祺,张知行,阮彤,张欢欢,何萍. 区域医疗健康平台中检验检查指标的标准化算法[J]. 计算机研究与发展, 2019, 56(9): 1897-1906.
[9]洪敏,贾彩燕,李亚芳,于剑. 样本加权的多视图聚类算法[J]. 计算机研究与发展, 2019, 56(8): 1677-1685.
[10]闫小强,叶阳东. 共享和私有信息最大化的跨媒体聚类[J]. 计算机研究与发展, 2019, 56(7): 1370-1382.
[11]胥皇,於志文,郭斌,王柱. 人才流动的时空模式:分析与预测[J]. 计算机研究与发展, 2019, 56(7): 1408-1419.
[12]李顺勇,张苗苗,曹付元. 基于分类型矩阵对象数据的MD fuzzy k-modes聚类算法[J]. 计算机研究与发展, 2019, 56(6): 1325-1337.
[13]李明月,罗向阳,柴理想,袁福祥,甘勇. 基于网络节点聚类的目标IP城市级定位方法[J]. 计算机研究与发展, 2019, 56(3): 467-479.
[14]杜瑞忠,李明月,田俊峰. 基于聚类索引的多关键字排序密文检索方案[J]. 计算机研究与发展, 2019, 56(3): 555-565.
[15]李赫,印莹,李源,赵宇海,王国仁. 基于多目标演化聚类的大规模动态网络社区检测[J]. 计算机研究与发展, 2019, 56(2): 281-292.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4237
相关话题/计算机 数据 计算 南京航空航天大学 网络