1(南京航空航天大学计算机科学与技术学院 南京 211106);2(模式分析与机器智能工业和信息化部重点实验室(南京航空航天大学) 南京 211106);3(三江学院计算机科学与工程学院 南京 210012) (yingwen.zhu@nuaa.edu.cn)
出版日期:
2020-08-01基金资助:
国家自然科学基金重点项目(61732006)High Dimensional Data Stream Clustering Algorithm Based on Random Projection
Zhu Yingwen1,2,3, Chen Songcan1,21(College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106);2(MIIT Key Laboratory of Pattern Analysis and Machine Intelligence (Nanjing University of Aeronautics and Astronautics), Nanjing 211106);3(College of Computer Science and Engineering, Sanjiang University, Nanjing 210012)
Online:
2020-08-01Supported by:
This work was supported by the Key Program of National Natural Science Foundation of China (61732006).摘要/Abstract
摘要: 高维数据流在许多现实应用中广泛存在,例如网络监控.不同于传统的静态数据聚类问题,数据流聚类面临有限内存、单遍扫描、实时响应和概念漂移等问题.然而现有许多数据流聚类算法在处理高维数据时,常常因产生维数灾难而导致高计算复杂度和较差的性能.为了解决此问题,基于随机投影和自适应谐振理论(adaptive resonance theory, ART)提出了一种针对高维数据流的高效聚类算法RPFART.该算法具有线性计算复杂度,仅包含1个超参数,并对参数设置鲁棒.详细分析了随机投影对ART的主要影响,尽管该算法仅简单地将随机投影与ART方法进行了结合,但在多个数据集上的实验结果表明:即使将原始尺寸压缩到10%,该方法仍可以达到与RPGStream算法相当的性能.对于ACT1数据集,其维数从67500减少到6750.
参考文献
相关文章 15
[1] | 李松, 胡晏铭, 郝晓红, 张丽平, 郝忠孝. 基于维度分组降维的高维数据近似k近邻查询[J]. 计算机研究与发展, 2021, 58(3): 609-623. |
[2] | 夏冬雪, 杨燕, 王浩, 阳树洪. 基于邻域多核学习的后融合多视图聚类算法[J]. 计算机研究与发展, 2020, 57(8): 1627-1638. |
[3] | 王婷, 王娜, 崔运鹏, 李欢. 基于半监督学习的无线网络攻击行为检测优化方法[J]. 计算机研究与发展, 2020, 57(4): 791-802. |
[4] | 赵慧慧, 赵凡, 陈仁海, 冯志勇. 基于地理空间大数据的高效索引与检索算法[J]. 计算机研究与发展, 2020, 57(2): 333-345. |
[5] | 陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394. |
[6] | 秦红, 王皓, 魏晓超, 郑志华. 安全的常数轮多用户k-均值聚类计算协议[J]. 计算机研究与发展, 2020, 57(10): 2188-2200. |
[7] | 刘逸凡, 徐昆. 多光源绘制方法综述[J]. 计算机研究与发展, 2020, 57(1): 17-31. |
[8] | 张佳影,王祺,张知行,阮彤,张欢欢,何萍. 区域医疗健康平台中检验检查指标的标准化算法[J]. 计算机研究与发展, 2019, 56(9): 1897-1906. |
[9] | 洪敏,贾彩燕,李亚芳,于剑. 样本加权的多视图聚类算法[J]. 计算机研究与发展, 2019, 56(8): 1677-1685. |
[10] | 闫小强,叶阳东. 共享和私有信息最大化的跨媒体聚类[J]. 计算机研究与发展, 2019, 56(7): 1370-1382. |
[11] | 胥皇,於志文,郭斌,王柱. 人才流动的时空模式:分析与预测[J]. 计算机研究与发展, 2019, 56(7): 1408-1419. |
[12] | 李顺勇,张苗苗,曹付元. 基于分类型矩阵对象数据的MD fuzzy k-modes聚类算法[J]. 计算机研究与发展, 2019, 56(6): 1325-1337. |
[13] | 李明月,罗向阳,柴理想,袁福祥,甘勇. 基于网络节点聚类的目标IP城市级定位方法[J]. 计算机研究与发展, 2019, 56(3): 467-479. |
[14] | 杜瑞忠,李明月,田俊峰. 基于聚类索引的多关键字排序密文检索方案[J]. 计算机研究与发展, 2019, 56(3): 555-565. |
[15] | 李赫,印莹,李源,赵宇海,王国仁. 基于多目标演化聚类的大规模动态网络社区检测[J]. 计算机研究与发展, 2019, 56(2): 281-292. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4237