摘要:密度峰值聚类(clustering by fast search and find of density peaks,简称DPC)是一种基于局部密度和相对距离属性快速寻找聚类中心的有效算法.DPC通过决策图寻找密度峰值作为聚类中心,不需要提前指定类簇数,并可以得到任意形状的簇聚类.但局部密度和相对距离的计算都只是简单依赖基于距离度量的相似度矩阵,所以在复杂数据上DPC聚类结果不尽如人意,特别是当数据分布不均匀、数据维度较高时.另外,DPC算法中局部密度的计算没有统一的度量,根据不同的数据集需要选择不同的度量方式.第三,截断距离dc的度量只考虑数据的全局分布,忽略了数据的局部信息,所以dc的改变会影响聚类的结果,尤其是在小样本数据集上.针对这些弊端,提出一种基于不相似性度量优化的密度峰值聚类算法(optimized density peaks clustering algorithm based on dissimilarity measure,简称DDPC),引入基于块的不相似性度量方法计算相似度矩阵,并基于新的相似度矩阵计算样本的K近邻信息,然后基于样本的K近邻信息重新定义局部密度的度量方法.经典数据集的实验结果表明,基于不相似性度量优化的密度峰值聚类算法优于DPC的优化算法FKNN-DPC和DPC-KNN,可以在密度不均匀以及维度较高的数据集上得到满意的结果;同时统一了局部密度的度量方式,避免了传统DPC算法中截断距离dc对聚类结果的影响.
Abstract:Clustering by fast search and find of density peaks (DPC) is an efficient algorithm for finding cluster centers quickly based on local-density and relative-distance. DPC uses the decision graph to find the density peaks as cluster centers. It does not need to specify the number of clusters in advance and clusters with arbitrary shapes can be obtained. However, the calculation of local-density and relative-distance depends on the similarity matrix which is based on distance metrics simply, thus, DPC is not satisfactory on complex datasets, especially when the datasets with uneven density and higher dimensions. In addition, the measurement of the local-density is not unified and different methods correspond to different datasets. Third, the measurement of dc only considers the global distribution of datasets, ignoring the local information of the data, so the change of dc will affect the results of clustering, especially on small scale datasets. Aiming at these shortcomings, this study proposes an optimized density peaks clustering algorithm based on dissimilarity measure (DDPC). DDPC introduces a mass-based dissimilarity measure to calculate the similarity matrix, and calculates the k-nearest neighbor information of the sample based on the new similarity matrix. Then local-density is redefined by the k-nearest neighbor information. Experimental results show that the optimized density peaks clustering algorithm based on dissimilarity measure is superior to the optimized FKNN-DPC and DPC-KNN clustering algorithms, and can be satisfied on datasets with uneven density and higher dimensions. As a result, the local-density measurement method is unified at the same time, which avoids the influence of dc on the clustering results in the traditional DPC algorithm.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5813
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于不相似性度量优化的密度峰值聚类算法
本站小编 Free考研考试/2022-01-02
相关话题/数据 计算 信息 优化 实验
数据驱动的移动应用用户接受度建模与预测
摘要:应用市场(appmarket)已经成为互联网环境下软件应用开发和交付的一种主流模式.相对于传统模式,应用市场模式下,软件的交付周期更短,用户的反馈更快,最终用户和开发者之间的联系更加紧密和直接.为应对激烈的竞争和动态演变的用户需求,移动应用开发者必须以快速迭代的方式不断更新应用,修复错误缺陷, ...中科院软件研究所 本站小编 Free考研考试 2022-01-02函数级数据依赖图及其在静态脆弱性分析中的应用
摘要:数据流分析是二进制程序分析的重要手段,但传统数据依赖图(DDG)构建的时间与空间复杂度较高,限制了可分析代码的规模.提出了函数级数据依赖图(FDDG)的概念,并设计了函数级数据依赖图的构建方法.在考虑函数参数及参数间相互依赖关系的基础上,将函数作为整体分析,忽略函数内部的具体实现,显著缩小了数 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02类属型数据核子空间聚类算法
摘要:现有的类属型数据子空间聚类方法大多基于特征间相互独立假设,未考虑属性间存在的线性或非线性相关性.提出一种类属型数据核子空间聚类方法.首先引入原作用于连续型数据的核函数将类属型数据投影到核空间,定义了核空间中特征加权的类属型数据相似性度量.其次,基于该度量推导了类属型数据核子空间聚类目标函数,并 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于采样的在线大图数据收集和更新
摘要:互联网中,以网页、社交媒体和知识库等为载体呈现的大量非结构化数据可表示为在线大图.在线大图数据的获取包括数据收集和更新,是大数据分析与知识工程的重要基础,但面临着数据量大、分布广、异构和变化快速等挑战.基于采样技术,提出并行、自适应的在线大图数据收集和更新方法.首先,将分支限界方法与半蒙特卡罗 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02分级可逆的关系数据水印方案
摘要:关系数据可逆水印技术是保护数据版权的方法之一.它克服了传统的关系数据数字水印技术的缺点,不仅可以声明版权,而且可以恢复原始数据.现有方法在恢复原始数据时不能控制数据恢复的程度,无法调节数据的可用性.提出了一种分级可逆的关系数据水印方案,定义了数据质量等级来反映水印嵌入对数据可用性的影响,设计了 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于硬件分支信息的ROP攻击检测方法
摘要:控制流完整性保护技术(controlflowintegrity,简称CFI)是防御面向返回编程攻击(return-orientedprogramming,简称ROP)的一种有效途径.针对现有CFI中存在的四大问题:性能开销大、依赖程序代码信息、容易遭受历史刷新攻击以及规避攻击,提出了基于硬件分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02申威26010众核处理器上一维FFT实现与优化
摘要:根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的StockhamFFT计算框架和Cooley-TukeyFFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于物理及数据驱动的流体动画研究
摘要:主要针对近年来流行的基于物理及数据驱动的各种流体动画模拟算法及其应用给出了一个全面的前沿性综述.首先,对传统的基于物理的流体模拟加速方法进行了综述和总结,同时给出了此类方法中各种算法的优劣性分析;其次,对现有的基于数据驱动的多种算法进行了综述和分析.特别地,将现有的数据驱动方法归结为3类,即数 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02并行帧缓存设备:基于多核CPU的Xorg并行显示优化
摘要:Xorg图形服务器软件在帧缓存设备上采用单线程绘制模式,难以发挥多核CPU的性能.针对多核CPU上的帧缓存设备,设计了带有互斥操作的任务队列,并按照屏幕划分的方法,实现了Xorg的矩形填充操作在帧缓存设备上基于私有任务队列的多线程并行化,并实现了主从线程负载均衡.x11perf测试结果表明,该 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向边缘计算的目标追踪应用部署策略研究
摘要:目标追踪算法虽已在诸多领域得到广泛应用,然而由于实时性和功耗问题,使得基于深度学习模型的算法难以在移动终端设备上部署应用.结合边缘计算技术,从应用部署优化的角度,对目标追踪算法在移动设备上的部署策略进行研究.通过对目标追踪应用特点、移动设备特性以及边缘云网络架构的分析,提出一种面向边缘计算的目 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02