删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

类属型数据核子空间聚类算法

本站小编 Free考研考试/2022-01-02

摘要:现有的类属型数据子空间聚类方法大多基于特征间相互独立假设,未考虑属性间存在的线性或非线性相关性.提出一种类属型数据核子空间聚类方法.首先引入原作用于连续型数据的核函数将类属型数据投影到核空间,定义了核空间中特征加权的类属型数据相似性度量.其次,基于该度量推导了类属型数据核子空间聚类目标函数,并提出一种高效求解该目标函数的优化方法.最后,定义了一种类属型数据核子空间聚类算法.该算法不仅在非线性空间中考虑了属性间的关系,而且在聚类过程中赋予每个属性衡量其与簇类相关程度的特征权重,实现了类属型属性的嵌入式特征选择.还定义了一个聚类有效性指标,以评价类属型数据聚类结果的质量.在合成数据和实际数据集上的实验结果表明,与现有子空间聚类算法相比,核子空间聚类算法可以发掘类属型属性间的非线性关系,并有效提高了聚类结果的质量.



Abstract:Currently, the mainstream subspace clustering methods for categorical data are dependent on linear similarity measure and the relationship between attributes is overlooked. In this study, an approach is proposed for clustering categorical data with a novel kernel soft feature-selection scheme. First, categorical data is projected into the high-dimensional kernel space by introducing the kernel function and the similarity measure of categorical data in kernel subspace is given. Based on the measure, the kernel subspace clustering objective function is derived and an optimization method is proposed to solve the objective function. At last, kernel subspace clustering algorithm for categorical data is proposed, the algorithm considers the relationship between the attributes and each attribute assigned with weights measuring its degree of relevance to the clusters, enabling automatic feature selection during the clustering process. A cluster validity index is also defined to evaluate the categorical clusters. Experimental results carried out on some synthetic datasets and real-world datasets demonstrate that the proposed method effectively excavates the nonlinear relationship among attributes and improves the performance and efficiency of clustering.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5819
相关话题/数据 空间 质量 优化 指标

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于采样的在线大图数据收集和更新
    摘要:互联网中,以网页、社交媒体和知识库等为载体呈现的大量非结构化数据可表示为在线大图.在线大图数据的获取包括数据收集和更新,是大数据分析与知识工程的重要基础,但面临着数据量大、分布广、异构和变化快速等挑战.基于采样技术,提出并行、自适应的在线大图数据收集和更新方法.首先,将分支限界方法与半蒙特卡罗 ...
    本站小编 Free考研考试 2022-01-02
  • 基于训练空间重构的多模块TSK模糊系统
    摘要:利用重构训练样本空间的手段,提出一种多训练模块Takagi-Sugeno-Kang(TSK)模糊分类器H-TSK-FS.它具有良好的分类性能和较高的可解释性,可以解决现有层次模糊分类器中间层输出和模糊规则难以解释的难题.为了实现良好的分类性能,H-TSK-FS由多个优化零阶TSK模糊分类器组成 ...
    本站小编 Free考研考试 2022-01-02
  • 分级可逆的关系数据水印方案
    摘要:关系数据可逆水印技术是保护数据版权的方法之一.它克服了传统的关系数据数字水印技术的缺点,不仅可以声明版权,而且可以恢复原始数据.现有方法在恢复原始数据时不能控制数据恢复的程度,无法调节数据的可用性.提出了一种分级可逆的关系数据水印方案,定义了数据质量等级来反映水印嵌入对数据可用性的影响,设计了 ...
    本站小编 Free考研考试 2022-01-02
  • 申威26010众核处理器上一维FFT实现与优化
    摘要:根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的StockhamFFT计算框架和Cooley-TukeyFFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的 ...
    本站小编 Free考研考试 2022-01-02
  • 支持OR语义的高效受限Top-k空间关键字查询技术
    摘要:近些年,随着定位系统和移动设备的普及,空间文本对象的数量日益庞大,基于位置的地理信息服务在人们的生活中发挥着越来越重要的作用.对于空间关键字查询搜索的研究亦如火如荼.然而,现有许多研究工作只适用于AND语义,支持OR语义的搜索研究相对较少.当用户放松对关键字匹配的要求时,支持OR语义的搜索技术 ...
    本站小编 Free考研考试 2022-01-02
  • 基于物理及数据驱动的流体动画研究
    摘要:主要针对近年来流行的基于物理及数据驱动的各种流体动画模拟算法及其应用给出了一个全面的前沿性综述.首先,对传统的基于物理的流体模拟加速方法进行了综述和总结,同时给出了此类方法中各种算法的优劣性分析;其次,对现有的基于数据驱动的多种算法进行了综述和分析.特别地,将现有的数据驱动方法归结为3类,即数 ...
    本站小编 Free考研考试 2022-01-02
  • 并行帧缓存设备:基于多核CPU的Xorg并行显示优化
    摘要:Xorg图形服务器软件在帧缓存设备上采用单线程绘制模式,难以发挥多核CPU的性能.针对多核CPU上的帧缓存设备,设计了带有互斥操作的任务队列,并按照屏幕划分的方法,实现了Xorg的矩形填充操作在帧缓存设备上基于私有任务队列的多线程并行化,并实现了主从线程负载均衡.x11perf测试结果表明,该 ...
    本站小编 Free考研考试 2022-01-02
  • SDN数据平面软件一致性测试用例生成方法
    摘要:SDN(software-definednetwork)旨在解决架构复杂且分散的传统网络出现的问题,使网络具有更强的灵活性.P4编程语言的特征在于用户可以直接根据自己对处理数据包的需求定义P4程序,然后经过编译过程,生成适配文件将用户需求配置到网络设备.面向P4编程语言的SDN数据平面一致性测 ...
    本站小编 Free考研考试 2022-01-02
  • 基于视觉显著性的AMOLED显示器多区域功耗优化
    摘要:AMOLED显示器作为嵌入式设备的高功耗组件,其功耗由显示内容中所有像素点的像素值决定;同时,人类视觉系统通过视觉关注机制对显示内容的重要区域优先解读,对非重要区域关注较低.基于上述特性,提出基于视觉显著性的AMOLED显示器多区域功耗优化方法.方法的核心是:通过视觉显著性算法对显示内容的重要 ...
    本站小编 Free考研考试 2022-01-02
  • 面向多读/写头磁畴壁存储器的优化研究
    摘要:当前,大数据及人工智能技术向嵌入式系统发展,对嵌入式系统的存储访问能力提出了更高的要求.磁畴壁存储器凭借其高读写速度、高密度以及低功耗等优点,可以用于嵌入式系统,以满足数据密集型应用对访问速度、容量及能耗的需求.但是磁畴壁存储器在进行数据访问之前需要进行移动操作,这将极大影响其存储访问性能.而 ...
    本站小编 Free考研考试 2022-01-02