摘要:在信息爆炸时代,大数据处理已成为当前国内外热点研究方向之一.谱分析型算法因其特有的性能而获得了广泛的应用,然而受维数灾难影响,主流的谱分析法对高维数据的处理仍是一个极具挑战的问题.提出一种兼顾维数特征优选和图Laplacian约束的聚类模型,即联合拉普拉斯正则项和自适应特征学习(joint Laplacian regularization and adaptive feature learning,简称LRAFL)的数据聚类算法.基于自适应近邻进行图拉普拉斯学习,并将低维嵌入、特征选择和子空间聚类纳入同一框架,替换传统谱聚类算法先图Laplacian构建、后谱分析求解的两级操作.通过添加非负加和约束以及低秩约束,LRAFL能获得稀疏的特征权值向量并具有块对角结构的Laplacian矩阵.此外,提出一种有效的求解方法用于模型参数优化,并对算法的收敛性、复杂度以及平衡参数设定进行了理论分析.在合成数据和多个公开数据集上的实验结果表明,LRAFL在效果效率及实现便捷性等指标上均优于现有的其他数据聚类算法.
Abstract:The explosion of information has been evoking a leading wave of big data research during recent years. Despite many empirical successes of spectral clustering algorithms, it is still challenging to cluster the high dimensional data due to the curse of dimensionality. This study proposes a novel algorithm referred to as joint Laplacian regularization and adaptive feature learning (LRAFL), which adaptively learns the feature weights and fits the feature selection as well as clustering into a unified framework, rather than the two-phase strategy of typical approaches. With a new rank constraint imposed on the Laplacian matrix, the connected components in the resulted similarity matrix are exactly equal to the cluster number. An effective approach is also proposed to solve the formulated optimization problem. Comprehensive analyses, including convergence behavior, computational complexity, and together with parameter determination are also presented. Surprisingly sound experimental results can be achieved on synthetic data and benchmark datasets by the proposed algorithm when compared with the related state-of-the-art clustering approaches.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5606
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
联合Laplacian正则项和特征自适应的数据聚类算法
本站小编 Free考研考试/2022-01-02
相关话题/数据 空间 结构 信息 指标
使用共享变量分析和约束求解检测安卓应用数据竞争
摘要:安卓系统在移动端操作系统始终占据主导地位,在增强用户体验和提高程序性能的同时,其特有的事件驱动模型和多线程模型也造成了并发缺陷.并发程序中,线程调度的不确定性和难以再现性是并发缺陷检测困难的原因.现有技术主要在动态生成执行路径的基础上进行发生序(happens-before)分析,进而检测安卓 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于噪声数据与干净数据的深度置信网络
摘要:建立以受限玻尔兹曼机(restrictedBoltzmannmachine,简称RBM)为基石的深度网络模型,是深度学习研究的热点领域之一.Point-wiseGated受限玻尔兹曼机(point-wisegatedRBM,简称pgRBM)是一种RBM的变种算法.该算法能够在含噪声的数据中自适 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02分布式数据库下基于剪枝的并行合并连接策略
摘要:排序合并连接是数据库系统一种重要的连接实现方式,比哈希连接有更广泛的应用.分布式环境下,数据分片、分布存储,面对昂贵的网络代价,进行高效排序合并连接的挑战巨大.传统策略首先针对连接数据进行排序,然后基于排好序的数据执行合并连接.这两部分操作均基于原始数据进行操作,通常情况下,原始连接数据存在无 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于空间特征分区和前点约束的WKNN室内定位方法
摘要:高精度室内定位有着广阔的市场前景.针对传统的WKNN室内定位方法所面临的在处理面积较大目标区域时,位置估计结果跳动跨度较大、精度不高等问题,提出了一种基于空间特征分区和前点约束的WKNN室内定位方法.该方法通过将面积较大的目标区域按其空间特征划分为多个分区,解决了指纹数据库无法实现全域覆盖的问 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02引入序列信息的残基相互作用网络比对算法
摘要:残基相互作用网络比对,对于研究蛋白质结构与功能的关系具有重要意义.在基于网络拓扑信息进行网络比对的MAGNA算法基础上,将蛋白质的序列信息(即残基匹配度)引入到其优化函数中,确定拓扑信息和序列信息对比对的影响程度,提出适合于残基相互作用网络比对的SI-MAGNA算法.实验结果表明,SI-MAG ...中科院软件研究所 本站小编 Free考研考试 2022-01-02多用户眼动跟踪数据的可视化共享与协同交互
摘要:随着数字图像处理技术的发展,以及计算机支持的协同工作研究的深入,眼动跟踪开始应用于多用户协同交互.但是已有的眼动跟踪技术主要针对单个用户,多用户眼动跟踪计算架构不成熟、标定过程复杂,眼动跟踪数据的记录、传输以及可视化共享机制都有待深入研究.为此,建立了基于梯度优化的协同标定模型,简化多用户的眼 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向比特币交易网络的拓扑结构可视探索方法
摘要:分析比特币交易网络有助于人们理解交易者在比特币交易中的交易模式.比特币交易网络的匿名性和其巨大的规模使得用户很难在分析前对整个交易网络产生大致的认知.提出了一种基于拓扑结构推荐的比特币交易网络可视分析方法.核心思想是为每个节点生成一个向量化表达,在用户交互的基础上,所提算法即可检测一系列相似的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02区块链数据管理专题前言
摘要:近几十年来,数据管理技术取得了飞速发展并在很多重要领域广泛应用.传统的数据库管理系统(包括分布式数据库)往往由单一机构进行管理和维护,该机构对整个数据库具有最高权限.这种模式并不适用于由非完全互信的多个机构共同管理数据,在互联网应用环境中该问题尤为突出.区块链作为一种去中心化、不可篡改、可追溯 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于区块链的大数据访问控制机制
摘要:针对大数据资源来源广泛、动态性强且呈现出分布式管理的特点,当前主流集中式访问控制机制存在权限管理效率低、灵活性不足、扩展性差等不足.基于此,以ABAC模型为基础,提出一种基于区块链的大数据访问控制机制:首先,对区块链技术的基本原理进行描述,并对基于属性的访问控制模型进行形式化的定义;然后提出基 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于区块链的档案数据保护与共享方法
摘要:针对现有档案数据管理中普遍存在的数据中心化存储、安全性差和防篡改性弱等问题,提出一种基于区块链的档案数据保护与共享方法:通过智能合约和数字签名技术,实现了数字档案馆的身份认证和档案所有权的确定;通过智能合约和星际文件系统(IPFS)等技术,实现了数字档案的保护、验证、恢复与共享;通过公有链与联 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02