删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于代表点评分策略的快速自适应聚类算法

本站小编 Free考研考试/2022-01-01

张远鹏1,2,邓赵红1,钟富礼3,杭文龙1,王士同1,3
1(江南大学数字媒体学院 江苏无锡 214122);2(南通大学医学信息学系 江苏南通 226019);3(香港理工大学计算学系 香港 999077) (155297131@qq.com)
出版日期: 2018-01-01


基金资助:国家自然科学基金项目(81701793,61170122,61272210,61572236);江苏省自然科学基金项目(BK20114172);江苏省自然科学基金****基金项目(BK20140001)

Fast Self-Adaptive Clustering Algorithm Based on Exemplar Score Strategy

Zhang Yuanpeng1,2, Deng Zhaohong1, Chung Fu-lai3, Hang Wenlong1, Wang Shitong1,3
1(School of Digital Media, Jiangnan University, Wuxi, Jiangsu 214122);2(Department of Medical Informatics, Nantong University, Nantong, Jiangsu 226019);3(Department of Computing, Hong Kong Polytechnic University, Hong Kong 999077)
Online: 2018-01-01







摘要/Abstract


摘要: 在基于代表点的聚类算法中,为了解决算法自适应性和聚类速度问题,在快速压缩集密度估计的基础上,提出了一种基于代表点评分策略的快速自适应聚类算法.该算法的提出基于3个非常重要的假设:1)每个簇有一个代表点,且代表点来自簇内高密度样本;2)代表点或在压缩集中,或在压缩集附近且与压缩集中样本具有高度相似性;3)各簇中样本围绕代表点并沿着压缩集扩散.基于第1个和第2个假设,提出用代表点分值来评估样本成为代表点的可能性,并分析了其合理性.基于第3个假设和代表点分值,构建了一种快速的自适应聚类算法,该算法将所有样本按照其代表点分值从大到小排序,形成代表点候选集;然后从代表点候选集中逐个选择代表点,利用其邻域不断传递标签至整个压缩集;最后采用同样的方法将压缩集中样本的标签扩散至整个数据集,在此过程中引入抽样,提高标签传播速度.在人工数据集和真实数据集上的实验表明:所提出的算法能够处理任意形状的数据集和大规模数据集,且不需要指定类别数.






[1]郑文萍,车晨浩,钱宇华,王杰. 一种基于标签传播的两阶段社区发现算法[J]. 计算机研究与发展, 2018, 55(9): 1959-1971.
[2]张啸剑,金凯忠,孟小峰. 基于自适应网格的隐私空间分割方法[J]. 计算机研究与发展, 2018, 55(6): 1143-1156.
[3]傅广垣,余国先,王峻,郭茂祖. 基于正负样例的蛋白质功能预测[J]. 计算机研究与发展, 2016, 53(8): 1753-1765.
[4]熊冰妍,王国胤,邓维斌. 基于样本权重的不平衡数据欠抽样方法[J]. 计算机研究与发展, 2016, 53(11): 2613-2622.
[5]赵传君,王素格,李德玉,李欣. 基于分组提升集成的跨领域文本情感分类[J]. 计算机研究与发展, 2015, 52(3): 629-638.
[6]杨超,张俊伟,董学文,马建峰. 云存储加密数据去重删除所有权证明方法[J]. 计算机研究与发展, 2015, 52(1): 248-258.
[7]应文豪, 许 敏, 王士同, 邓赵红,. 在大规模数据集上进行快速自适应同步聚类[J]. 计算机研究与发展, 2014, 51(4): 707-720.
[8]李贵林 杨禹琪 高 星 廖明宏. 企业搜索引擎个性化表示与结果排序算法研究[J]. 计算机研究与发展, 2014, 51(1): 206-214.
[9]谭文堂 王桢文 殷风景 葛 斌 肖卫东. 一种面向多文本集的部分比较性LDA模型[J]. 计算机研究与发展, 2013, 50(9): 1943-1953.
[10]王俊文 刘光杰 戴跃伟 张 湛 王执铨. 基于非抽样Contourlet变换的图像模糊取证[J]. , 2009, 46(9): 1549-1555.
[11]王双成, 冷翠平, 曹 锋,. 小数据集贝叶斯网络多父节点参数的修复[J]. , 2009, 46(5): 787-793.
[12]肖 达, 舒继武, 陈 康, 郑纬民,. 一个网络归档存储中实用的数据持有性检查方案[J]. , 2009, 46(10): 1660-1668.
[13]陈永然 窦文华 钱 悦 齐星云. 基于系统抽样的并行程序性能特征分析方法及其实现[J]. , 2007, 44(10): 1694-1701.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3612
相关话题/数据 计算机 网络 江苏 空间