删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于随机数三角阵映射的高维大数据二分聚类初始中心高效鲁棒生成算法

本站小编 Free考研考试/2022-01-03

李旻1, 2,,,
何婷婷1
1.华中师范大学国家数字化学习工程技术研究中心 武汉 430079
2.河南大学计算机与信息工程学院 开封 475001
基金项目:河南省科技攻关计划(162102210168)

详细信息
作者简介:李旻:男,1976年生,副教授,主要研究方向为数据挖掘、自然语言处理、教育信息技术等
何婷婷:女,1964年生,教授,主要研究方向为网络媒体监测、自然语言处理、教育信息技术等
通讯作者:李旻 limin_ha139@139.com
中图分类号:TP391; TP181

计量

文章访问数:414
HTML全文浏览量:179
PDF下载量:30
被引次数:0
出版历程

收稿日期:2020-01-13
修回日期:2020-07-28
网络出版日期:2020-08-21
刊出日期:2021-04-20

An Efficient and Robust Algorithm to Generate Initial Center of Bisecting K-means for High-dimensional Big Data Based on Random Integer Triangular Matrix Mappings

Min LI1, 2,,,
Tingting HE1
1. National Engineering Research Center for E-Learning (Central China Normal University), Wuhan 430079, China
2. Computer and Information Engineering College, Henan University, Kaifeng 475001, China
Funds:The Science and Technology Research Plan in Henan Province (162102210168)


摘要
摘要:Bisecting K-means算法通过使用一组初始中心对分割簇,得到多个二分聚类结果,然后从中选优以减轻局部最优收敛问题对算法性能的不良影响。然而,现有的随机采样初始中心对生成方法存在效率低、稳定性差、缺失值等不同问题,难以胜任大数据聚类场景。针对这些问题,该文首先创建出了初始中心对组合三角阵和初始中心对编号三角阵,然后通过建立两矩阵中元素及元素位置间的若干映射,从而实现了一种从随机整数集合中生成二分聚类初始中心对的线性复杂度算法。理论分析与实验结果均表明,该方法的时间效率及效率稳定性均明显优于常用的随机采样方法,特别适用于高维大数据聚类场景。
关键词:Bisecting K-means/
初始中心生成/
三角矩阵映射/
随机整数/
高维大数据聚类/
线性算法
Abstract:The algorithm of Bisecting K-means obtains multiple clustering results by using a set of initial center pairs to segment a cluster, and then selects the best from them to mitigate the adverse effect of the local optimal convergence on the performance of the algorithm. However, the current methods of random sampling to generate initial center pairs for Bisecting K-means have some problems, such as low efficiency, poor stability, missing values and so on, which are not competent for big data clustering. In order to solve these problems, firstly the lower triangular matrix composed by the pairs of initial centers and the lower triangular matrix composed by serial numbers of the pairs of initial centers are created. Then, by establishing several mappings between the elements and their positions in the two matrices, a linear complexity algorithm is proposed to generate initial center pairs from the set of random integers. Both theoretical analysis and experimental results show that the time efficiency and efficiency stability of this method are significantly better than the current methods of random sampling, so it is particularly suitable for these scenarios of high-dimensional big data clustering.
Key words:Bisecting K-means/
Initial center generation/
Triangular matrix mapping/
Random integer/
High-dimensional big data clustering/
Linear algorithm



PDF全文下载地址:

https://jeit.ac.cn/article/exportPdf?id=b3c130cb-3cb4-4be7-8a13-dbb0d20e1856
相关话题/数据 教育 华中师范大学 河南大学 计算机

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于Sentinel-1/2遥感数据的冬小麦覆盖地表土壤水分协同反演
    赵建辉,张蓓,李宁,郭拯危,1.河南大学河南省大数据分析与处理重点实验室开封4750042.河南大学河南省智能技术与应用工程技术研究中心开封4750043.河南大学计算机与信息工程学院开封475004基金项目:国家自然科学基金(61871175),河南省科技攻关计划项目(182102210233,1 ...
    本站小编 Free考研考试 2022-01-03
  • 非平稳信道下的鲁棒数据链优化设计综述——带限环境下的混沌传输系统
    苗美媛1,宋丹1,徐位凯1,湛佳2,王琳1,,1.厦门大学信息学院厦门3610052.香港理工大学电子与信息工程学院香港999077基金项目:国家自然科学基金(61671395,61871337)详细信息作者简介:苗美媛:女,1991年生,博士生,研究方向为混沌调制,带限传输系统宋丹:女,1994年 ...
    本站小编 Free考研考试 2022-01-03
  • 基于信令数据的轨迹驻留点识别算法研究
    李万林1,王超1,2,许国良2,,,雒江涛2,张轩1,21.重庆邮电大学通信与信息工程学院 重庆 4000652.重庆邮电大学电子信息与网络工程研究院 重庆 400065基金项目:重庆市自然科学基金(cstc2018jcyjAX0587),新型感知技术、信息融合处理及其应用(A2017-10)详细信 ...
    本站小编 Free考研考试 2022-01-03
  • 基于粒子群优化多核支持向量数据描述的广播式自动相关监视异常数据检测模型
    王布宏,罗鹏,,李腾耀,田继伟,尚福特空军工程大学信息与导航学院西安710077基金项目:国家自然科学基金(61902426)详细信息作者简介:王布宏:男,1975年生,博士,教授,研究方向为人工智能安全、信息物理系统安全等罗鹏:男,1995年生,硕士生,研究方向为人工智能安全、ADS-B数据攻击检 ...
    本站小编 Free考研考试 2022-01-03
  • ADS-B攻击数据弹性恢复方法
    李腾耀1,王布宏1,,,尚福特1,田继伟1,曹堃锐1,21.空军工程大学信息与导航学院西安7100772.国防科技大学信息通信学院西安710106基金项目:国家自然科学基金(61902426)详细信息作者简介:李腾耀:男,1991年生,博士生,研究方向为ADS-B数据攻击检测及弹性恢复王布宏:男,1 ...
    本站小编 Free考研考试 2022-01-03
  • 面向物联网隐私数据分析的分布式弹性网络回归学习算法
    方维维1,,,刘梦然1,王云鹏1,李阳阳2,安竹林31.北京交通大学计算机与信息技术学院北京1000442.社会安全风险感知与防控大数据应用国家工程实验室北京1000413.中国科学院计算技术研究所北京100190基金项目:北京市自然科学基金(L191019),赛尔网络下一代互联网创新项目(NGII ...
    本站小编 Free考研考试 2022-01-03
  • 一种轻量级数据加密标准循环掩码实现方案
    王立辉2,闫守礼2,李清1,2,,1.复旦大学专用集成电路与系统国家重点实验室上海2012032.上海复旦微电子集团股份有限公司上海200433基金项目:十三五预先研究项目(3110105-09)详细信息作者简介:王立辉:男,1982年生,博士,高级工程师,研究方向为密码芯片安全设计闫守礼:男,19 ...
    本站小编 Free考研考试 2022-01-03
  • 基于流形学习能量数据预处理的模板攻击优化方法
    袁庆军1,2,王安3,王永娟1,2,,,王涛1,21.战略支援部队信息工程大学郑州4500012.河南省网络密码技术重点实验室郑州4500013.北京理工大学计算机学院北京100081基金项目:国家自然科学基金(61872040),河南省网络密码技术重点实验室开放基金(LNCT2019-S02),“ ...
    本站小编 Free考研考试 2022-01-03
  • 一种改进的区间型不确定数据模糊聚类方法
    肖满生,,张龙信,张晓丽,胡永祥湖南工业大学计算机学院株洲412007基金项目:国家自然科学基金(61702178),湖南省自然科学基金(2018JJ4068),湖南省教育厅科研项目(18C0499)详细信息作者简介:肖满生:男,1968年生,教授,主要研究方向为智能计算和智能信息处理张龙信:男,1 ...
    本站小编 Free考研考试 2022-01-03
  • DNA数据存储
    毛秀海,李凡,左小磊,1.上海交通大学医学院分子医学研究院上海2001272.上海交通大学医学院附属仁济医院上海200127基金项目:中国科学技术部国家重点研发计划(2018YFA0902600),国家自然科学基金(21804019,21804088),上海市浦江人才计划(19PJ1407300)详 ...
    本站小编 Free考研考试 2022-01-03