一种采用新型聚类方法的最佳类簇数确定算法

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-01-02

摘要:聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析，数据集的内在结构与特征可以被很好地发掘出来.然而，无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚类等问题.针对这些问题，首先将K-means算法和层次聚类算法的聚类思想相结合，提出了一种混合聚类算法K-means-AHC；其次，采用拐点检测的思想，提出了一个基于平均综合度的新聚类有效性指标DAS（平均综合度之差，difference of average synthesis degree），以此来评估K-means-AHC算法聚类结果的质量；最后，将K-means-AHC算法和DAS指标相结合，设计了一种寻找数据集最佳类簇数和最优划分的有效方法.实验将K-means-AHC算法用于测试多种结构的数据集，结果表明：该算法在不过多增加时间开销的同时，提高了聚类分析的准确性.与此同时，新的DAS指标在聚类结果的评价上要优于当前已有的常用聚类有效性指标.

Abstract:Clustering analysis is a hot research topic in the fields of statistics, pattern recognition, and machine learning. Through effective clustering analysis, the intrinsic structure and characteristics of datasets can be well discovered. However, due to the unsupervised learning feature, the existing clustering methods are still facing the problems of unstable and inaccurate on processing different types of datasets. In order to solve these problems, a hybrid clustering algorithm, K-means-AHC, is firstly proposed based on the combination of the K-means algorithm and the hierarchical clustering algorithm. Then, based on the inflexion point detection, a new clustering validity index, DAS (difference of average synthesis degree), is proposed to evaluate the results of the K-means-AHC clustering algorithm. Finally, through the combination of the K-means-AHC algorithm and the DAS index, an effective method of finding the optimal clustering numbers and optimal partitions of datasets is designed. The K-means-AHC algorithm is used to test many kinds of datasets. The experimental results have shown that the proposed algorithm improves the accuracy of clustering analysis while without too much time overhead. At the same time, the new DAS index is superior to the current commonly used clustering validity indexes in the evaluation of clustering results.

PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/6016

相关话题/数据 指标 结构 综合 测试

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
基于细粒度数据的智能手机续航时间预测模型
摘要:如今，智能手机已成为人们日常生活中重要的组成部分.然而，在智能手机软硬件能力高速发展的同时，智能手机的电池能力却未能取得突破性的进展.这导致电池的续航能力经常会成为用户使用智能手机时的体验瓶颈.为了提高用户使用体验的优良感受，一种可行的方法是为用户提供电池续航时间预测.准确的电池续航时间预测能 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
构建新型高性能与高可用的键值数据库系统
摘要:近年来，写密集型应用程序越来越普遍.如何有效地处理这种工作负载，是数据库系统领域深入研究的方向之一.写操作开销主要由以下两个方面的因素构成：（1）硬件级别，即写操作引起的I/O，目前无法在短时间内消除这种开销；（2）软件开销，即修改内存数据拷贝以及构造日志记录造成的多次写操作.日志即数据（lo ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
医疗大数据隐私保护多关键词范围搜索方案
摘要:随着医疗信息系统的急速发展，基于医疗云的信息系统将大量电子健康记录（EHRs）存储在医疗云系统中，利用医疗云强大的存储能力和计算能力对EHRs数据进行安全与统一的管理.尽管传统加密机制可以保证医疗数据在半诚实云服务器中的机密性，但对加密后的EHRs数据执行安全、快速、有效的范围搜索，仍是一个有 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
面向关键字流图的相似程序间测试用例的重用
摘要:软件测试是软件开发中重要的一环，能有效地提高软件的可靠性和质量.而测试用例的重用可减少软件测试的工作量，提升测试的效率.提出一种面向关键字流图的相似程序间测试用例的重用方法，该方法将程序已经生成的测试数据重用到与之相似的程序中.可见，探究测试用例重用的前期工作是判定程序的相似性.对于程序相似性 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于日志挖掘的微服务测试集缩减技术
摘要:微服务系统每轮迭代过程中都需要进行回归测试，大量重复测试会造成资源浪费，可通过减少测试用例集的规模来降低成本，以提高测试效率.现有测试用例集缩减技术主要依赖系统规约和架构描述作为输入，对于具有服务自治、调用关系不确定等特点的微服务系统实用性受限.并且，现有测试用例集缩减技术很少考虑使用场景，测 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
碎片化家谱数据的融合技术
摘要:家谱数据是典型的碎片化数据，具有海量、多源、异构、自治的特点.通过数据融合技术将互联网中零散分布的家谱数据融合成一个全面、准确的家谱数据库，有利于针对家谱数据进行知识挖掘和推理，从而为用户提供姓氏起源、姓氏变迁和姓氏间关联等隐含信息.在大数据知识工程BigKE模型的基础上，提出了一个结合HAO ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
一种高效低能耗移动数据采集与无线充电策略
摘要:在无线可充电传感器网络（wirelessrechargeablesensornetwork，简称WRSN）中，所面临的一项重要挑战是如何在高效收集传感器节点数据的同时，降低网络整体能量消耗.大多数现有数据收集策略或是不能适应大规模的充电传感器网络，或是没有充分考虑到传感器节点能量补充的问题，这 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
国产复杂异构高性能数值软件的研制与测试专题前言
摘要:中国科学院首个C类战略性先导科技专项XDC01000000主要目标已经达到.在数值软件层面,该先导专项第1阶段的主要任务是在复杂异构先进计算系统上研制高水平的基准测试软件HPL(highperformanceLinpack)和HPCG(highperformanceconjugategradi ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
Storm平台下的线程重分配与数据迁移节能策略
摘要:作为流式大数据计算的主要平台之一，Storm在设计过程中由于缺乏节能的考虑，导致其存在高能耗与低效率的问题.传统的节能策略并未考虑Storm的性能约束，可能会对集群的实时性造成影响.针对这一问题，设计了资源约束模型、最优线程重分配模型以及数据迁移模型.进一步提出了Storm平台下的线程重分配与 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
高精度的大规模程序数据竞争检测方法
摘要:随着技术的不断发展，软件系统的非确定性（uncertainty）不断增强，数据竞争是并发系统这一类典型的非确定性软件系统中常见的缺陷.尽管数据竞争静态检测近年来取得了巨大进展，但其面临的重要问题仍然存在.先前的静态技术要么以分析精度为代价达到高扩展性，要么由于高精度分析而导致可扩展性问题.提出 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02