摘要:随着越来越多的应用程序产生数据流,数据流聚类分析的研究受到了广泛关注.基于网格的聚类通过将数据流映射到网格结构中形成数据概要,进而对概要进行聚类.这种方法通常具有较高的效率,但是每个网格独立处理,没有考虑网格之间的相互影响,因此聚类质量有待提高.在聚类过程中不再独立处理网格,而是考虑了网格之间的耦合关系,提出了一种基于网格耦合的数据流聚类算法.网格的耦合更加准确地表达了数据之间的相关性,从而提高了聚类的质量.在合成和真实数据流上的实验结果表明,所提算法具有较高的聚类质量和效率.
Abstract:As more and more applications generate data streams, the research on data stream clustering analysis has received extensive attention. Grid-based clustering maps data streams into grid structures to form data summaries, and then clusters data summaries. This method usually has high efficiency, but each grid is processed independently, and the interaction between the grids is not considered, so the clustering quality needs to be improved. In this study, the coupling relationship between grids is considered rather than processed independently in the clustering process, and an algorithm for clustering data stream based on grid coupling is proposed. The proposed approach improves the quality of clusters as the coupling of the grid more accurately captures the correlation amongst the data. Experimental evaluations on synthetic and real data streams illustrate the superiority of the proposed approach compared with the state-of-the-arts approaches.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5693
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于网格耦合的数据流聚类
本站小编 Free考研考试/2022-01-02
相关话题/质量 数据 实验 结构 网格
分布式异构数据库数据同步工具
摘要:一般而言,读写分离技术可以解决当前大数据环境下的读写速度失配的部分问题,但是现有的读写分离技术主要是针对同构数据库的解决方案.由于存储结构的不一致,由行式存储数据库和列式存储数据库构成的异构分布式数据库系统相较于同构分布式数据库系统在数据同步的过程中就会面临格式转换、同步速度不匹配等诸多难题. ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一个支持错误定位的批处理数据拥有性证明方案
摘要:数据拥有性证明技术是当前云存储安全领域中的一大重要研究内容,目的是不必下载所有文件,就能安全而高效地远程校验存储在云服务器中的数据是否完整.目前已陆续提出了许多批处理数据拥有性证明方案,但大多数方案都没有考虑用户数据出错后的错误定位问题,仅有的几个批处理校验方案也只能单独定位错误数据所在服务器 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02数据模型及其发展历程
摘要:数据库是数据管理的技术,是计算机学科的重要分支.经过近半个世纪的发展,数据库技术形成了坚实的理论基础、成熟的商业产品和广泛的应用领域.数据模型描述了数据库中数据的存储方式和操作方式.从数据组织形式,可以将数据模型分为结构化模型、半结构化模型、OLAP分析模型和大数据模型.20世纪60年代中后期 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02大数据管理系统的历史、现状与未来
摘要:大数据管理技术正在经历以软件为中心到以数据为中心的计算平台的变迁,传统的关系型数据库管理系统无法满足现在以数据为中心的大数据管理的需求,设计新型大数据管理系统迫在眉睫.首先回顾了数据管理技术的发展历史;之后,从大数据管理的存储、数据模型、计算模式、查询引擎等方面分析了大数据管理系统的现状,指出 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02新型数据管理系统研究进展与趋势
摘要:随着各类新型计算技术和新兴应用领域的浮现,传统数据库技术面临新的挑战,正在从适用常规应用的单一处理方法逐步转为面向各类特殊应用的多种数据处理方式.分析并展望了新型数据管理系统的研究进展和趋势,涵盖分布式数据库、图数据库、流数据库、时空数据库和众包数据库等多个领域.具体而言:分布式数据管理技术是 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种保序加密域数据库认证水印算法
摘要:加密域水印技术适用于云环境下的隐私保护(加密)和数据安全认证(加水印).通过结合保序加密、离散余弦变换、密码哈希和数字水印技术,提出了加密域数据库认证水印算法.首先对数据进行保序加密,以达到对敏感数据内容的隐私保护;对加密后的数据进行分组和离散余弦变换处理,然后将交流系数的哈希(Hashing ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据集分割的云工作流模型库并行检索方法
摘要:在由多个行业云服务平台组成的集成服务平台中,随着行业云服务平台加盟数及各平台下租户数量的不断增多,其底层的云工作流模型库的规模也必将不断增大.当云工作流模型库的规模超大时,需要一种效率更高的并行检索方法去满足云工作流模型库高效检索的需求.鉴于此,采用均匀划分法或自动聚类法对大规模云工作流模型库 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于SOM神经网络的服务质量预测
摘要:服务质量预测在服务计算领域中是一个热点研究问题.在历史QoS数据稀疏的情况下,设计一个满足用户个性化需求的服务质量预测方法成为一项挑战.为了解决这一挑战问题,提出一种基于SOM神经网络的服务质量预测方法SOMQP.首先,基于历史QoS数据,应用SOM神经网络算法分别对用户和服务进行聚类,得到用 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02数据驱动的双层次软件过程挖掘方法
摘要:为了解决软件过程数据因活动信息及案例属性的缺失而无法应用传统过程挖掘方法的问题,以软件过程数据为研究对象,提出了一种双层次的软件过程挖掘方法.在活动层,提出加权结构连接向量模型对过程日志进行向量化,通过平均活动熵来确定过程日志模糊聚类的结果,将聚类结果作为活动信息支持后续挖掘工作的开展;在过程 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02良结构下推系统的可覆盖性问题的下界
摘要:良结构下推系统是下推系统和良结构迁移系统的结合,该系统允许状态和栈字符是向量的形式,因而它们是无限的.状态迁移的同时允许栈进行入栈出栈的操作.它"非常接近不可判定的边缘".利用重置0操作,提出了一种模型可覆盖性问题复杂度下界的一般性证明方法,并且证明了状态是三维向量的子集和一般性的良结构下推系 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02