摘要:面向位置大数据聚类,提出了一种简单但高效的快速密度聚类算法CBSCAN,以快速发现位置大数据中任意形状的聚类簇模式和噪声.首先,定义了Cell网格概念,并提出了基于Cell的距离分析理论,利用该距离分析,无需距离计算,可快速确定高密度区域的核心点和密度相连关系;其次,给出了网格簇定义,将基于位置点的密度簇映射成基于网格的密度簇,利用排他网格与相邻网格的密度关系,可快速确定网格簇的包含网格;第三,利用基于Cell的距离分析理论和网格簇概念,实现了一个快速密度聚类算法,将DBSCAN基于数据点的密度扩展聚类转换成基于Cell的密度扩展聚类,极大地减少高密度区域的距离计算,利用位置数据的内在特性提高了聚类效率;最后,在基准测试数据上验证了所提算法的聚类效果,在位置大数据上的实验结果统计显示,与DBSCAN、PR-Tree索引和Grid索引优化的DBSCAN相比,CBSCAN分别平均提升了525倍、30倍和11倍效率.
Abstract:This paper proposes a simple but efficient density-based clustering, named CBSCAN, to fast discover cluster patterns with arbitrary shapes and noises from location big data effectively. Firstly, the notion of Cell is defined and a distance analysis principle based on Cell is proposed to quickly find core points in high density areas and density relationships with other points without distance computing. Secondly, a Cell-based cluster that maps point-based density cluster to grid-based density cluster is presented. By leveraging exclusion grids and relationships with their adjacent grids, all inclusion grids of Cell-based cluster can be rapidly determined. Furthermore, a fast density-based algorithm based on the distance analysis principle and Cell-base cluster is implemented to transform DBSCAN of point-based expansion to Cell-based expansion clustering. The proposed algorithm improves clustering efficiency significantly by using inherent property of location data to reduce huge number of distance calculations. Finally, comprehensive experiments on benchmark datasets demonstrate the clustering effectiveness of the proposed algorithm. Experimental results on massive-scale real and synthetic location datasets show that CBSCAN improves 525 fold, 30 fold and 11 fold of efficiency compared with DBSCAN, DBSCAN with PR-Tree and Grid index optimization respectively.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5289
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
面向位置大数据的快速密度聚类算法
本站小编 Free考研考试/2022-01-02
相关话题/数据 计算 统计 实验 优化
基于时隙传输的数据中心路由算法设计
摘要:基于软件定义网络(softwaredefinednetwork,简称SDN)的数据中心流量工程,能够通过对全局视图的网络管控,动态选择路由路径,规避拥塞发生的风险.但是在制定路由策略时,经常会对数据流进行迁移,尤其是针对大流的迁移容易造成数据流丢包以及接收端数据包乱序的问题.提出了基于时隙的流 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02同态加密技术及其在云计算隐私保护中的应用
摘要:云计算技术的快速发展使得云服务模式具备了广阔的应用空间,这种模式使用户具备了过往无法比拟的计算能力和存储空间等优势.在云服务模式下用户的隐私安全问题是其推广和应用中面临的首要问题,如何在计算数据的过程中,既保证数据的隐私性,又保证其可用性,是面临的一大难题,同态加密技术作为解决这一问题的关键手 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于离线密钥分发的加密数据重复删除方法
摘要:重复数据删除技术受到工业界和学术界的广泛关注.研究者致力于将云服务器中的冗余数据安全地删除,明文数据的重复删除方法较为简单.而用户为了保护隐私,会使用各自的密钥将数据加密后上传至云服务器,形成不同的加密数据.在保证安全性的前提下,加密数据的重复删除较难实现.目前已有的方案较多依赖于在线的可信第 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02公平理性委托计算协议
摘要:传统委托计算的验证过程计算和通信开销较高,且参与者要么诚实,要么邪恶;理性委托计算是引入理性参与者,通过效用函数来保障计算结果的可靠性.首先在委托计算中引入博弈论,给出了唯一稳定均衡解.其次,基于比特币和Micali-Rabin的随机向量表示技术,设计一种新的理性委托计算协议.针对协议的公平性 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向云数据的隐私度量研究进展
摘要:隐私保护技术是云计算环境中防止隐私信息泄露的重要保障,通过度量这种泄露风险可反映隐私保护技术的隐私保护强度,以便构建更好的隐私保护方案.因此,隐私度量对隐私保护具有重大意义.主要对现有面向云数据的隐私度量方法进行综述:首先,对隐私保护技术和隐私度量进行概述,给出攻击者背景知识的量化方法,提出云 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02自动分析递归数据结构的归纳性质
摘要:提出了一种对递归数据结构的归纳性质进行自动化分析的框架.工作分为3个主要部分.首先,它将递归数据结构的归纳性质分为两个主要类别,并提出对应的处理模式,从而帮助简化对于程序中的递归数据结构上的相关性质的分析.其次,提出了一种称为分割与拼接的技术来发现和描述递归数据结构是如何被程序修改的:递归数据 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02普适计算应用时空性质的运行时验证
摘要:运行时验证是提升普适计算应用可靠性的重要手段.这类应用的很多性质同时涉及时间关系和空间位置关系,这样的时空性质给运行时的验证带来了特有挑战:一方面,传统的时态逻辑难以描述空间性质;另一方面,适合描述空间性质的AmbientLogic在真值不确定等情况下不能很好地支持有限轨迹中时间性质的描述.为 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于类型理论的领域数据建模和验证及案例
摘要:数据作为软件系统的主要处理对象,其规范性有助于软件系统的设计开发和软件系统之间的数据交换.面向行业数据规范及其验证,提出了一种基于类型理论的领域数据建模语言(DDML)和领域建模方法(DDMM).DDML语言通过定义类型和项的语法和语义,描述领域数据类型和对象的结构,通过定义类型规则及其类型检 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02MapReduce与Spark用于大数据分析之比较
摘要:评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量以及文件数目方面的性能要优于Spark;而在 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02医学影像计算机辅助检测与诊断系统综述
摘要:计算机辅助检测/诊断(computer-aideddetection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02