删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

分布式多数据流频繁伴随模式挖掘

本站小编 Free考研考试/2022-01-02

摘要:多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴随词组发现热点事件等应用都可以归结为多数据流频繁伴随模式发现问题.由于数据流规模巨大且到达速度快,基于单机的集中式挖掘算法受到硬件资源的限制难以及时发现海量数据流中出现的频繁伴随模式.为此,提出面向大规模数据流频繁伴随模式发现的分布式挖掘算法.该算法首先将每个数据流划分成若干个segment片段,然后构建适合部署在分布式计算平台上的多层挖掘模型,并利用多计算节点以并行方式对大规模数据流进行处理,从而实时发现频繁伴随模式.最后,在真实数据集上进行充分实验以验证算法性能.



Abstract:A frequent co-occurrence pattern across multiple data streams refers to a set of objects occurring in one data stream within a short time span and this set of objects appear in multiple data streams in the same fashion within another user-specified time span. Some real applications, such as discovering groups of cars that travel together using the city surveillance system, finding the people that are hanging out together based on their check-in data, and mining the hot topics by discovering groups of frequent co-occurrence keywords from social network data, can be abstracted as this problem. Due to data streams always own tremendous volumes and high arrival rates, the existing algorithms being designed for a centralized setting cannot handle mining frequent co-occurrence patterns from the large scale of streaming data with the limited computing resources. To address this problem, FCP-DM, a distributed algorithm to mine frequent co-occurrence patterns from a large number of data streams, is proposed. This algorithm first divides the data streams into segments, and then constructs a multilevel mining model in the distributed environment. This model utilizes multiple computing nodes for detecting massive volumes of data streams in a parallel pattern to discover frequent co-occurrence patterns in real-time. Finally, extensive experiments are conducted to fully evaluate the performance of the proposal.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5419
相关话题/数据 计算 网络 实验 车辆

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 社交网络下的不确定图隐私保护算法
    摘要:社交网络平台的快速普及使得社交网络中的个人隐私泄露问题愈发受到用户的关心,传统的数据隐私保护方法无法满足用户数量巨大、关系复杂的社交网络隐私保护需求.图修改技术是针对社交网络数据的隐私保护所提出的一系列隐私保护措施,其中不确定图是将确定图转化为概率图的一种隐私保护方法.主要研究了不确定图中边概 ...
    本站小编 Free考研考试 2022-01-02
  • IEEE 802.11 DCF机制下的异构网络业务分析模型
    摘要:在众多的IEEE802.11DCF机制分析模型中,集中分析了同质业务(例如数据包到达速率相同)网络的性能,仅有少量的文献聚焦于异构混合业务(饱和与非饱和工作模式同时存在)网络,而在目前的研究中,对网络的不饱和性及退避时隙冻结等问题归纳分析得并不准确.结合M/G/1排队模型,考虑了DCF机制的退 ...
    本站小编 Free考研考试 2022-01-02
  • 智能数据管理与分析技术专刊前言
    摘要:数据管理与智能计算的深度融合已经成为大数据时代顺利前行的迫切需求.智能数据管理旨在“为数据增添智能”,是数据科学与技术的重要基石,更是大数据产业蓬勃发展的关键支撑.一方面,将新一代人工智能方法应用于先进数据管理技术,尝试探索和突破智能数据管理与分析的理论体系、技术方法及系统平台,已经成为数据管 ...
    本站小编 Free考研考试 2022-01-02
  • 大规模RDF图数据上高效率分布式查询处理
    摘要:知识图谱是智能数据的主要表现形式,随着知识图谱领域的不断发展,大量的智能图数据以资源描述框架(resourcedescriptionframework,简称RDF)形式发布出来.RDF图上的SPARQL查询语义对应于图同态,是一个NP-完全问题.因此,如何使用分布式方法在大规模RDF图上有效回 ...
    本站小编 Free考研考试 2022-01-02
  • 基于角色发现的动态信息网络结构演化分析
    摘要:动态信息网络是当前复杂网络领域中极具挑战的新问题之一,对其动态的演化过程进行研究,有助于分析网络结构、理解网络特性、发现网络中潜在的信息及演化规律,具有重要的理论意义与应用价值.基于网络结构本身量化表示的复杂性以及网络演化时序、复杂、多变的挑战,使用角色来量化动态网络的结构,并对模型进行分析, ...
    本站小编 Free考研考试 2022-01-02
  • 基于时效规则的数据修复方法
    摘要:数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序 ...
    本站小编 Free考研考试 2022-01-02
  • 基于事件的社交网络上的双边偏好稳态规划
    摘要:在基于事件的社交网络中,一个经典的问题是为用户规划其感兴趣的事件.现有的工作仅仅考虑用户的喜好,仅从用户的角度出发,为其安排尽可能感兴趣的事件来参加.然而,从事件主办者的角度出发,他们亦希望为事件安排的用户尽可能有更大的影响力,用户的可靠性尽可能高,以保障事件能够顺利开展,并取得预期的效果.本 ...
    本站小编 Free考研考试 2022-01-02
  • 劣质数据上代价敏感决策树的建立
    摘要:代价敏感决策树是以最小化误分类代价和测试代价为目标的一种决策树.目前,随着数据量急剧增长,劣质数据的出现也愈发频繁.在建立代价敏感决策树时,训练数据集中的劣质数据会对分裂属性的选择和决策树结点的划分造成一定的影响.因此在进行分类任务前,需要提前对数据进行劣质数据清洗.然而在实际应用中,由于数据 ...
    本站小编 Free考研考试 2022-01-02
  • 基于网格耦合的数据流聚类
    摘要:随着越来越多的应用程序产生数据流,数据流聚类分析的研究受到了广泛关注.基于网格的聚类通过将数据流映射到网格结构中形成数据概要,进而对概要进行聚类.这种方法通常具有较高的效率,但是每个网格独立处理,没有考虑网格之间的相互影响,因此聚类质量有待提高.在聚类过程中不再独立处理网格,而是考虑了网格之间 ...
    本站小编 Free考研考试 2022-01-02
  • 差分隐私的数据流关键模式挖掘方法
    摘要:频繁模式挖掘是数据挖掘的重要任务之一,在数据流上挖掘简洁的关键模式比频繁模式更有优势,因为关键模式既可以避免频繁模式里包含的冗余信息以减少内存存储空间,又可以高效无损地提取频繁模式.但是由于相邻时间戳的统计信息可以作为背景知识增强攻击者的推理能力,所以从包含个人信息的数据流中挖掘关键模式比静态 ...
    本站小编 Free考研考试 2022-01-02