分布式数据流关系查询技术研究
外文标题:Relational Query Techniques for Distributed Data Stream:A Survey
文献类型:期刊
作者:王春凯[1]
机构:[1] 中国人民大学信息学院, 北京 100872, 中国
[2] 中国人民大学信息学院, 北京 100872, 中国
年:2016
期刊名称:计算机学报
卷:39
期:1
页码范围:80-96
增刊:增刊
收录情况:EI(20160501885364)
所属部门:信息学院
语言:中文
ISSN:0254-4164
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjxb201601006.aspx
DOI:10.11897/SP.J.1016.2016.00080
人气指数:5
浏览次数:5
基金:国家自然科学基金; 国家“八六三”高技术研究发展计划项目基金; 高等学校博士学科点专项科研基金; 中国人民大学科学研究基金(11XNL010)资助.
关键词:大数据;数据流;流处理系统;流查询系统;关系查询技术
摘要:随着在线分析连续数据流的需求日益增多,用于实时处理海量、易变数据的数据流管理系统由此产生。大数据时代下,随着开放式处理平台的发展,为处理大规模且多样化的数据流,出现了若干分布式流处理系统,如 S4、Storm、Spark Streaming 等。然而,为提升处理系统的易用性和处理能力,需要在其之上构建具有抽象查询语言的关系查询系统,以构筑完整的分布式数据流管理系统。如何设计并实现高效易用的关系查询系统是一个亟待解决的问题。文中首先概述了分布式数据流查询处理的典型应用、数据特征和实现目标。进而,提出了分布式数据流关系查询系统的基础架构,并基于此架构深入分析了用户自定义函数查询、查询优化、驱动方式、编译技术、算子管理、调度管理和并行管理等关键技术。然后,对比分析了 SPL、StreamingSQL、Squall 和 DBToaster 这4种具有代表性的查询系统实例。最后,指明了该技术在优化技术、执行策略、实时精准查询和复杂查询分析等方面所面临的挑战和今后的研究工作。
作者其他论文
差分隐私保护下一种精确挖掘top-k频繁模式方法.张啸剑;王淼;孟小峰.计算机研究与发展.2014,51(1),104-114.
大规模图数据可达性索引技术:现状与展望.富丽贞;孟小峰.计算机研究与发展.2015,52(1),116-129.
海量高维向量的并行Top-k连接查询.马友忠;慈祥;孟小峰.计算机学报.2015,38(1),86-98.
基于小数据的在线用户兴趣长程演化研究.李勇;孟小峰;刘继,等.计算机研究与发展.2015,779-788.
云数据管理索引技术研究.马友忠;孟小峰.软件学报.2015,26(1),145-166.