Spark上的等值连接优化
外文标题:Equi-join optimization on spark
文献类型:期刊
作者:卞昊穹[1]
机构:数据工程与知识工程教育部重点实验室(中国人民大学);中国人民大学信息学院,北京 100872
年:2014
期刊名称:华东师范大学学报(自然科学版)
期:5
页码范围:263-270,280
增刊:增刊
收录情况:CSCD(CSCD:5251106)
所属部门:信息学院;数据工程与知识工程教育部重点实验室
语言:中文
ISSN:1000-5641
链接地址:http://d.g.wanfangdata.com.cn/Periodical_hdsfdxxb201405023.aspx
DOI:10.3969/j.issn.1000-5641.2014.05.023
人气指数:37
浏览次数:37
基金:中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)
关键词:Spark;SQL;大数据分析;等值连接;内存计算
摘要:等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.
作者其他论文
一种电子文件管理系统的自动化测试方法.朝乐门;杜小勇;薛四新.2014.
一种能力属性增强的Web服务信任评估模型.李海华;杜小勇;田萱.计算机学报.2008,31(8),1471-1477.
基于划分的集合相似连接.荣垂田;徐天任;杜小勇.计算机研究与发展.2012,49(10),2066-2076.
自适应双向菌群优化算法.胡桂武;陈建超;杜小勇.计算机应用研究.2012,29(10),3645-3647,3668.
本体学习研究综述.杜小勇;李曼;王珊.软件学报.2006,17(9),1837-1847.