删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

Spark上的等值连接优化

中国人民大学 辅仁网/2017-07-05

文献详情
Spark上的等值连接优化
文献类型:会议
作者:卞昊穹[1]陈跃国[2]杜小勇[3]高彦杰[4]
机构:数据工程与知识工程教育部重点实验室 中国人民大学;中国人民大学信息学院,北京 100872

年:2014
会议名称:华东师范大学“数据科学与工程”论坛内存计算数据管理主题报告会论文集华东师范大学
页码范围:263-270,280
会议地点:上海
所属部门:信息学院;数据工程与知识工程教育部重点实验室
语言:中文
关键词:Spark SQL 大数据分析 等值连接 内存计算
摘要:等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键。本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法。代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍。
作者其他论文



Spark上的等值连接优化.卞昊穹;陈跃国;杜小勇,等.华东师范大学学报(自然科学版).2014,263-270,280.
一种电子文件管理系统的自动化测试方法.朝乐门;杜小勇;薛四新.2014.
一种能力属性增强的Web服务信任评估模型.李海华;杜小勇;田萱.计算机学报.2008,31(8),1471-1477.
基于划分的集合相似连接.荣垂田;徐天任;杜小勇.计算机研究与发展.2012,49(10),2066-2076.
自适应双向菌群优化算法.胡桂武;陈建超;杜小勇.计算机应用研究.2012,29(10),3645-3647,3668.

相关话题/数据 工程 优化 华东师范大学 信息学院