Spark环境下基于数据倾斜模型的Shuffle分区优化方案

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

Spark环境下基于数据倾斜模型的Shuffle分区优化方案

阎逸飞, 王智立, 邱雪松, 王嘉潞

北京邮电大学网络与交换技术国家重点实验室, 北京 100876

收稿日期:2019-05-28发布日期:2020-04-28
通讯作者:王智立(1975-),男,副教授,E-mail:zlwang@bupt.edu.cn.E-mail:zlwang@bupt.edu.cn
作者简介:阎逸飞(1993-),男,硕士生.

A Shuffle Partition Optimization Scheme Based on Data Skew Model in Spark

YAN Yi-fei, WANG Zhi-li, QIU Xue-song, WANG Jia-lu

State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100876, China

Received:2019-05-28Published:2020-04-28

摘要/Abstract

摘要： 针对Spark分布式平台在shuffle阶段中导致数据量分配不均衡的问题，首先分析了Spark平台中数据倾斜的原因，建立了一个可以统一量化shuffle后key-value数据倾斜程度的倾斜模型；基于倾斜模型提出了一个可以解决Spark平台中多种数据倾斜问题的shuffle分区方案.该分区方案首先对Map阶段的输出数据进行采样，预测出全局中间数据的大小，再根据基于哈希的最佳适应算法对采样数据进行预分区，得到一张预分区表，最后根据预分区表对全部的中间数据完成分区.在key和value这2种不同倾斜情况下的实验结果表明，该shuffle分区方案具有普适性和高效性，可以有效处理key和value倾斜的情况.
中图分类号:
TP399

引用本文

阎逸飞, 王智立, 邱雪松, 王嘉潞. Spark环境下基于数据倾斜模型的Shuffle分区优化方案[J]. 北京邮电大学学报, 2020, 43(2): 116-121.
YAN Yi-fei, WANG Zhi-li, QIU Xue-song, WANG Jia-lu. A Shuffle Partition Optimization Scheme Based on Data Skew Model in Spark[J]. Journal of Beijing University of Posts and Telecommunications, 2020, 43(2): 116-121.

PDF全文下载地址:

https://journal.bupt.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4572

相关话题/数据 方案 环境 优化 北京邮电大学

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
基于强化学习的微电网能源调度策略及优化
基于强化学习的微电网能源调度策略及优化刘金华1,柯钟鸣1,2,周文辉11.电子科技大学中山学院,中山528402;2.电子科技大学自动化工程学院,成都611731收稿日期:2019-03-18出版日期:2020-02-28发布日期:2020-03-27作者简介:刘金华(1982-),女,副教授,E- ...
北京邮电大学科研学术本站小编 Free考研考试 2021-12-25
全双工系统中基于神经网络的自干扰消除方案
全双工系统中基于神经网络的自干扰消除方案雷维嘉,李环重庆邮电大学通信与信息工程学院,重庆400065收稿日期:2019-04-24出版日期:2020-02-28发布日期:2020-03-27通讯作者:李环(1992-),女,硕士生,E-mail:771931660@qq.com.E-mail:771 ...
北京邮电大学科研学术本站小编 Free考研考试 2021-12-25
一种车载网隐私保护方案的分析与改进
一种车载网隐私保护方案的分析与改进李涛1,2,张静3,杨皓21.九江学院认知科学与跨学科研究中心,九江332005;2.九江学院理学院,九江332005;3.九江学院信息科学与技术学院,九江332005收稿日期:2019-01-24出版日期:2020-02-28发布日期:2020-03-27作者简介 ...
北京邮电大学科研学术本站小编 Free考研考试 2021-12-25
基于相似轨迹替代查询的位置隐私保护方案研究
基于相似轨迹替代查询的位置隐私保护方案研究宋成,张亚东,彭维平,王磊,刘志中河南理工大学计算机科学与技术学院,焦作454003收稿日期:2019-02-28出版日期:2020-02-28发布日期:2020-03-27通讯作者:张亚东(1993-),男,硕士生,E-mail:18339161026@1 ...
北京邮电大学科研学术本站小编 Free考研考试 2021-12-25
大数据环境下基于深度学习的行人再识别
大数据环境下基于深度学习的行人再识别李鹏1,王德勇1,师文喜1,姜志国21.中国电子科技集团公司电子科学研究院新疆联海创智信息科技有限公司,北京100041;2.北京航空航天大学宇航学院,北京100191收稿日期:2019-07-01出版日期:2019-12-28发布日期:2019-11-15通讯作 ...
北京邮电大学科研学术本站小编 Free考研考试 2021-12-25
基于深度学习的融合多源异构数据的推荐模型
基于深度学习的融合多源异构数据的推荐模型冀振燕,宋晓军,皮怀雨,杨春北京交通大学软件学院,北京100044收稿日期:2019-07-30出版日期:2019-12-28发布日期:2019-11-15作者简介:冀振燕(1970-),女,副教授,硕士生导师,E-mail:jzhenyan@hotmail. ...
北京邮电大学科研学术本站小编 Free考研考试 2021-12-25
天牛须搜索的锚节点布设优化算法
天牛须搜索的锚节点布设优化算法邓中亮,刘延旭,胡恩文北京邮电大学电子工程学院,北京100876收稿日期:2019-07-08出版日期:2019-12-28发布日期:2019-11-15作者简介:邓中亮(1965-),男,教授,博士生导师,E-mail:dengzhl@bupt.edu.cn.基金资助 ...
北京邮电大学科研学术本站小编 Free考研考试 2021-12-25
一种数据驱动的三维流场流线特征化筛选方法
一种数据驱动的三维流场流线特征化筛选方法熊光正1,黄智濒1,戴志涛1,杨武兵21.北京邮电大学智能通信软件与多媒体北京市重点实验室,北京100876;2.中国航天空气动力技术研究院,北京100074收稿日期:2019-07-10出版日期:2019-12-28发布日期:2019-11-15通讯作者:黄 ...
北京邮电大学科研学术本站小编 Free考研考试 2021-12-25
优化传输性能的机会协作中继系统动态时间分配策略
优化传输性能的机会协作中继系统动态时间分配策略李陶深1,2,宁倩丽1,王哲11.广西大学计算机与电子信息学院,南宁530004;2.南宁学院信息工程学院,南宁530200收稿日期:2019-01-16出版日期:2019-10-28发布日期:2019-11-25作者简介:李陶深(1957-),男,教授 ...
北京邮电大学科研学术本站小编 Free考研考试 2021-12-25
基于身份的车载网批量匿名认证方案研究
基于身份的车载网批量匿名认证方案研究宋成,顾心安,王磊,刘志中,闫玺玺河南理工大学计算机科学与技术学院,河南焦作454000收稿日期:2018-11-12出版日期:2019-10-28发布日期:2019-11-25作者简介:宋成(1980-),男,讲师,硕士生导师,E-mail:songcheng@ ...
北京邮电大学科研学术本站小编 Free考研考试 2021-12-25