删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种分布式异构带宽环境下的高效数据分区方法

本站小编 Free考研考试/2022-01-01

马卿云1,季航旭1,赵宇海1,毛克明2,王国仁3
1(东北大学计算机科学与工程学院 沈阳 110169);2(东北大学软件学院 沈阳 110169);3(北京理工大学计算机学院 北京 100081) (maqy1995@163.com)
出版日期: 2020-12-01


基金资助:国家重点研发计划项目(2018YFB1004402);国家自然科学基金项目(61772124)

An Efficient Data Partitioning Method in Distributed Heterogeneous Bandwidth Environment

Ma Qingyun1, Ji Hangxu1, Zhao Yuhai1, Mao Keming2, Wang Guoren3
1(School of Computer Science and Engineering, Northeastern University, Shenyang 110169);2(Software College, Northeastern University, Shenyang 110169);3(School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081)
Online: 2020-12-01


Supported by:This work was supported by the National Key Research and Development Program of China (2018YFB1004402) and the National Natural Science Foundation of China (61772124).




摘要/Abstract


摘要: 在分布式大数据处理框架的作业运行过程中,会有大量的数据通过网络传输,数据在各节点之间传输所需的时间已成为作业运行的主要开销之一.在节点异构带宽的情况下,因为带宽瓶颈节点的存在,传统的数据分区方法效率低下.针对这个问题,建立了节点间的数据传输模型,该模型以降低数据传输时间为目标,根据各节点的上下行带宽和初始数据量大小,计算出各节点的最优数据分发比例.以该模型为基础,设计了基于带宽的数据分区方法,该数据分区方法使得各节点按最优数据分发比例来分配数据.最后在Apache Flink框架中将基于带宽的数据分区方法进行了实现,并通过实验进行了验证.实验结果表明:异构带宽条件下,基于带宽的数据分区方法可以有效减少数据分区所需的时间.






[1]杨帆, 张鹏, 王展, 元国军, 安学军. 基于在网计算加速的拜占庭容错算法[J]. 计算机研究与发展, 2021, 58(1): 164-177.
[2]陆乐, 孙玉娥, 黄河, 汪润枝, 曹振. 分布式监测系统中的重复元素检测机制[J]. 计算机研究与发展, 2020, 57(5): 1046-1056.
[3]张强,梁杰,许胤龙,李永坤. 基于工作负载感知的固态硬盘阵列系统的架构设计与研究[J]. 计算机研究与发展, 2019, 56(4): 755-766.
[4]徐志伟,曾琛,朝鲁,彭晓晖. 面向控域的体系结构:一种智能万物互联的体系结构风格[J]. 计算机研究与发展, 2019, 56(1): 90-102.
[5]任彦冰,李兴华,刘海,程庆丰,马建峰. 基于区块链的分布式物联网信任管理方法研究[J]. 计算机研究与发展, 2018, 55(7): 1462-1478.
[6]王煜炜,刘敏,马诚,李鹏飞. 面向网络功能虚拟化的高性能负载均衡机制[J]. 计算机研究与发展, 2018, 55(4): 689-703.
[7]张铁赢, 黄贵, 章颖强, 王剑英, 胡炜, 赵殿奎, 何登成. X-DB:软硬一体的新型数据库系统[J]. 计算机研究与发展, 2018, 55(2): 319-326.
[8]易建亮, 陈志广, 肖侬, 卢宇彤. 基于代理的并行文件系统元数据优化与实现[J]. 计算机研究与发展, 2018, 55(2): 438-446.
[9]刘炳涛,王达,叶笑春,范东睿,张志敏,唐志敏. 基于数据流块的空间指令调度方法[J]. 计算机研究与发展, 2017, 54(4): 750-763.
[10]胡海洋,姬朝配,胡华,葛季栋. 基于协作相容性的工作流任务分配优化方法[J]. 计算机研究与发展, 2017, 54(4): 872-885.
[11]李哲涛,臧浪,田淑娟,李仁发. 基于混合压缩感知的分簇式网络数据收集方法[J]. 计算机研究与发展, 2017, 54(3): 493-501.
[12]李琪,钟将,李雪. 基于启发策略的动态平衡图划分算法[J]. 计算机研究与发展, 2017, 54(12): 2851-2857.
[13]蒋军强,林亚平,谢国琪,张世文. 时间约束的异构分布式系统工作流能耗优化算法[J]. 计算机研究与发展, 2016, 53(7): 1503-1516.
[14]张洋,王达,叶笑春,朱亚涛,范东睿,李宏亮,谢向辉. 众核处理器片上网络的层次化全局自适应路由机制[J]. 计算机研究与发展, 2016, 53(6): 1211-1220.
[15]李钦,朱延超,刘轶,钱德沛. 基于YARN集群的计算加速部件扩展支持[J]. 计算机研究与发展, 2016, 53(6): 1263-1270.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4320
相关话题/计算机 数据 优化 网络 东北大学