删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

MapReduce与Spark用于大数据分析之比较

本站小编 Free考研考试/2022-01-02

摘要:评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量以及文件数目方面的性能要优于Spark;而在处理迭代问题和一些低延迟问题时,Spark可以根据数据之间的依赖关系对任务进行更合理的划分,相较于MapReduce,有效地减少了中间数据传输数量与同步次数,提高了系统的运行效率.



Abstract:This paper reviews two state-of-the-art algorithmic architectures, MapReduce and Spark, and compares them from their backgrounds, principles and application scenarios. The advantages and their corresponding limitations of these two algorithms are summarized. When dealing with non-iterative problems, MapReduce, by virtue of its task scheduling strategy and shuffle mechanisms, performs better than Spark in terms of intermediate data transfers and number of files. Spark can be used to deal with iterative problems and low latency issues, as it divides a computing task according to the dependencies between the data and the task. Compared with MapReduce, Spark can effectively reduce the number of intermediate data transmissions and the number of synchronizations, and improve the running efficiency of computing systems.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5557
相关话题/数据 系统 计算 数据传输 算法

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 医学影像计算机辅助检测与诊断系统综述
    摘要:计算机辅助检测/诊断(computer-aideddetection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目 ...
    本站小编 Free考研考试 2022-01-02
  • 数据外补偿的深度网络超分辨率重建
    摘要:单张图像超分辨率重建受到多对一映射的困扰.对于给定的低分辨率图像块,存在若干高分辨率图像块与之对应.基于学习的方法受此影响,学习到的逆映射规则只能预测这些高分辨率图像块的均值,从而产生视觉上模糊的超分辨率重建结果.为了弥补歧义性造成的高频细节损失,提出了一种基于深度网络、利用在线检索的数据进行 ...
    本站小编 Free考研考试 2022-01-02
  • 多媒体大数据处理与分析专题前言
    摘要:Abstract:PDF全文下载地址:http://jos.org.cn/jos/article/pdf/5417 ...
    本站小编 Free考研考试 2022-01-02
  • 基于深度反卷积神经网络的图像超分辨率算法
    摘要:图像超分辨率一直是底层视觉领域的研究热点,现有基于卷积神经网络的方法直接利用传统网络模型,未对图像超分辨率属于回归问题这一本质进行优化,其网络学习能力较弱,训练时间较长,重建图像的质量仍有提升空间.针对这些问题,提出了基于深度反卷积神经网络的图像超分辨率算法,该算法利用反卷积层对低分辨率图像进 ...
    本站小编 Free考研考试 2022-01-02
  • 多视角数据缺失补全
    摘要:随着信息技术的快速发展,现实生活中不断涌现出大量的多视角数据,由此应运而生的多视角学习已成为机器学习领域的研究热点.然而,在数据获取过程中,由于收集的难度、高额成本或设备故障等问题,往往导致收集到的多视角数据出现视角缺失,这使得一些多视角学习方法无法有效进行.为此,提出一种基于视角相容性的多视 ...
    本站小编 Free考研考试 2022-01-02
  • 基于密度差分的自动聚类算法
    摘要:聚类作为无监督学习技术,已在实际中得到了广泛的应用.但是对于带有噪声的数据集,一些主流算法仍然存在着噪声去除不彻底和聚类结果不准确等问题.提出了一种基于密度差分的自动聚类算法(clusteringbasedondensitydifference,简称CDD),实现了对含有噪声数据集的自动分类. ...
    本站小编 Free考研考试 2022-01-02
  • 基于同态加密系统的图像鲁棒可逆水印算法
    摘要:同态加密技术可用于保护数据隐私并允许对密文数据进行算术操作,在云计算安全上有着很好的应用前景.针对云计算中的隐私保护和数据安全等问题,提出了一种基于同态加密系统的图像鲁棒可逆水印算法,主要思想为:(1)对原始图像进行分块和利用Paillier加密系统进行加密得到密文图像;(2)在加密域中,通过 ...
    本站小编 Free考研考试 2022-01-02
  • 基于创意序列学习的艺术风格学习与绘制系统
    摘要:在众多传统艺术绘画形式中,笔触是被现代计算机绘画工具(GIMP、Photoshop和Painter)普遍采用的形式之一.创新性地提出了服务于非真实感渲染AI辅助艺术创作系统(A4).系统能够实现自动生成特定艺术家风格的笔触效果.该系统在强化学习框架下,主要进行以下研究工作:(1)提出基于PGP ...
    本站小编 Free考研考试 2022-01-02
  • 基于权值不确定性的玻尔兹曼机算法
    摘要:受限制的玻尔兹曼机(RBM)是一种无向图模型.基于RBM的深度学习模型包括深度置信网(DBN)和深度玻尔兹曼机(DBM)等.在神经网络和RBM的训练过程中,过拟合问题是一个比较常见的问题.针对神经网络的训练,权值随机变量(weightrandomvariables)、Dropout方法和早期停 ...
    本站小编 Free考研考试 2022-01-02
  • HMOFA:一种混合型多目标萤火虫算法
    摘要:现实中不断涌现出数目众多且日益复杂的多目标优化问题,迫切需要发展新型多目标优化算法以应对挑战.将基本萤火虫算法拓展至多目标优化领域,提出一种混合型多目标萤火虫算法HMOFA(hybridmulti-objectivefireflyalgorithm).该算法提出使用混合水平正交实验设计和连续决 ...
    本站小编 Free考研考试 2022-01-02