摘要:云计算已成为大数据分析作业的主流运行支撑环境,选择合适的云资源优化其性能面临巨大挑战.当前研究主要考虑大数据分析框架(如Hadoop,Spark等)的多样性,采用机器学习方法进行资源供给,但样本少容易陷入局部最优解.提出了大数据环境下基于负载分类的启发式云资源供给方法RP-CH,基于云资源共享特点,获取其他大数据分析作业的运行时监测和云资源配置信息,建立负载分类与优化云资源配置的启发式规则,并将该规则作用到贝叶斯优化算法的收益函数.基于HiBench,SparkBench测试基准的结果显示:RP-CH相对于已有方法CherryPick、大数据分析作业的性能平均提升了58%,成本平均减少了44%.
Abstract:It is a big challenge to pick up the best cloud configuration for recurring big data analytics jobs running in clouds. Prior efforts may get in a sub-optimal configuration due to a broad spectrum of cloud configurations with a few test runs, such as CherryPick. RP-CH, presented in this paper, is a resource provisioning system that leverages heuristic rules based on classification information to identify the optimal cloud configuration for big data analytics jobs, while the insight is classifying a job by comparing its resource preference and usage information with other jobs. Then, heuristic rules are used to distinguish bad samples from good ones in Bayesian optimization algorithm. The experiments on HiBench and SparkBench in Aliyun ECS show that the performance of job has been improved by 58% in average comparing with CherryPick, meanwhile the resource cost has been reduced by 44% in average.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5710
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
面向大数据分析作业的启发式云资源供给方法
本站小编 Free考研考试/2022-01-02
相关话题/资源 优化 环境 计算 信息
移动边缘计算中资源受限的串行任务卸载策略
摘要:云计算和移动互联网的不断融合,促进了移动云计算的产生和发展,但是其难以满足终端应用对带宽和延迟的需求.移动边缘计算在靠近用户的网络边缘提供计算和存储能力,通过计算卸载,将终端任务迁移至边缘服务器上面执行,能够有效降低应用延迟和节约终端能耗.然而,目前针对移动边缘环境任务卸载的主要工作大多考虑单 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02森林优化特征选择算法的增强与扩展
摘要:特征选择作为一种重要的数据预处理方法,不但能解决维数灾难问题,还能提高算法的泛化能力.各种各样的方法已被应用于解决特征选择问题,其中,基于演化计算的特征选择算法近年来获得了更多的关注并取得了一些成功.近期研究结果表明,森林优化特征选择算法具有更好的分类性能及维度缩减能力.然而,初始化阶段的随机 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于相似度驱动的线性哈希模型参数再优化方法
摘要:哈希学习通过设计和优化目标函数,并结合数据分布,学习得到样本的哈希码表示.在现有哈希学习模型中,线性模型因其高效、便捷的特性得到广泛应用.针对线性模型在哈希学习中的参数优化问题,提出一种基于相似度驱动的线性哈希模型参数再优化方法.该方法可以在不改变现有模型各组成部分的前提下,实现模型参数的再优 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于异构社交网络信息和内容信息的事件推荐
摘要:基于事件的社交网络使得事件推荐受到越来越多的关注.不同于其他推荐问题(如电影推荐等),事件推荐具有3类不同信息:用户构成的异构社交网络关系信息(在线社交网络和离线社交网络)、用户/事件的内容信息、用户对事件的隐式反馈信息.如何有效融合这些信息进行事件推荐是该领域****普遍关注的问题.提出一种 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向数据特征的内存跳表优化技术
摘要:跳表作为数据库中被广泛采用的索引技术,优点在于可以达到类似折半查找的复杂度O(log(n)).但是标准跳表算法中,结点的层数是通过随机算法生成的,这就导致跳表的性能是不稳定的.在极端情况下,查找复杂度会退化到O(n).这是因为经典跳表结构没有结合数据的特征.一个稳定的跳表结构应该充分考虑数据的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02MAS环境中一种基于反馈可信度的多维信誉计算方法
摘要:在分布式体系结构的MAS(multi-agentsystem)中,Agent之间通过彼此的交互,协调完成共同的任务,但是由于没有中心化的管理权威可以依赖,导致对网络中Agent信誉信息进行判断存在一定的困难.传统的基于评价反馈的信誉评估方法存在反馈评价属性信息利用不足以及缺少确保反馈评价信息可 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02HDFS 存储和优化技术研究综述
摘要:HDFS(Hadoopdistributedfilesystem)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于深度置信网络的广告点击率预估的优化
摘要:随着互联网广告的飞速发展,如何预测目标用户对互联网广告的点击率(click-throughrate,简称CTR),成为精确广告推荐投放的关键技术,并成为计算广告领域的研究热点和深度神经网络的应用热点.为了提高广告点击率预估的精确度,提出了基于深度置信网络的广告点击率预估模型,并通过基于Kagg ...中科院软件研究所 本站小编 Free考研考试 2022-01-02引入序列信息的残基相互作用网络比对算法
摘要:残基相互作用网络比对,对于研究蛋白质结构与功能的关系具有重要意义.在基于网络拓扑信息进行网络比对的MAGNA算法基础上,将蛋白质的序列信息(即残基匹配度)引入到其优化函数中,确定拓扑信息和序列信息对比对的影响程度,提出适合于残基相互作用网络比对的SI-MAGNA算法.实验结果表明,SI-MAG ...中科院软件研究所 本站小编 Free考研考试 2022-01-02ICOMDT:一个面向动态任务的交互计算模型
摘要:近年来,包含动态任务的交互式系统得到了广泛的应用.基于现有对用户与动态任务交互的研究,提出一个面向动态任务的定量化可计算的交互模型ICOMDT,用于解释用户与动态任务的交互行为,并实现用户意图预测.更具体地,将ICOMDT应用于运动目标选择任务,设计了两个实验以验证模型的有效性.实验1收集用户 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02