删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

HDFS 存储和优化技术研究综述

本站小编 Free考研考试/2022-01-02

摘要:HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向.



Abstract:As an append-only and read optimized open-source distributed file system, HDFS (Hadoop distributed file system) provides portability, high fault-tolerance, and massive horizontal scalability. Over the past decade, HDFS has been widely used for big data storage, and it manages various data, such as text, graph, key-values, etc. Moreover, big data systems based on or compatible with HDFS have been prevalent in many application scenarios such as complex SQL analysis, ad-hoc queries, interactive analysis, key-value storage, and iterative computation. HDFS has been the universal underlying file system to store massive data and support manifold analytical applications. Therefore, it is of great significance to optimizing the storage performance and data access efficiency of HDFS. In this study, the principles and features of HDFS are summarized and a survey on storage and optimization techniques of HDFS is carried out from three dimensions, including logic file structure, hardware, and application scenarios. It is also proposed that storage over heterogeneous hardware, workload-guided adaptive storage optimization, and storage optimization combined with machine learning technologies could be the most appealing research directions in the future.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5872
相关话题/优化 数据 技术 逻辑 计算

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 大数据实时交互式分析
    摘要:实时交互式分析针对多目标和多角度的分析任务,通过多轮次的用户-数据库交互过程,逐步明确分析任务与分析目标,全方位地了解相关领域信息,最终得到科学的、全面的分析结果.相比传统数据库“提交查询-返回结果”的单轮次交互查询方式,实时交互式分析更强调交互的实时性与查询结果的时效性.对实时交互式分析的研 ...
    本站小编 Free考研考试 2022-01-02
  • 一种面向中小规模数据集的模糊分类方法
    摘要:虽然Takagi-Sugeno-Kang(TSK)模糊分类器在一些重要场合已经取得了广泛应用,但如何提高其分类性能和增强其可解释性,仍然是目前的研究热点.提出一种随机划分与组合特征且规则具有高可解释性的深度TSK模糊分类器(RCC-DTSK-C),但和其他分类器构造不同的是:(1)RCC-DT ...
    本站小编 Free考研考试 2022-01-02
  • 描述逻辑ALC中关于伪子概念极小改变的R-演算
    摘要:AGM公设是用于信念修正的(被一个单一信念修正),而DP公设是用于迭代修正的(被一个有限的信念序列修正).李未给出了对于R-构型(configuration)△|Γ的R-演算,其中,△是一个原子公式或原子公式否定的集合,而Γ是一个有限的公式集合.为了在修正过程中能够保留断言中尽可能多的信息,将 ...
    本站小编 Free考研考试 2022-01-02
  • 基于深度置信网络的广告点击率预估的优化
    摘要:随着互联网广告的飞速发展,如何预测目标用户对互联网广告的点击率(click-throughrate,简称CTR),成为精确广告推荐投放的关键技术,并成为计算广告领域的研究热点和深度神经网络的应用热点.为了提高广告点击率预估的精确度,提出了基于深度置信网络的广告点击率预估模型,并通过基于Kagg ...
    本站小编 Free考研考试 2022-01-02
  • 联合Laplacian正则项和特征自适应的数据聚类算法
    摘要:在信息爆炸时代,大数据处理已成为当前国内外热点研究方向之一.谱分析型算法因其特有的性能而获得了广泛的应用,然而受维数灾难影响,主流的谱分析法对高维数据的处理仍是一个极具挑战的问题.提出一种兼顾维数特征优选和图Laplacian约束的聚类模型,即联合拉普拉斯正则项和自适应特征学习(jointLa ...
    本站小编 Free考研考试 2022-01-02
  • 使用共享变量分析和约束求解检测安卓应用数据竞争
    摘要:安卓系统在移动端操作系统始终占据主导地位,在增强用户体验和提高程序性能的同时,其特有的事件驱动模型和多线程模型也造成了并发缺陷.并发程序中,线程调度的不确定性和难以再现性是并发缺陷检测困难的原因.现有技术主要在动态生成执行路径的基础上进行发生序(happens-before)分析,进而检测安卓 ...
    本站小编 Free考研考试 2022-01-02
  • 基于噪声数据与干净数据的深度置信网络
    摘要:建立以受限玻尔兹曼机(restrictedBoltzmannmachine,简称RBM)为基石的深度网络模型,是深度学习研究的热点领域之一.Point-wiseGated受限玻尔兹曼机(point-wisegatedRBM,简称pgRBM)是一种RBM的变种算法.该算法能够在含噪声的数据中自适 ...
    本站小编 Free考研考试 2022-01-02
  • 分布式数据库下基于剪枝的并行合并连接策略
    摘要:排序合并连接是数据库系统一种重要的连接实现方式,比哈希连接有更广泛的应用.分布式环境下,数据分片、分布存储,面对昂贵的网络代价,进行高效排序合并连接的挑战巨大.传统策略首先针对连接数据进行排序,然后基于排好序的数据执行合并连接.这两部分操作均基于原始数据进行操作,通常情况下,原始连接数据存在无 ...
    本站小编 Free考研考试 2022-01-02
  • 多传感器辅助的WiFi信号指纹室内定位技术
    摘要:近年来,基于室内定位的应用服务越来越普及,吸引了大量的研究工作.其中,基于WiFi信号指纹的室内定位技术发展尤为迅速.但无线信号传输易受环境影响,会导致WiFi信号指纹定位存在偏差.为了提高定位精度并减小环境因素带来的不利影响,提出了智能手机内置传感器辅助WiFi信号指纹定位的方法,即利用智能 ...
    本站小编 Free考研考试 2022-01-02
  • ICOMDT:一个面向动态任务的交互计算模型
    摘要:近年来,包含动态任务的交互式系统得到了广泛的应用.基于现有对用户与动态任务交互的研究,提出一个面向动态任务的定量化可计算的交互模型ICOMDT,用于解释用户与动态任务的交互行为,并实现用户意图预测.更具体地,将ICOMDT应用于运动目标选择任务,设计了两个实验以验证模型的有效性.实验1收集用户 ...
    本站小编 Free考研考试 2022-01-02