删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于着色Petri网的HDFS数据一致性建模与分析

本站小编 Free考研考试/2022-01-02

摘要:HDFS分布式文件系统作为Apache Hadoop的核心组件之一,在工业界得到了广泛应用.HDFS采用了多副本机制保证数据的可靠性,但是由于多副本的存在,在节点失效、网络中断、写入失败时可能会导致数据不一致.与传统文件系统相比,HDFS被认为其数据一致性有所降低,但用户并不知道何时会出现不一致的情况,目前也没有相关工作对其一致性机制进行验证说明.当数据存在一致性问题时,会增加上层应用的不确定性.可见,对数据一致性的研究十分必要.HDFS的软件规模庞大,且在分布式环境下运行,针对这些特点,采用了着色Petri网建模和状态空间分析的方法,完成了以下工作:(1)使用着色Petri网对HDFS的读写流程建立模型,该模型详细刻画了HDFS内部各个组件的功能及相互协作的机制;(2)基于着色Petri网模型,使用状态空间工具分析了HDFS的数据层一致性和操作层一致性,验证并详细说明了HDFS出现不一致的条件;(3)在分析过程中,提出了“时点重复读”的操作层一致性验证方法,采用串行化的重复读策略降低了状态空间复杂度.基于以上工作,针对HDFS上层应用的开发给出建议,帮助提高应用的数据一致性.此外,在建模过程中提出的建模技巧给基于CPN Tools工具分析其他系统提供了借鉴.



Abstract:As one of the core components of Apache Hadoop, the Hadoop distributed file system (HDFS) has been widely used in the industry. HDFS adopts a multiple replicas mechanism to ensure data reliability, which may incur inconsistency because of node failure, network partition, and write failure. HDFS is considered to have reduced data consistency compared to traditional file systems, which is difficult for users to understand when there will be inconsistent. At present, there is no relevant work to verify the consistency mechanism. When the data is inconsistent, it will increase the uncertainty of the upper applications. Thus, research for data consistency model is required. The large scale of HDFS makes the analysis more difficult. Code reading, abstracting, colored Petri net modeling, and state-space analysis are conducted to comprehend the system. The works are listed as the following. (1) Colored petri nets are used to model HDFS's process of reading and writing files, the model describes the functions of inner components and their cooperation mechanism in detail. (2) Data layer consistency and operation layer consistency of HDFS are analyzed with state-space tools based on a colored Petri net model, figuring out data consistency guaranteed by the system. (3) A time point repeatable read method is proposed to verify operation layer consistency and serial repeatable strategy is utilized to decrease state-space complexity. Based on the contribution above, the directions for HDFS application development are proposed, helping to improve the data consistency. The CPN modeling method and technique are applicated in the analysis of other distributed information systems.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/6026
相关话题/数据 空间 工作 流程 网络

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于贝叶斯网络的时间序列因果关系学习
    摘要:贝叶斯网络是研究变量之间因果关系的有力工具,基于贝叶斯网络的因果关系学习包括结构学习与参数学习两部分,其中,结构学习是核心.目前,贝叶斯网络主要用于发现非时间序列数据中所蕴含的因果关系(非时间序列因果关系),从数据中学习得到的也均是一般变量之间的因果关系.针对这些情况,结合时间序列预处理、时间 ...
    本站小编 Free考研考试 2022-01-02
  • 基于细粒度数据的智能手机续航时间预测模型
    摘要:如今,智能手机已成为人们日常生活中重要的组成部分.然而,在智能手机软硬件能力高速发展的同时,智能手机的电池能力却未能取得突破性的进展.这导致电池的续航能力经常会成为用户使用智能手机时的体验瓶颈.为了提高用户使用体验的优良感受,一种可行的方法是为用户提供电池续航时间预测.准确的电池续航时间预测能 ...
    本站小编 Free考研考试 2022-01-02
  • 构建新型高性能与高可用的键值数据库系统
    摘要:近年来,写密集型应用程序越来越普遍.如何有效地处理这种工作负载,是数据库系统领域深入研究的方向之一.写操作开销主要由以下两个方面的因素构成:(1)硬件级别,即写操作引起的I/O,目前无法在短时间内消除这种开销;(2)软件开销,即修改内存数据拷贝以及构造日志记录造成的多次写操作.日志即数据(lo ...
    本站小编 Free考研考试 2022-01-02
  • 医疗大数据隐私保护多关键词范围搜索方案
    摘要:随着医疗信息系统的急速发展,基于医疗云的信息系统将大量电子健康记录(EHRs)存储在医疗云系统中,利用医疗云强大的存储能力和计算能力对EHRs数据进行安全与统一的管理.尽管传统加密机制可以保证医疗数据在半诚实云服务器中的机密性,但对加密后的EHRs数据执行安全、快速、有效的范围搜索,仍是一个有 ...
    本站小编 Free考研考试 2022-01-02
  • 基于双注意力残差循环单幅图像去雨集成网络
    摘要:降雨会严重降低拍摄图像质量和影响户外视觉任务.由于不同图像中,雨的形状、方向和密度不同,导致单幅图像去雨是一项困难的任务.提出一种新的基于双注意力的残差循环单幅图像去雨集成网络(简称RDARENet).在网络中,因为上下文的信息对于去除雨痕十分重要,所以首先采用多尺度的扩张卷积网络去获得更大的 ...
    本站小编 Free考研考试 2022-01-02
  • 面向图像场景转换的改进型生成对抗网络
    摘要:设计了新的生成器网络、判决器网络以及新的损失函数,用于图像场景转换.首先,生成器网络采用了带跨层连接结构的深度卷积神经网络,其中,多个跨层连接以实现图像结构信息的共享;而判决器网络采用了多尺度全域卷积网络,多尺度判决器可以区分不同尺寸下的真实和生成图像.同时,对于损失函数,该算法借鉴其他算法提 ...
    本站小编 Free考研考试 2022-01-02
  • 碎片化家谱数据的融合技术
    摘要:家谱数据是典型的碎片化数据,具有海量、多源、异构、自治的特点.通过数据融合技术将互联网中零散分布的家谱数据融合成一个全面、准确的家谱数据库,有利于针对家谱数据进行知识挖掘和推理,从而为用户提供姓氏起源、姓氏变迁和姓氏间关联等隐含信息.在大数据知识工程BigKE模型的基础上,提出了一个结合HAO ...
    本站小编 Free考研考试 2022-01-02
  • 一种高效低能耗移动数据采集与无线充电策略
    摘要:在无线可充电传感器网络(wirelessrechargeablesensornetwork,简称WRSN)中,所面临的一项重要挑战是如何在高效收集传感器节点数据的同时,降低网络整体能量消耗.大多数现有数据收集策略或是不能适应大规模的充电传感器网络,或是没有充分考虑到传感器节点能量补充的问题,这 ...
    本站小编 Free考研考试 2022-01-02
  • 基于卷积神经网络的低嵌入率空域隐写分析
    摘要:近年来,基于深度学习的空域隐写分析研究在高嵌入率下已经取得了较好的成果,但是对低嵌入率的检测效果还不太理想.因此设计了一种卷积神经网络结构,使用SRM滤波器进行预处理来获取隐写噪声残差,采用3个卷积层并对卷积核大小进行合理设计,通过适当选择批量归一化操作和激活函数来提升网络的性能.实验结果表明 ...
    本站小编 Free考研考试 2022-01-02
  • 一种超低损失的深度神经网络量化压缩方法
    摘要:深度神经网络(deepneuralnetwork,简称DNN)量化是一种高效的模型压缩方法,使用少量位宽表示模型计算过程中的参数和中间结果数据.数据位宽会直接影响内存占用、计算效率和能耗.以往的模型量化研究缺乏有效的定量分析,这导致量化损失难以预测.提出了一种超低损失的DNN量化方法(ultr ...
    本站小编 Free考研考试 2022-01-02