删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

构建新型高性能与高可用的键值数据库系统

本站小编 Free考研考试/2022-01-02

摘要:近年来,写密集型应用程序越来越普遍.如何有效地处理这种工作负载,是数据库系统领域深入研究的方向之一.写操作开销主要由以下两个方面的因素构成:(1)硬件级别,即写操作引起的I/O,目前无法在短时间内消除这种开销;(2)软件开销,即修改内存数据拷贝以及构造日志记录造成的多次写操作.日志即数据(log-as-database,称其为单拷贝系统)的架构能够减少写操作引起的I/O,同时降低软件方面的开销.目前,业界对单拷贝系统展现出浓厚的兴趣.现有的单拷贝系统大部分建立在特殊的基础设施之上,例如infiniband或NVRam(非易失性随机存取存储器),这种基础设施尚未达到广泛可用或者是依托他系统(例如Dynamo)构建,这种方法缺乏灵活性与普适性.在商用机器环境中,自底向上构建了一个称为LogStore的键值数据库系统,采用log-as-database设计理念,以充分利用单拷贝系统的优点,在提升写操作性能的同时,有效缩短主备数据之间的差距.在系统中内嵌复制协议达到高可用性而不是依赖其他系统,使得系统灵活可控.系统新颖的查询执行模型将执行线程与特定分片绑定,结合多版本并发控制技术,以无锁的方式消除读写冲突、写写冲突以及上下文切换开销.用YCSB对系统性能进行了详细的评估,对比主流的键值系统HBase以及单拷贝系统实现LogBase,LogStore在写密集型工作负载上性能要优4倍左右.在崩溃恢复方面,LogStore可在1分钟之内完成TB级别数据规模的恢复,比LogBase要快1个数量级以上.



Abstract:In recent year, the write-heavy applications are more and more prevalent. How to efficiently handle this sort of workload is one of intensive research direction in the field of database system. The overhead caused by write operation is mainly issued by two factors. One is the hardware level, i.e., the IO cost caused by write operation. This cost cannot be removed in short period. The other is dual-copy software architecture, i.e., multiple writes caused by modifying in-memory data copy and formulating log records. The log-as-database architecture (the following refers it as single-copy system) can reduce the IOs and software cost caused by write as well. But existing systems treating log-as-database either are built on top of special infrastructure such as infiniband or NVRam (non-volatile random access memory) which is far from widely available or is constructed with the help of other system such as Dynamo, which is lack of flexibility and generality. This study builds from scratch a single copy system called LogStore oriented for commodity environment, which adopts log-as-database design philosophy to fully utilize its advantages that can boost the write performance and minimize the gap between primary and secondary. Embedding consensus module into system other than dependent on auxiliary systems makes it more flexible and controllable. The novel execution model binding thread to certain partition plus multi-version concurrency control technique eliminates read-write, write-write conflict, and context switch overhead in lock-free style. The YCSB benchmark is used to assess system performance thoroughly. Compared to prevalent key-value store HBase and its single-copy implementation LogBase, the proposed system can achieve about 4x better. In term of crash recovery, LogStore can finish recovery within one minute for TB scale data volume, which is one order of magnitude recovery time less than LogBase.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/6023
相关话题/系统 数据 软件 工作 技术

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于细粒度数据的智能手机续航时间预测模型
    摘要:如今,智能手机已成为人们日常生活中重要的组成部分.然而,在智能手机软硬件能力高速发展的同时,智能手机的电池能力却未能取得突破性的进展.这导致电池的续航能力经常会成为用户使用智能手机时的体验瓶颈.为了提高用户使用体验的优良感受,一种可行的方法是为用户提供电池续航时间预测.准确的电池续航时间预测能 ...
    本站小编 Free考研考试 2022-01-02
  • 医疗大数据隐私保护多关键词范围搜索方案
    摘要:随着医疗信息系统的急速发展,基于医疗云的信息系统将大量电子健康记录(EHRs)存储在医疗云系统中,利用医疗云强大的存储能力和计算能力对EHRs数据进行安全与统一的管理.尽管传统加密机制可以保证医疗数据在半诚实云服务器中的机密性,但对加密后的EHRs数据执行安全、快速、有效的范围搜索,仍是一个有 ...
    本站小编 Free考研考试 2022-01-02
  • 软件缺陷自动修复技术综述
    摘要:软件缺陷是软件开发和维护过程中不可避免的.随着现代软件规模的不断变大,软件缺陷的数量以及修复难度随之增加,为企业带来了巨大的经济损失.修复软件缺陷,成为了开发人员维护软件质量的重大负担.软件缺陷自动修复技术有希望将开发者从繁重的调试中解脱出来,近年来成为热门的研究领域之一.搜集了94篇该领域最 ...
    本站小编 Free考研考试 2022-01-02
  • 领域驱动设计模式的收益与挑战:系统综述
    摘要:背景:近年来,领域驱动设计(domaindrivendesign,简称DDD)作为一种软件设计方法在业界中逐渐流行起来,并形成了若干应用的固有范式,即领域驱动设计模式(domaindrivendesignpattern,简称DDDP).然而,目前软件开发社区却仍然对DDDP在软件项目中的作用缺 ...
    本站小编 Free考研考试 2022-01-02
  • 基于日志挖掘的微服务测试集缩减技术
    摘要:微服务系统每轮迭代过程中都需要进行回归测试,大量重复测试会造成资源浪费,可通过减少测试用例集的规模来降低成本,以提高测试效率.现有测试用例集缩减技术主要依赖系统规约和架构描述作为输入,对于具有服务自治、调用关系不确定等特点的微服务系统实用性受限.并且,现有测试用例集缩减技术很少考虑使用场景,测 ...
    本站小编 Free考研考试 2022-01-02
  • 碎片化家谱数据的融合技术
    摘要:家谱数据是典型的碎片化数据,具有海量、多源、异构、自治的特点.通过数据融合技术将互联网中零散分布的家谱数据融合成一个全面、准确的家谱数据库,有利于针对家谱数据进行知识挖掘和推理,从而为用户提供姓氏起源、姓氏变迁和姓氏间关联等隐含信息.在大数据知识工程BigKE模型的基础上,提出了一个结合HAO ...
    本站小编 Free考研考试 2022-01-02
  • 一种高效低能耗移动数据采集与无线充电策略
    摘要:在无线可充电传感器网络(wirelessrechargeablesensornetwork,简称WRSN)中,所面临的一项重要挑战是如何在高效收集传感器节点数据的同时,降低网络整体能量消耗.大多数现有数据收集策略或是不能适应大规模的充电传感器网络,或是没有充分考虑到传感器节点能量补充的问题,这 ...
    本站小编 Free考研考试 2022-01-02
  • 国产复杂异构高性能数值软件的研制与测试专题前言
    摘要:中国科学院首个C类战略性先导科技专项XDC01000000主要目标已经达到.在数值软件层面,该先导专项第1阶段的主要任务是在复杂异构先进计算系统上研制高水平的基准测试软件HPL(highperformanceLinpack)和HPCG(highperformanceconjugategradi ...
    本站小编 Free考研考试 2022-01-02
  • 国产异构系统上HPL的优化与分析
    摘要:随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,提出了基于国产处理器-国产加速器异构系统 ...
    本站小编 Free考研考试 2022-01-02
  • 复杂异构计算系统HPL的优化
    摘要:当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(highperformanceLinpack)是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与 ...
    本站小编 Free考研考试 2022-01-02