一种面向HDFS的多层索引技术
外文标题:Multi-Layered Index for HDFS-Based Systems
文献类型:期刊
作者:何龙[1]
机构:中国人民大学信息学院,北京,100872;中国人民大学信息学院,北京 100872;教育部数据工程与知识工程重点实验室(中国人民大学),北京 100872
年:2017
期刊名称:软件学报
卷:28
期:3
页码范围:502-513
增刊:正刊
收录情况:中文核心期刊要目总览
所属部门:信息学院
语言:中文
ISSN:1000-9825
链接地址:http://d.g.wanfangdata.com.cn/Periodical_rjxb201703004.aspx
DOI:10.13328/j.cnki.jos.005161
基金:国家重点研发计划; 中国人民大学预研委托(团队)基金; 国家自然科学基金(61003086)National Key Research and Development Plan; Research Funds of Renmin University of China; National Natural Science Foundation of China
关键词:查询;索引;HDFS;SOH;大数据
摘要:SOH(SQL over HDFS)系统通常将数据存储于分布式文件系统HDFS(Hadoop distributed file system)中,采用Map/Reduce或分布式查询引擎来处理查询任务.得益于HDFS以及Map/Reduce的容错能力和可扩展性,SOH系统可以很好地应对数据规模的飞速增长,完成分析型查询处理.然而,在处理选择型查询或交互式查询时,这类系统暴露出了性能上的缺陷.提出一种通用的索引技术,可以应用于SOH系统中,以提高其查询处理的效率.分析了SOH系统访问HDFS文件的过程,指出了其中影响数据加载时间的关键因素.提出了split层和split内部双层索引机制;设计并实现了聚集索引和非聚集索引;最后,在标准数据集上进行了大量实验,并与现有基于HDFS的索引技术进行了比较.实验结果表明,所提出的索引技术可以有效地提高查询处理的效率.
作者其他论文
Spark上的等值连接优化.卞昊穹;陈跃国;杜小勇,等.华东师范大学学报(自然科学版).2014,263-270,280.
内急外缓--移动产品外包项目管理.何龙.城市建设理论研究.2014.
一种电子文件管理系统的自动化测试方法.朝乐门;杜小勇;薛四新.2014.
一种能力属性增强的Web服务信任评估模型.李海华;杜小勇;田萱.计算机学报.2008,31(8),1471-1477.
基于划分的集合相似连接.荣垂田;徐天任;杜小勇.计算机研究与发展.2012,49(10),2066-2076.