面向不同数据分布的多维直方图算法COCA-Hist
外文标题:Versatile Multidimensional Histograms for Different Data Distributions
文献类型:期刊
作者:曹巍[1]
机构:[1]中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室 北京100872,北京100872,北京100872,北京100872
[2]中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室 北京100872,北京100872,北京100872,北京100872
[3]中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室 北京100872,北京100872,北京100872,北京100872
[4]中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室 北京100872,北京100872,北京100872,北京100872
通讯作者:Cao, W.(caowei@ruc.edu.cn)
年:2008
期刊名称:计算机学报
卷:31
期:6
页码范围:1013-1024
增刊:增刊
收录情况:EI(20082811371217)
所属部门:数据工程与知识工程教育部重点实验室
语言:中文
ISSN:0254-4164
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjxb200806014.aspx
DOI:10.3321/j.issn:0254-4164.2008.06.014
基金:国家自然科学基金; 国际合作(HP Lab)项目
关键词:多维直方图;数据相关系数;值域密度;值域参数;属性值平均跨度
摘要:基于代价的RDBMS优化器需要对含有范围查询的合取谓词的结果集基数进行准确的估计,多维直方图对多维数据分布进行模拟,避免在估计结果集基数时采用数据独立性假设,造成估计误差过大,进而导致选择非优化的查询执行计划.在不同的数据分布情况下,传统的多维直方图(如MHist-2)效果有很大不同.数据相关系数和值域密度、值域参数是准确刻画多维数据分布的有效指标,文中提出了根据不同的指标采用不同的动态优化的多维直方图算法COCA-Hist,可以大大改善传统多维直方图在平均情况下的准确性.通过分析传统的多维直方图的最坏情况,COCA-Hist的改进算法可以改进传统的多维直方图在最坏情况下的准确性.实验比较了COCA-Hist和传统的多维直方图MHist-2以及GENHist和STHoles的准确性和时间效率.实验显示无论在平均情况下还是在最坏情况下COCA-Hist的改进算法均优于传统的MHist-2直方图,并且COCA-Hist的准确性和创建时间均比GENHist有极大的改善,在准确性方面COCA-Hist较优于STHoles,而在空间预算有限时STHoles的创建时间比COCA-Hist高两个数量 ...More
基于代价的RDBMS优化器需要对含有范围查询的合取谓词的结果集基数进行准确的估计,多维直方图对多维数据分布进行模拟,避免在估计结果集基数时采用数据独立性假设,造成估计误差过大,进而导致选择非优化的查询执行计划.在不同的数据分布情况下,传统的多维直方图(如MHist-2)效果有很大不同.数据相关系数和值域密度、值域参数是准确刻画多维数据分布的有效指标,文中提出了根据不同的指标采用不同的动态优化的多维直方图算法COCA-Hist,可以大大改善传统多维直方图在平均情况下的准确性.通过分析传统的多维直方图的最坏情况,COCA-Hist的改进算法可以改进传统的多维直方图在最坏情况下的准确性.实验比较了COCA-Hist和传统的多维直方图MHist-2以及GENHist和STHoles的准确性和时间效率.实验显示无论在平均情况下还是在最坏情况下COCA-Hist的改进算法均优于传统的MHist-2直方图,并且COCA-Hist的准确性和创建时间均比GENHist有极大的改善,在准确性方面COCA-Hist较优于STHoles,而在空间预算有限时STHoles的创建时间比COCA-Hist高两个数量级. ...Hide
作者其他论文
内存OLAP多核并行查询优化技术研究.焦敏;张延松;王珊,等.计算机学报.2014,1895-1910.
一个基于三元组存储的列式OLAP查询执行引擎.朱阅岸;张延松;周烜,等.软件学报.2014,25(4),753-767.
面向大规模机群的可扩展OLAP查询技术.王会举;覃雄派;王珊,等.计算机学报.2015,38(1),45-58.
内存数据仓库集群技术研究.张延松;王珊;周烜.华东师范大学学报(自然科学版).2014,117-132.
Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP.张宇;张延松;张兵,等.华东师范大学学报(自然科学版).2014,240-251.