删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向不同数据分布的多维直方图算法COCA-Hist

中国人民大学 辅仁网/2017-06-30

文献详情
面向不同数据分布的多维直方图算法COCA-Hist
外文标题:Versatile Multidimensional Histograms for Different Data Distributions
文献类型:期刊
作者:曹巍[1]王珊[2]覃雄派[3]王秋月[4]
机构:[1]中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室 北京100872,北京100872,北京100872,北京100872
[2]中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室 北京100872,北京100872,北京100872,北京100872
[3]中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室 北京100872,北京100872,北京100872,北京100872
[4]中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学数据工程与知识工程教育部重点实验室 北京100872,北京100872,北京100872,北京100872

通讯作者:Cao, W.(caowei@ruc.edu.cn)
年:2008
期刊名称:计算机学报
卷:31
期:6
页码范围:1013-1024
增刊:增刊
收录情况:EI(20082811371217)中文核心期刊要目总览中国科技核心期刊
所属部门:数据工程与知识工程教育部重点实验室
语言:中文
ISSN:0254-4164
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjxb200806014.aspx
DOI:10.3321/j.issn:0254-4164.2008.06.014
基金:国家自然科学基金; 国际合作(HP Lab)项目
关键词:多维直方图;数据相关系数;值域密度;值域参数;属性值平均跨度
摘要:基于代价的RDBMS优化器需要对含有范围查询的合取谓词的结果集基数进行准确的估计,多维直方图对多维数据分布进行模拟,避免在估计结果集基数时采用数据独立性假设,造成估计误差过大,进而导致选择非优化的查询执行计划.在不同的数据分布情况下,传统的多维直方图(如MHist-2)效果有很大不同.数据相关系数和值域密度、值域参数是准确刻画多维数据分布的有效指标,文中提出了根据不同的指标采用不同的动态优化的多维直方图算法COCA-Hist,可以大大改善传统多维直方图在平均情况下的准确性.通过分析传统的多维直方图的最坏情况,COCA-Hist的改进算法可以改进传统的多维直方图在最坏情况下的准确性.实验比较了COCA-Hist和传统的多维直方图MHist-2以及GENHist和STHoles的准确性和时间效率.实验显示无论在平均情况下还是在最坏情况下COCA-Hist的改进算法均优于传统的MHist-2直方图,并且COCA-Hist的准确性和创建时间均比GENHist有极大的改善,在准确性方面COCA-Hist较优于STHoles,而在空间预算有限时STHoles的创建时间比COCA-Hist高两个数量 ...More
基于代价的RDBMS优化器需要对含有范围查询的合取谓词的结果集基数进行准确的估计,多维直方图对多维数据分布进行模拟,避免在估计结果集基数时采用数据独立性假设,造成估计误差过大,进而导致选择非优化的查询执行计划.在不同的数据分布情况下,传统的多维直方图(如MHist-2)效果有很大不同.数据相关系数和值域密度、值域参数是准确刻画多维数据分布的有效指标,文中提出了根据不同的指标采用不同的动态优化的多维直方图算法COCA-Hist,可以大大改善传统多维直方图在平均情况下的准确性.通过分析传统的多维直方图的最坏情况,COCA-Hist的改进算法可以改进传统的多维直方图在最坏情况下的准确性.实验比较了COCA-Hist和传统的多维直方图MHist-2以及GENHist和STHoles的准确性和时间效率.实验显示无论在平均情况下还是在最坏情况下COCA-Hist的改进算法均优于传统的MHist-2直方图,并且COCA-Hist的准确性和创建时间均比GENHist有极大的改善,在准确性方面COCA-Hist较优于STHoles,而在空间预算有限时STHoles的创建时间比COCA-Hist高两个数量级. ...Hide

作者其他论文



内存OLAP多核并行查询优化技术研究.焦敏;张延松;王珊,等.计算机学报.2014,1895-1910.
一个基于三元组存储的列式OLAP查询执行引擎.朱阅岸;张延松;周烜,等.软件学报.2014,25(4),753-767.
面向大规模机群的可扩展OLAP查询技术.王会举;覃雄派;王珊,等.计算机学报.2015,38(1),45-58.
内存数据仓库集群技术研究.张延松;王珊;周烜.华东师范大学学报(自然科学版).2014,117-132.
Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP.张宇;张延松;张兵,等.华东师范大学学报(自然科学版).2014,240-251.

相关话题/工程 数据 知识 北京 中国人民大学

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 一种基于图模型的Web数据库采样方法
    文献详情一种基于图模型的Web数据库采样方法外文标题:AGraph-BasedApproachforWebDatabaseSampling文献类型:期刊作者:刘伟[1]孟小峰[2]凌妍妍[3]机构:[1]中国人民大学信息学院,中国人民大学信息学院,中国人民大学信息学院北京100872,北京10087 ...
    中国人民大学 辅仁网 2017-06-30
  • 关系数据库中支持语义的Top-K关键字搜索
    文献详情关系数据库中支持语义的Top-K关键字搜索外文标题:ATop-KKeywordSearchforSupportingSemanticsinRelationalDatabases文献类型:期刊作者:Wang,Bin[1]Yang,Xiao-Chun[2]Wang,Guo-Ren[3]机构:[1 ...
    中国人民大学 辅仁网 2017-06-30
  • 基于属性相关度的Web数据库大小估算方法
    文献详情基于属性相关度的Web数据库大小估算方法外文标题:AnAttributesCorrelationBasedApproachforEstimatingSizeofWebDatabases文献类型:期刊作者:凌妍妍[1]孟小峰[2]刘伟[3]机构:[1]中国人民大学信息学院,中国人民大学信息学院 ...
    中国人民大学 辅仁网 2017-06-30
  • 数据空间技术研究
    文献详情数据空间技术研究外文标题:ResearchonDataspace文献类型:期刊作者:李玉坤[1]孟小峰[2]张相於[3]机构:[1]中国人民大学信息学院[2]中国人民大学信息学院[3]中国人民大学信息学院年:2008期刊名称:软件学报卷:19期:8页码范围:2018-2031增刊:增刊收录情 ...
    中国人民大学 辅仁网 2017-06-30
  • 关系数据库缓冲区置换策略的性能评测
    文献详情关系数据库缓冲区置换策略的性能评测外文标题:AComprehensivePerformanceEvaluationofBufferReplacementStrategiesinRDBMS文献类型:期刊作者:栾华[1]杜小勇[2]冯玉[3]王珊[4]机构:[1]中国人民大学教育部数据工程与知识 ...
    中国人民大学 辅仁网 2017-06-30
  • 产业集聚对创新活动空间差异的影响--基于中国制造业数据的实证研究
    文献详情产业集聚对创新活动空间差异的影响--基于中国制造业数据的实证研究外文标题:ImpactofAgglomerationSpilloverinSpatialDifferenceofInnovationActivities——PanelDataAnalysisofChina'sManufactur ...
    中国人民大学 辅仁网 2017-06-29
  • 基于高频数据的风险值度量IVar方法综述
    文献详情基于高频数据的风险值度量IVar方法综述外文标题:AnIntroductionofIVar,AMeasurementofValue-at-RiskwithHighFrequencyData文献类型:期刊作者:王莹倩[1]李熔根[2]机构:[1]中国人民大学统计学院,中国人民大学财金学院北京1 ...
    中国人民大学 辅仁网 2017-06-29
  • 我国食品安全预警数据库系统的建设与实现
    文献详情我国食品安全预警数据库系统的建设与实现外文标题:Establishmentondatabasesystemoffoodsafetyearly-warninginChina文献类型:期刊作者:张星联[1]唐晓纯[2]机构:[1]中国人民大学商学院[2]中国人民大学环境学院年:2008期刊名称: ...
    中国人民大学 辅仁网 2017-06-29
  • 奥运会与北京人口发展
    文献详情奥运会与北京人口发展文献类型:期刊作者:陈卫[1]张耀军[2]王粤[3]孙铁楠[4]丁凯[5]机构:[1]《人口研究》编辑部,中国人民大学人口与发展研究中心,北京市团市委,北京市团市委,中国人民大学经济学院博士,副书记,讲师[2]《人口研究》编辑部,中国人民大学人口与发展研究中心,北京市团市 ...
    中国人民大学 辅仁网 2017-06-29
  • 论数据分组的误导作用
    文献详情论数据分组的误导作用外文标题:OnMisleadingEffectofDataGrouping文献类型:期刊作者:张皓[1]黄向阳[2]机构:[1]中国人民大学书报资料中心,中国人民大学统计学院北京100086,北京100872[2]中国人民大学书报资料中心,中国人民大学统计学院北京1000 ...
    中国人民大学 辅仁网 2017-06-29