二维混合数据分布下相关性检测的新方法HY-COCA
外文标题:HY-COCA:A Hybrid-data-distribution-aware Way to Detect Correlation over Bi-dimensional Data Space
文献类型:期刊
作者:曹巍[1]
机构:[1]中国人民大学信息学院
[2]中国人民大学信息学院
[3]中国人民大学信息学院
[4]中国人民大学信息学院
年:2015
期刊名称:计算机科学
卷:42
期:6
页码范围:193-203
增刊:增刊
收录情况:中文核心期刊要目总览
所属部门:信息学院
语言:中文
ISSN:1002-137X
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjkx201506042.aspx
DOI:10.11896/j.issn.1002-137X.2015.6.042
人气指数:4
浏览次数:4
基金:国家自然科学基金项目; 软件工程国家重点实验室开放研究基金项目
关键词:数据分布;混合数据分布;相关性;数据分布区域;相关性差异分数
摘要:混合数据分布是指数据分布的不同区域具有不同的特殊分布.例如销售额和地区两个属性之间,在销售额比较低的数值区间中,两者呈现近似相互独立的数据分布;而在销售额比较高的数值区间,二者呈现近似函数依赖的数据分布.现有检测数据相关性的研究专注于给出一个总体的二维相关性的度量,而无法检测出子区域的特殊相关性.在统计分析时,这类具有特殊相关性的子区域有更丰富的统计意义,值得引起重视.研究并提出了存在这类混合数据分布的情况下,检测数据相关性的新方法HY-COCA.该方法在熵相关系数的基础上,缩小了子区域的搜索空间,与Naive方法相比,降低了复杂度;同时HY-COCA还讨论了子区域的相关性差异判别与结果展示等问题.在生成的数据和测试基准数据上进行了实验,结果验证了方法的有效性.
作者其他论文
内存OLAP多核并行查询优化技术研究.焦敏;张延松;王珊,等.计算机学报.2014,1895-1910.
一个基于三元组存储的列式OLAP查询执行引擎.朱阅岸;张延松;周烜,等.软件学报.2014,25(4),753-767.
面向大规模机群的可扩展OLAP查询技术.王会举;覃雄派;王珊,等.计算机学报.2015,38(1),45-58.
内存数据仓库集群技术研究.张延松;王珊;周烜.华东师范大学学报(自然科学版).2014,117-132.
Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP.张宇;张延松;张兵,等.华东师范大学学报(自然科学版).2014,240-251.