混合的大规模数据库自动模式抽象方法
文献类型:会议
作者:王雪[1]
机构:[1]数据工程与知识工程教育部重点实验室(中国人民大学) 北京 100872;中国人民大学信息学院 北京 100872
[2]中国人民大学信息学院 北京 100872
[3]数据工程与知识工程教育部重点实验室(中国人民大学) 北京 100872;中国人民大学信息学院 北京 100872
年:2013
会议名称:第30届中国数据库学术会议
会议论文集:第30届中国数据库学术会议论文集
页码范围:1615-1625
会议地点:哈尔滨
会议开始日期:2013-08-16
所属部门:信息学院;数据工程与知识工程教育部重点实验室
人气指数:1
浏览次数:1
语言:中文
关键词:模式;抽象;大规模数据库;主题组;混合
摘要: 随着数据库规模的扩大,其模式的复杂度也不断地增加,复杂的模式和文档的缺乏使得理解和操作数据库更加困难。现有的模式抽象方法大多通过关系表中的主外键信息查找出模式中最重要的表,然后使用这些最重要的表来构成单层次的模式总结。在现实应用中,这些模式总结的主题并不明确。文中陈述了现有方法的不足,然后给出了一种为大规模数据库生成多层次模式抽象的方法。在此方法中,首先使用不同类型的社区社团检测算法来将数据库模式划分为"团",然后使用元聚类方法将这些"团"集成为数据库的主题组,每一个主题组代表数据库的一个主题。最后将这些主题组进行进一步的聚类以生成主题组类,并为每一个主题组类挑选标签以生成多层次的模式抽象。在Freebase——开源的大规模数据库上验证了文中算法的有效性。实验证明文中算法不仅能够精确地识别大规模数据库的主题,同时可以依据数据库的主题生成易于理解、能够帮助用户浏览和检索数据库的多层次模式抽象。
作者其他论文
内存OLAP多核并行查询优化技术研究.焦敏;张延松;王珊,等.计算机学报.2014,1895-1910.
一个基于三元组存储的列式OLAP查询执行引擎.朱阅岸;张延松;周烜,等.软件学报.2014,25(4),753-767.
面向大规模机群的可扩展OLAP查询技术.王会举;覃雄派;王珊,等.计算机学报.2015,38(1),45-58.
内存数据仓库集群技术研究.张延松;王珊;周烜.华东师范大学学报(自然科学版).2014,117-132.
Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP.张宇;张延松;张兵,等.华东师范大学学报(自然科学版).2014,240-251.