删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于符号语义的不完整数据聚集查询处理算法

本站小编 Free考研考试/2022-01-02

摘要:研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果有很大概率在该估计区间范围内.给出了线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了所提方法的有效性.



Abstract:This work studies the problem of aggregate query processing over incomplete data based on denotational semantics. Incomplete data is also known as missing values and can be classified into two categories:applicable nulls and inapplicable nulls. Existing imputation algorithms cannot guarantee the accuracy of the query result after imputation. The interval estimation of the aggregate query result is given. This study extends the relational model under the denotational semantic, which can cover all types of incomplete data. A new semantic of aggregate query answers over incomplete data is defined. Reliable answers are interval estimations of the ground-truth query results, which can cover the ground-truth results with high probability. For SUM, COUNT, and AVG queries, linear approximate evaluation algorithms are proposed to compute reliable answers. The extended experiments on the real datasets and synthetic datasets verify the effectiveness of the method proposed in this study.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5876
相关话题/数据 数据库 概率 实验 缺失

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 用户可动态撤销及数据可实时更新的云审计方案
    摘要:随着云存储的出现,越来越多的用户选择将大量数据存储在远程云服务器上,以节约本地存储资源.如何验证用户远程存储在云端数据的完整性,成为近年来学术界的一个研究热点.虽然现已提出了很多云审计方案,但大多数方案都假设个人和企业在使用云存储系统的整个过程中,用户及其公私钥始终不变,且不能高效地对数据进行 ...
    本站小编 Free考研考试 2022-01-02
  • 大数据实时交互式分析
    摘要:实时交互式分析针对多目标和多角度的分析任务,通过多轮次的用户-数据库交互过程,逐步明确分析任务与分析目标,全方位地了解相关领域信息,最终得到科学的、全面的分析结果.相比传统数据库“提交查询-返回结果”的单轮次交互查询方式,实时交互式分析更强调交互的实时性与查询结果的时效性.对实时交互式分析的研 ...
    本站小编 Free考研考试 2022-01-02
  • 一种面向中小规模数据集的模糊分类方法
    摘要:虽然Takagi-Sugeno-Kang(TSK)模糊分类器在一些重要场合已经取得了广泛应用,但如何提高其分类性能和增强其可解释性,仍然是目前的研究热点.提出一种随机划分与组合特征且规则具有高可解释性的深度TSK模糊分类器(RCC-DTSK-C),但和其他分类器构造不同的是:(1)RCC-DT ...
    本站小编 Free考研考试 2022-01-02
  • 节点不对称转移概率的网络社区发现算法
    摘要:社区发现是当前社会网络研究领域的一个热点和难点,现有的研究方法包括:(1)优化以网络拓扑结构为基础的社区质量指标;(2)评估节点间的相似性并进行聚类;(3)根据特定网络设计相应的社区模型等.这些方法存在如下问题:(1)通用性不高,难以同时在无向网络和有向网络上发挥出好的效果;(2)无法充分利用 ...
    本站小编 Free考研考试 2022-01-02
  • 联合Laplacian正则项和特征自适应的数据聚类算法
    摘要:在信息爆炸时代,大数据处理已成为当前国内外热点研究方向之一.谱分析型算法因其特有的性能而获得了广泛的应用,然而受维数灾难影响,主流的谱分析法对高维数据的处理仍是一个极具挑战的问题.提出一种兼顾维数特征优选和图Laplacian约束的聚类模型,即联合拉普拉斯正则项和自适应特征学习(jointLa ...
    本站小编 Free考研考试 2022-01-02
  • 使用共享变量分析和约束求解检测安卓应用数据竞争
    摘要:安卓系统在移动端操作系统始终占据主导地位,在增强用户体验和提高程序性能的同时,其特有的事件驱动模型和多线程模型也造成了并发缺陷.并发程序中,线程调度的不确定性和难以再现性是并发缺陷检测困难的原因.现有技术主要在动态生成执行路径的基础上进行发生序(happens-before)分析,进而检测安卓 ...
    本站小编 Free考研考试 2022-01-02
  • 基于噪声数据与干净数据的深度置信网络
    摘要:建立以受限玻尔兹曼机(restrictedBoltzmannmachine,简称RBM)为基石的深度网络模型,是深度学习研究的热点领域之一.Point-wiseGated受限玻尔兹曼机(point-wisegatedRBM,简称pgRBM)是一种RBM的变种算法.该算法能够在含噪声的数据中自适 ...
    本站小编 Free考研考试 2022-01-02
  • 分布式数据库下基于剪枝的并行合并连接策略
    摘要:排序合并连接是数据库系统一种重要的连接实现方式,比哈希连接有更广泛的应用.分布式环境下,数据分片、分布存储,面对昂贵的网络代价,进行高效排序合并连接的挑战巨大.传统策略首先针对连接数据进行排序,然后基于排好序的数据执行合并连接.这两部分操作均基于原始数据进行操作,通常情况下,原始连接数据存在无 ...
    本站小编 Free考研考试 2022-01-02
  • 多用户眼动跟踪数据的可视化共享与协同交互
    摘要:随着数字图像处理技术的发展,以及计算机支持的协同工作研究的深入,眼动跟踪开始应用于多用户协同交互.但是已有的眼动跟踪技术主要针对单个用户,多用户眼动跟踪计算架构不成熟、标定过程复杂,眼动跟踪数据的记录、传输以及可视化共享机制都有待深入研究.为此,建立了基于梯度优化的协同标定模型,简化多用户的眼 ...
    本站小编 Free考研考试 2022-01-02
  • 区块链数据管理专题前言
    摘要:近几十年来,数据管理技术取得了飞速发展并在很多重要领域广泛应用.传统的数据库管理系统(包括分布式数据库)往往由单一机构进行管理和维护,该机构对整个数据库具有最高权限.这种模式并不适用于由非完全互信的多个机构共同管理数据,在互联网应用环境中该问题尤为突出.区块链作为一种去中心化、不可篡改、可追溯 ...
    本站小编 Free考研考试 2022-01-02