摘要:知识图谱是人工智能的重要基石,其目前主要有RDF图和属性图两种数据模型,在这两种数据模型之上有数种查询语言.RDF图上的查询语言为SPARQL,属性图上的查询语言主要为Cypher.10年来,各个社区开发了分别针对RDF图和属性图的不同数据管理方法,不统一的数据模型和查询语言限制了知识图谱的更广泛应用.KGDB(knowledge graph database)是统一模型和语言的知识图谱数据库管理系统:(1)以关系模型为基础,提出了统一的存储方案,支持RDF图和属性图的高效存储,满足知识图谱数据存储和查询负载的需求;(2)使用基于特征集的聚类方法解决无类型实体的存储问题;(3)实现了SPARQL和Cypher两种不同知识图谱查询语言的互操作性,使其能够操作同一个知识图谱.在真实数据集与合成数据集上进行的大量实验表明:KGDB与已有的知识图谱数据库管理系统相比,不仅能够提供更加高效的存储管理,而且具有更高的查询效率.KGDB平均比gStore和Neo4j节省了30%的存储空间,基本图模式查询上的实验表明:在真实数据集上的查询速度普遍高于gStore和Neo4j,最快可提高2个数量级.
Abstract:Knowledge graph is an important cornerstone of artificial intelligence, which currently has two main data models: RDF graph and property graph. There are several query languages on these two data models. The query language on RDF graph is SPARQL, and the query language on property graph is mainly Cypher. Over the last decade, various communities have developed different data management methods for RDF graphs and property graphs. Inconsistent data models and query languages hinder the wider application of knowledge graphs. KGDB is a knowledge graph database system with unified data model and query language. (1) Based on the relational model, a unified storage scheme is proposed, which supports the efficient storage of RDF graphs and property graphs, and meets the requirement of knowledge graph data storage and query load. (2) Using the clustering method based on characteristic sets, KGDB can handle the issue of untyped triple storage. (3) It realizes the interoperability of SPARQL and Cypher, which are two different knowledge graph query languages, and enables them to operate on the same knowledge graph. The extensive experiments on real-world datasets and synthetic datasets are carried out. The experimental results show that, compared with the existing knowledge graph database management systems, KGDB can not only provide more efficient storage management, but also has higher query efficiency. KGDB saves 30% of the storage space on average compared with gStore and Neo4j. The experimental results on basic graph pattern matching query show that, for the real-world dataset, the query efficiency of KGDB is generally higher than that of gStore and Neo4j, and can be improved by at most two orders of magnitude.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/6181
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
KGDB:统一模型和语言的知识图谱数据库管理系统
本站小编 Free考研考试/2022-01-02
相关话题/知识 语言 数据 实验 方案
LFKT:学习与遗忘融合的深度知识追踪模型
摘要:知识追踪任务旨在根据学生历史学习行为实时追踪学生知识水平变化,并且预测学生在未来学习表现.在学生学习过程中,学习行为与遗忘行为相互交织,学生的遗忘行为对知识追踪影响很大.为了准确建模知识追踪中学习与遗忘行为,提出一种兼顾学习与遗忘行为的深度知识追踪模型LFKT(learningandforge ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于人工智能方法的数据库智能诊断
摘要:数据库是一种非常重要和基础的计算机系统软件,随着数据库在各行各业的广泛应用,越来越多的人开始关注数据库运行的稳定性.由于各种各样内部或是外部作用的影响,数据库在实际运行的过程中会出现性能异常,而这可能会带来巨大的经济损失.人们大多通过观察监控指标信息来进行数据库异常诊断,但是关于数据库监控指标 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02GPU数据库核心技术综述
摘要:GPU以其超高速计算能力和超大数据处理带宽受到数据库厂商及研究人员的青睐,以GPU计算为核心的数据库分支(GDBMS)蓬勃发展,以其吞吐量大、响应时间短、成本低廉、易于扩展的特点,与人工智能、时空数据分析、数据可视化、商务智能交互融合能力,彻底改变了数据分析领域的格局.将对GDBMS的四大核心 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02数据中心负载均衡方法研究综述
摘要:随着云计算的发展,数据中心网络成为近年来学术界和工业界关注的研究热点.现代数据中心网络通常采用胖树等多根树拓扑结构,存在多条可用路径来提供高对分带宽.由于等价多路径路由等传统的负载均衡方法无法适应数据中心网络中高动态和强突发的流量特性,多种针对数据中心的负载均衡方法不断涌现.围绕数据中心中负载 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02多模态视觉语言表征学习研究综述
摘要:我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于知识的零样本视觉识别综述
摘要:零样本学习旨在通过运用已学到的已知类知识去认知未知类.近年来,“数据+知识驱动”已经成为当下的新潮流,而在计算机视觉领域内的零样本任务中,“知识”本身却缺乏统一明确的定义.针对这种情况,尝试从知识的角度出发,梳理了本领域内“知识”这一概念所覆盖的范畴,共划分为初级知识、抽象知识以及外部知识.基 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向AI的数据管理技术综述
摘要:人工智能技术因其强大的学习和泛化能力已被广泛应用于各种真实场景中.然而,现有的人工智能技术仍然面临着三大挑战:第一,现有的AI技术使用门槛高,依赖于AI从业者选择合适模型、设计合理参数、编写程序,因此很难被广泛应用到非计算机领域;第二,现有的AI算法训练效率低,造成了大量计算资源的浪费,甚至延 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向时序图数据的快速环枚举算法
摘要:时序图数据是一类边上带有时间戳信息的图数据.在时序图数据中,时序环是边满足时间戳递增约束的回路.时序环枚举在现实中有着很多应用,它可以帮助挖掘金融网络中的欺诈行为.此外,研究时序环的数量对于刻画不同时序图的特性也有重要作用.基于2018年由RohitKumar等人提出的时序环枚举算法(2SCE ...中科院软件研究所 本站小编 Free考研考试 2022-01-02可修改的区块链方案
摘要:随着区块链的迅速发展,上链数据不仅包括金融交易数据,还包括科技、文化、政治等多类数据.而在现有的区块链系统中,数据一旦上链便无法更改,可能会面临失效数据无法删除、错误数据无法修改等问题.因此,特定条件下可修改的区块链方案具有广阔的应用前景.在POSpace(proofofspace)共识机制下 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种支持快速加密的基于属性加密方案
摘要:基于属性加密算法因含有大量耗时的指数运算和双线性对运算,一些方案提出将加密外包给云服务器.然而这些方案并没有给出外包加密在云服务器中的并行计算方法,而且还存在用户保管私钥过多、授权中心生成用户私钥成本过大的问题.针对这些问题,提出一种基于Spark大数据平台的快速加密与共享方案.在该方案中,根 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02