基于Spark的大规模语义规则后向链推理系统

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-01-02

摘要近年来,语义网数据快速增长,适合于处理静态小规模语义数据的前向链语义推理技术暴露出了需对数据进行频繁更新等问题。面对大规模动态语义网数据,对数据更新不敏感的后向链语义推理开始成为新的研究热点。后向链语义推理由查询目标驱动,在查询时根据规则集推理出查询结果。后向链语义推理具有推理过程复杂、规则扩展深度大等特点,在大规模语义数据上推理的效率和可扩展性上有一定的挑战。该文立足于已有的后向链推理技术,详细分析了语义推理规则集的特点,并结合当前主流的大数据处理平台Spark,设计了一套较为高效并且可扩展的大规模并行化语义规则后向链推理系统。该文的主要研究工作分为三个部分: (1)采用预计算本体数据闭包的方法,避免了本体模式在实时推理阶段的重复推理; (2)在后向链语义推理的逆向推理和查询阶段设计了优化措施,进一步提高了推理效率; (3)设计实现了一种基于Spark平台的大规模分布式RDFS/OWL后向链语义推理系统。实验数据显示,该文提出的RDFS/OWL后向链语义推理系统在合成数据集LUBM和真实数据集DBpedia上都表现出了良好的推理性能,在亿条三元组上的推理开销是几秒到几十秒,并且表现出了良好的数据可扩展性和节点可扩展性。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2541

相关话题/数据 设计 系统 技术 语义

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
汉语的语素概念提取与语义构词分析
摘要作为基础的表义单位,语素及此上的构词分析,既是汉语作为意合语言进行语义分析的起点,也是认知、理解词义的关键。该文提出了一种探寻汉语语义基元和分析词义的新的视角和方法:基于语素义相似度计算形成“同义语素集”,用来表征“语素概念”,并借鉴生成词库理论形成“语素概念体系”;建立在此基础上的汉语语义构词 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于深度神经网络的语义角色标注
摘要该文提出了一个基于多层长短期记忆神经网络的语义角色标注方法,并装置了新颖的“直梯单元”(elevatorunit,EU)。EU包含了对单元内部输入和输出的线性连接,使信息可以通畅地在不同层之间传播。通过EU,一个20层的LSTM网络可以得到比较充分的优化。重要的是,这个线性连接包含的“门”函数可 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于带约束语义文法的领域相关自然语言理解方法
摘要开放域问答系统通常可以借助一些数据冗余方法来提高问答准确性,而对于缺乏大规模领域语料的领域相关问答系统来说,准确理解用户的意图成为这类系统的关键。该文首先定义了一种带约束语义文法,与本体等语义资源相结合,可以在词汇级、句法级、语义级对自然语言句子的解析过程进行约束,解决自然语言理解歧义问题;然后 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
开放域上基于深度语义计算的复述模板获取方法
摘要利用实体关系从网络大规模单语语料获取复述模板的方法可以规避对单语平行语料或可比语料的依赖,但是后期需要人工对有语义差异的关系模板分类后获取复述模板。针对这一遗留问题,该文提出基于深度语义计算的复述模板自动获取方法,首先设计基于统计特征的模板裁剪方法,从非复述语料中获取高质量的关系模板,然后设计基 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于知识库的汉语未登录词语义预测
摘要该文基于知识库的语素构词知识,采用了分阶段的算法自动预测未登录词的语素构词知识,以此实现对未登录词的语义预测。基本思路是通过语素义组合或语素义类组合的匹配,先预测语义层面的知识,再确定相应语素项,最终获得未登录词多层面的语素构词知识。该算法简单、直观、合理,在首素性类、首素义类、首素义、尾素性类 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
MHW蒙古文脱机手写数据库及其应用
摘要建立公开、权威的蒙古文手写数据库是研究和开发蒙古文手写识别系统的基础。该文在蒙古文编码、构词和语法的研究基础上,公开了一个蒙古文大词汇量脱机手写数据库MHW,其中训练集由5000个单词构成,每个词采集了20个样本,共包含10万样本,测试集Ⅰ包含5000样本,测试集Ⅱ包含14085样本。该文利用蒙 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
全委托的公共可验证的外包数据库方案
摘要:为解决可验证外包数据库方案存在的预处理阶段开销较大及不支持公共可验证的问题，提出了一个全委托的公共可验证的外包数据库模型.给出了模型的架构及交互流程，对模型进行了形式化定义，并给出了模型的正确性定义和安全性定义.利用双线性映射及可验证外包模幂运算协议，构建了一个全委托的公共可验证外包数据库方案 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于动态赋权近邻传播的数据增量采样方法
摘要:数据采样是快速提取大规模数据集中有用信息的重要手段，为更好地应对越来越大规模的数据高效处理要求，借助近邻传播算法的优异性能，通过引入分层增量处理和样本点动态赋权策略，实现了一种能够非常有效地平衡处理效率和采样质量的新方法.其中的分层增量处理策略考虑将原始的大规模数据集进行分批处理后再综合；而样 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
面向数据特征的人机物融合服务分派方法
摘要:随着工业互联网的不断发展，大数据和人工智能促成了人机物全面互联.用户使用服务时产生的任务数据量正呈指数级增长，在为线上用户推荐服务满足个性化需求的同时，对于需要通过人机物交互完成的服务，如何整合线上和线下资源，并分派合适的人快速、有效地完成任务，也已成为一个挑战性问题.为了保证服务分派的准确性 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
噪音数据的属性选择算法
摘要:正则化属性选择算法减小噪音数据影响的效果不佳，而且样本空间的局部结构几乎没有被考虑，在将样本映射到属性子空间后，样本之间的联系与原空间不一致，导致数据挖掘算法的效果不能令人满意.提出一个抗噪音属性选择方法，可以有效地解决传统算法的这两个缺陷.该方法首先采用自步学习的训练方式，这不仅能大幅度降低 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02