删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向企业数据孤岛的联邦排序学习

本站小编 Free考研考试/2022-01-02

摘要:排序学习(learning-to-rank,简称LTR)模型在信息检索领域取得了显著成果,而该模型的传统训练方法需要收集大规模文本数据.然而,随着数据隐私保护日渐受到人们重视,从多个数据拥有者(如企业)手中收集数据训练排序学习模型的方式变得不可行.各企业之间数据被迫独立存储,形成了数据孤岛.由于排序模型训练需要使用查询记录、文档等诸多隐私信息,数据孤岛难以融合打通,这制约了排序学习模型的训练.联邦学习能够让多数据拥有方在隐私保护的前提下联合训练模型,是一种打通数据孤岛的新方法.在其启发下,提出了一种新的框架,即面向企业数据孤岛的联邦排序学习,它同时解决了联邦学习场景下排序学习所面临的两大挑战,即交叉特征生成与缺失标签处理.为了应对多方交叉特征的生成问题,使用了一种基于略图(sketch)数据结构与差分隐私的方法,其相比于传统加密方法具有更高的效率,同时还具有隐私性与结果精度的理论保证.为了应对缺失标签问题,提出了一种新的联邦半监督学习方法.最终,通过在公开数据集上的大量实验,验证了所提方法的有效性.



Abstract:Learning-to-rank (LTR) model has made a remarkable achievement. However, traditional training scheme for LTR model requires large amount of text data. Considering the increasing concerns about privacy protection, it is becoming infeasible to collect text data from multiple data owners as before, and thus data is forced to save separately. The separation turns data owners into data silos, among which the data can hardly exchange, causing LTR training severely compromised. Inspired by the recent progress in federated learning, a novel framework is proposed named cross-silo federated learning-to-rank (CS-F-LTR), which addresses two unique challenges faced by LTR when applied it to federated scenario. In order to deal with the cross-party feature generation problem, CS-F-LTR utilizes a sketch and differential privacy based method, which is much more efficient than encryption-based protocols meanwhile the accuracy loss is still guaranteed. To tackle with the missing label problem, CS-F-LTR relies on a semi-supervised learning mechanism that facilitates fast labeling with mutual labelers. Extensive experiments conducted on public datasets verify the effectiveness of the proposed framework.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/6174
相关话题/数据 数据结构 实验 信息 模型

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 多区间速度约束下的时序数据清洗方法
    摘要:为进一步优化推广大数据及人工智能技术,作为数据管理与分析的基础,数据质量问题日益成为相关领域的研究热点.通常情况下,数据采集及记录仪的物理故障或技术缺陷等会导致收集到的数据存在一定的错误,而异常错误会对后续的数据分析以及人工智能过程产生不可小视的影响,因此在数据应用之前,需要对数据进行相应的数 ...
    本站小编 Free考研考试 2022-01-02
  • 面向时空图建模的图小波卷积神经网络模型
    摘要:时空图建模是分析图形结构系统中各要素空间关系与时间趋势的一个基础工作.传统的时空图建模方法主要基于图中节点与节点关系固定的显式结构进行空间关系挖掘,这严重限制了模型的灵活性.此外,未考虑节点间的时空依赖关系的传统建模方法不能捕获节点间的长时时空趋势.为了克服这些缺陷,研究并提出了一种新的用于时 ...
    本站小编 Free考研考试 2022-01-02
  • KGDB:统一模型和语言的知识图谱数据库管理系统
    摘要:知识图谱是人工智能的重要基石,其目前主要有RDF图和属性图两种数据模型,在这两种数据模型之上有数种查询语言.RDF图上的查询语言为SPARQL,属性图上的查询语言主要为Cypher.10年来,各个社区开发了分别针对RDF图和属性图的不同数据管理方法,不统一的数据模型和查询语言限制了知识图谱的更 ...
    本站小编 Free考研考试 2022-01-02
  • PandaDB:一种异构数据智能融合管理系统
    摘要:随着大数据应用的不断深入,对大规模结构化/非结构化数据进行融合管理和分析的需求日益凸显.然而,结构化/非结构化数据在存储管理方式、信息获取方式、检索方式方面的差异给融合管理和分析带来了技术挑战.提出了适用于异构数据融合管理和语义计算的属性图扩展模型,并定义了相关属性操作符和查询语法.接着,基于 ...
    本站小编 Free考研考试 2022-01-02
  • 用于表格事实检测的图神经网络模型
    摘要:在自然语言理解和语义表征的研究中,往往需要验证一句文本陈述是否基于给定的事实证据,这就是事实检测任务.现有的研究主要局限于处理文本事实验证,而结构化证据下的验证还有待探索,比如基于表格等形式的事实验证.TabFact作为最新的基于表格的事实验证数据集,基线方法并没有很好地利用表格的结构性特征. ...
    本站小编 Free考研考试 2022-01-02
  • LFKT:学习与遗忘融合的深度知识追踪模型
    摘要:知识追踪任务旨在根据学生历史学习行为实时追踪学生知识水平变化,并且预测学生在未来学习表现.在学生学习过程中,学习行为与遗忘行为相互交织,学生的遗忘行为对知识追踪影响很大.为了准确建模知识追踪中学习与遗忘行为,提出一种兼顾学习与遗忘行为的深度知识追踪模型LFKT(learningandforge ...
    本站小编 Free考研考试 2022-01-02
  • 基于Seq2Seq模型的SparQL查询预测
    摘要:近年来,随着以数据为中心的应用大量增加,图数据模型逐渐被人们所关注,图数据库的发展也非常迅速,对于用户而言,往往更关心其在使用数据库过程中的效率问题.主要研究如何利用已有的信息进行图数据库的查询预测,从而进行数据的预加载与缓存,提高系统的响应效率.为了使得方法具有跨数据移植性,并深入挖掘数据间 ...
    本站小编 Free考研考试 2022-01-02
  • 基于人工智能方法的数据库智能诊断
    摘要:数据库是一种非常重要和基础的计算机系统软件,随着数据库在各行各业的广泛应用,越来越多的人开始关注数据库运行的稳定性.由于各种各样内部或是外部作用的影响,数据库在实际运行的过程中会出现性能异常,而这可能会带来巨大的经济损失.人们大多通过观察监控指标信息来进行数据库异常诊断,但是关于数据库监控指标 ...
    本站小编 Free考研考试 2022-01-02
  • 基于信息检索的软件缺陷定位方法综述
    摘要:基于信息检索的软件缺陷定位方法是当前软件缺陷定位领域中的一个研究热点.该方法主要分析缺陷报告文本和程序模块代码,通过计算缺陷报告和程序模块间的相似度,选取与缺陷报告相似度最高的若干程序模块,将其推荐给开发人员.对近些年国内外研究人员在该综述主题上取得的成果进行了系统的梳理和总结.首先,给出研究 ...
    本站小编 Free考研考试 2022-01-02
  • GPU数据库核心技术综述
    摘要:GPU以其超高速计算能力和超大数据处理带宽受到数据库厂商及研究人员的青睐,以GPU计算为核心的数据库分支(GDBMS)蓬勃发展,以其吞吐量大、响应时间短、成本低廉、易于扩展的特点,与人工智能、时空数据分析、数据可视化、商务智能交互融合能力,彻底改变了数据分析领域的格局.将对GDBMS的四大核心 ...
    本站小编 Free考研考试 2022-01-02