删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于CPU-GPU异构体系结构的并行字符串相似性连接方法

本站小编 Free考研考试/2022-01-01

徐坤浩,聂铁铮,申德荣,寇月,于戈
(东北大学计算机科学与工程学院 沈阳 110169) (xukunhao725@163.com)
出版日期: 2021-03-01


基金资助:国家重点研发计划项目(2018YFB1003404);国家自然科学基金项目(U1811261, 61672142)

Parallel String Similarity Join Approach Based on CPU-GPU Heterogeneous Architecture

Xu Kunhao, Nie Tiezheng, Shen Derong, Kou Yue, Yu Ge
(School of Computer Science and Engineering, Northeastern University, Shenyang 110169)
Online: 2021-03-01


Supported by:This work was supported by the National Key Research and Development Program of China (2018YFB1003404) and the National Natural Science Foundation of China (U1811261, 61672142).




摘要/Abstract


摘要: 相似性连接技术在数据清洗、数据集成等领域中具有重要意义, 近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性的要求逐渐提高以及处理器性能提升瓶颈的出现, 传统的串行相似性连接方法已经不能满足当前大数据处理的需求.近些年, GPU作为协处理器在机器学习等领域取得了良好的加速效果, 因此基于GPU的并行算法开始成为解决各类性能问题的有效解决方案.为此, 提出了基于CPU-GPU异构体系的并行相似性连接方法.首先, 方法使用GPU构建倒排索引, 索引采用SoA(struct of arrays)结构, 从而解决了传统索引结构在并行模式下读写效率低的问题.其次, 针对串行算法的性能问题, 提出基于过滤验证框架的并行双重长度过滤算法, 其中利用前缀过滤和构建好的倒排索引提升过滤效果.方法中相似度精确计算验证过程使用CPU计算执行, 从而充分利用CPU-GPU的异构计算资源.最后, 在多个数据集上进行实验验证性能.通过与串行相似性连接算法进行对比, 实验结果表明所提出方法相对于已有方法具有更好的过滤效果和更低的索引生成代价, 并在相似性连接上具有更好的性能和良好的加速比.






[1]张振国,王超,温延龙,袁晓洁. 基于相似性连接的时间序列Shapelets提取[J]. 计算机研究与发展, 2019, 56(3): 594-610.
[2]惠榛,冯登国,张敏,洪澄. 一种可抵抗统计攻击的安全索引[J]. 计算机研究与发展, 2017, 54(2): 295-304.
[3]闫宏飞,旭东,单栋栋,毛先领,赵鑫. 基于指令级并行的倒排索引压缩算法[J]. 计算机研究与发展, 2015, 52(5): 995-1004.
[4]汤文,张春明,谭光明,张佩珩,孙凝晖. 基于定制协处理器的基因重测序加速技术研究[J]. 计算机研究与发展, 2014, 51(9): 1980-1992.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4389
相关话题/数据 计算机 计算 结构 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于维度分组降维的高维数据近似k近邻查询
    李松,胡晏铭,郝晓红,张丽平,郝忠孝(哈尔滨理工大学计算机科学与技术学院哈尔滨150080)(lisongbeifen@163.com)出版日期:2021-03-01基金资助:国家自然科学基金项目(61872105);黑龙江省自然科学基金项目(LH2020F047);黑龙江省留学归国人员科学基金项目 ...
    本站小编 Free考研考试 2022-01-01
  • 基于直方图的隐私键-值数据收集算法
    张啸剑1,徐雅鑫1,付楠1,孟小峰21(河南财经政法大学计算机与信息工程学院郑州450002);2(中国人民大学信息学院北京100872)(xjzhang82@ruc.edu.cn)出版日期:2021-03-01基金资助:国家自然科学基金项目(61502146,91646203,91746115,6 ...
    本站小编 Free考研考试 2022-01-01
  • 基于区块链的数据透明化:问题与挑战
    孟小峰1,刘立新1,21(中国人民大学信息学院北京100872);2(内蒙古科技大学信息工程学院内蒙古包头014010)(xfmeng@ruc.edu.cn)出版日期:2021-02-01基金资助:国家自然科学基金项目(91646203,61941121,61532010,91846204,6153 ...
    本站小编 Free考研考试 2022-01-01
  • 数据治理与数据透明专题前言
    孟小峰1,冯登国21(中国人民大学北京100872);2(中国科学院软件研究所北京100190)出版日期:2021-02-01Online:2021-02-01摘要/Abstract摘要:2020年4月,中共中央国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,提出要加快培育数据要素市场 ...
    本站小编 Free考研考试 2022-01-01
  • 基于社会新闻数据集的伦理行为判别方法
    古天龙1,冯旋1,李龙1,2,包旭光1,李云辉11(广西可信软件重点实验室(桂林电子科技大学)广西桂林541004);2(暨南大学信息科学技术学院/网络空间安全学院广州510632)(gu@guet.edu.cn)出版日期:2021-02-01基金资助:国家自然科学基金项目(U1711263,U18 ...
    本站小编 Free考研考试 2022-01-01
  • 基于多级网络编码的多副本云数据存储
    徐光伟,史春红,冯向阳,罗辛,石秀金,韩松桦,李玮(东华大学计算机科学与技术学院上海201620)(gwxu@dhu.edu.cn)出版日期:2021-02-01基金资助:国家自然科学基金项目(61772018,61772128);上海市自然科学基金项目(19ZR1402000,17ZR140020 ...
    本站小编 Free考研考试 2022-01-01
  • 大数据时代的存储系统与智能存储技术专题前言
    舒继1,王意洁2,吴晨涛31(清华大学北京100084);2(国防科技大学长沙410072);3(上海交通大学上海200240)出版日期:2021-02-01Online:2021-02-01摘要/Abstract摘要:随着大数据时代的到来,各领域的数据呈现出爆炸式增长态势,数据资源得到了各行各业的 ...
    本站小编 Free考研考试 2022-01-01
  • 面向跨数据中心网络的节点约束存储转发调度方法
    林霄1,姬硕1,岳胜男2,孙卫强2,胡卫生21(福州大学物理与信息工程学院福州350116);2(区域光纤通信网与新型光通信系统国家重点实验室(上海交通大学)上海200240)(linxiaocer@fzu.edu.cn)出版日期:2021-02-01基金资助:国家自然科学基金青年科学基金项目(61 ...
    本站小编 Free考研考试 2022-01-01
  • 基于蚁群优化算法的纠删码存储系统数据更新方案
    李乾,胡玉鹏,叶振宇,肖叶,秦拯(湖南大学信息科学与工程学院长沙410082)(qianli160@hnu.edu.cn)出版日期:2021-02-01基金资助:国家自然科学基金项目(61872130,61572181);湖南省交通厅科技项目(201928);长沙市重点研发计划项目(kq190710 ...
    本站小编 Free考研考试 2022-01-01
  • 基于XDR数据分析的OTT视频服务感知质量评估方法
    黄鹂声1,冉金也1,罗静1,张翔引21(电子科技大学计算机科学与工程学院成都611731);2(电子科技大学航空航天学院成都611731)(lsh@uestc.edu.cn)出版日期:2021-02-01基金资助:国家重点研发计划项目(2018YFB0804505);国家电网公司科学技术项目(522 ...
    本站小编 Free考研考试 2022-01-01