删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于维度分组降维的高维数据近似k近邻查询

本站小编 Free考研考试/2022-01-01

李松,胡晏铭,郝晓红,张丽平,郝忠孝
(哈尔滨理工大学计算机科学与技术学院 哈尔滨 150080) (lisongbeifen@163.com)
出版日期: 2021-03-01


基金资助:国家自然科学基金项目(61872105);黑龙江省自然科学基金项目(LH2020F047);黑龙江省留学归国人员科学基金项目(LC2018030);黑龙江省教育厅科学技术研究项目(12531z004)

Approximate k-Nearest Neighbor Query of High Dimensional Data Based on Dimension Grouping and Reducing

Li Song, Hu Yanming, Hao Xiaohong, Zhang Liping, Hao Zhongxiao
(School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080)
Online: 2021-03-01


Supported by:This work was supported by the National Natural Science Foundation of China (61872105), the Natural Science Foundation of Heilongjiang Province of China (LH2020F047), the Scientific Research Foundation for Returned Scholars Abroad of Heilongjiang Province of China (LC2018030), and the Technology Research Project of Heilongjiang Provincial Education Department (12531z004).




摘要/Abstract


摘要: 针对现有的高维空间近似k近邻查询算法在数据降维时不考虑维度间关联关系的问题, 首次提出了基于维度间关联规则进行维度分组降维的方法.该方法通过将相关联维度分成一组进行降维来减少数据信息的损失, 同时针对Hash降维后产生的数据偏移问题, 设置了符号位并基于符号位的特性对结果进行精炼; 为提高维度间关联规则挖掘的效率, 提出了一种新的基于UFP-tree的频繁项集挖掘算法.通过将数据映射成二进制编码来进行查询, 有效地提高了近似k近邻查询效率, 同时基于信息熵筛选编码函数, 提高了编码质量; 在查询结果精炼的过程, 基于信息熵对候选集数据的编码位进行权重的动态设定, 通过比较动态加权汉明距离和符号位碰撞次数返回最终近似k近邻结果.理论和实验研究表明, 所提方法能够较好地处理高维空间中近似k近邻查询问题.






[1]魏征, 窦禹, 高艳珍, 马捷, 孙凝晖, 邢晶. 一种基于条带的一致性散列数据放置算法[J]. 计算机研究与发展, 2021, 58(4): 888-903.
[2]吴志军, 张入丹, 岳猛. 一种联合检测命名数据网络中攻击的方法[J]. 计算机研究与发展, 2021, 58(3): 569-582.
[3]刘渝, 郭婵, 冯树耀, 周可, 肖志立. 基于语义相似性的跨模态图文内容筛选存储机制研究[J]. 计算机研究与发展, 2021, 58(2): 338-355.
[4]张永, 陈蓉蓉, 张晶. 基于交叉熵的安全Tri-training算法[J]. 计算机研究与发展, 2021, 58(1): 60-69.
[5]朱颖雯, 陈松灿. 基于随机投影的高维数据流聚类[J]. 计算机研究与发展, 2020, 57(8): 1683-1696.
[6]田俊峰, 王彦骉. 一种基于HashGraph的NoSQL型分布式存储因果一致性模型[J]. 计算机研究与发展, 2020, 57(12): 2703-2716.
[7]冯景瑜, 杨锦雯, 张瑞通, 张文波. 抗位置隐私泄露的物联网频谱共享激励机制[J]. 计算机研究与发展, 2020, 57(10): 2209-2220.
[8]张龙,王劲松. SDN中基于信息熵与DNN的DDoS攻击检测模型[J]. 计算机研究与发展, 2019, 56(5): 909-918.
[9]徐明, 范以萌, 蒋昌俊. 基于时变水声信道的物理层密钥生成方案[J]. 计算机研究与发展, 2019, 56(12): 2660-2670.
[10]石乐义,朱红强,刘祎豪,刘佳. 基于相关信息熵和CNN-BiLSTM的工业控制系统入侵检测[J]. 计算机研究与发展, 2019, 56(11): 2330-2338.
[11]游理通,王振杰,黄林鹏. 一个基于日志结构的非易失性内存键值存储系统[J]. 计算机研究与发展, 2018, 55(9): 2038-2049.
[12]陈昱,刘中金,赵威威,马原,石志强,孙利民. 一种大规模的跨平台同源二进制文件检索方法[J]. 计算机研究与发展, 2018, 55(7): 1498-1507.
[13]刘政祎,嵩天. 一种基于HTTP/2协议的隐蔽序列信道方法[J]. 计算机研究与发展, 2018, 55(6): 1157-1166.
[14]姚晟,徐风,赵鹏,纪霞. 基于自适应邻域空间粗糙集模型的直觉模糊熵特征选择[J]. 计算机研究与发展, 2018, 55(4): 802-814.
[15]吴林阳, 罗蓉, 郭雪婷, 郭崎. CPU和DRAM加速任务划分方法:大数据处理中Hash Joins的加速实例[J]. 计算机研究与发展, 2018, 55(2): 289-304.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4390
相关话题/计算机 数据 信息 空间 系统

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于直方图的隐私键-值数据收集算法
    张啸剑1,徐雅鑫1,付楠1,孟小峰21(河南财经政法大学计算机与信息工程学院郑州450002);2(中国人民大学信息学院北京100872)(xjzhang82@ruc.edu.cn)出版日期:2021-03-01基金资助:国家自然科学基金项目(61502146,91646203,91746115,6 ...
    本站小编 Free考研考试 2022-01-01
  • 面向理想性能空间的跨架构编译分析方法
    赖庆宽1,3,吕方1,2,贺春林4,何先波4,冯晓兵1,2,31(计算机体系结构国家重点实验室(中国科学院计算技术研究所)北京100190);2(中国科学院计算技术研究所北京100190);3(中国科学院大学北京100049);4(西华师范大学计算机学院四川南充637009)出版日期:2021-03 ...
    本站小编 Free考研考试 2022-01-01
  • 基于区块链的数据透明化:问题与挑战
    孟小峰1,刘立新1,21(中国人民大学信息学院北京100872);2(内蒙古科技大学信息工程学院内蒙古包头014010)(xfmeng@ruc.edu.cn)出版日期:2021-02-01基金资助:国家自然科学基金项目(91646203,61941121,61532010,91846204,6153 ...
    本站小编 Free考研考试 2022-01-01
  • 数据治理与数据透明专题前言
    孟小峰1,冯登国21(中国人民大学北京100872);2(中国科学院软件研究所北京100190)出版日期:2021-02-01Online:2021-02-01摘要/Abstract摘要:2020年4月,中共中央国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,提出要加快培育数据要素市场 ...
    本站小编 Free考研考试 2022-01-01
  • 基于社会新闻数据集的伦理行为判别方法
    古天龙1,冯旋1,李龙1,2,包旭光1,李云辉11(广西可信软件重点实验室(桂林电子科技大学)广西桂林541004);2(暨南大学信息科学技术学院/网络空间安全学院广州510632)(gu@guet.edu.cn)出版日期:2021-02-01基金资助:国家自然科学基金项目(U1711263,U18 ...
    本站小编 Free考研考试 2022-01-01
  • 基于多级网络编码的多副本云数据存储
    徐光伟,史春红,冯向阳,罗辛,石秀金,韩松桦,李玮(东华大学计算机科学与技术学院上海201620)(gwxu@dhu.edu.cn)出版日期:2021-02-01基金资助:国家自然科学基金项目(61772018,61772128);上海市自然科学基金项目(19ZR1402000,17ZR140020 ...
    本站小编 Free考研考试 2022-01-01
  • 大数据时代的存储系统与智能存储技术专题前言
    舒继1,王意洁2,吴晨涛31(清华大学北京100084);2(国防科技大学长沙410072);3(上海交通大学上海200240)出版日期:2021-02-01Online:2021-02-01摘要/Abstract摘要:随着大数据时代的到来,各领域的数据呈现出爆炸式增长态势,数据资源得到了各行各业的 ...
    本站小编 Free考研考试 2022-01-01
  • 面向跨数据中心网络的节点约束存储转发调度方法
    林霄1,姬硕1,岳胜男2,孙卫强2,胡卫生21(福州大学物理与信息工程学院福州350116);2(区域光纤通信网与新型光通信系统国家重点实验室(上海交通大学)上海200240)(linxiaocer@fzu.edu.cn)出版日期:2021-02-01基金资助:国家自然科学基金青年科学基金项目(61 ...
    本站小编 Free考研考试 2022-01-01
  • 基于蚁群优化算法的纠删码存储系统数据更新方案
    李乾,胡玉鹏,叶振宇,肖叶,秦拯(湖南大学信息科学与工程学院长沙410082)(qianli160@hnu.edu.cn)出版日期:2021-02-01基金资助:国家自然科学基金项目(61872130,61572181);湖南省交通厅科技项目(201928);长沙市重点研发计划项目(kq190710 ...
    本站小编 Free考研考试 2022-01-01
  • 一种基于RDMA多播机制的分布式持久性内存文件系统
    陈茂棠1,郑圣安2,游理通1,王晶钰1,闫田1,屠要峰3,韩银俊3,黄林鹏11(上海交通大学计算机科学与工程系上海200240);2(清华大学计算机科学与技术系北京100084);3(中兴通讯股份有限公司南京210012)(chenmaotang@sjtu.edu.cn)出版日期:2021-02-0 ...
    本站小编 Free考研考试 2022-01-01