(哈尔滨理工大学计算机科学与技术学院 哈尔滨 150080) (lisongbeifen@163.com)
出版日期:
2021-03-01基金资助:
国家自然科学基金项目(61872105);黑龙江省自然科学基金项目(LH2020F047);黑龙江省留学归国人员科学基金项目(LC2018030);黑龙江省教育厅科学技术研究项目(12531z004)Approximate k-Nearest Neighbor Query of High Dimensional Data Based on Dimension Grouping and Reducing
Li Song, Hu Yanming, Hao Xiaohong, Zhang Liping, Hao Zhongxiao(School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080)
Online:
2021-03-01Supported by:
This work was supported by the National Natural Science Foundation of China (61872105), the Natural Science Foundation of Heilongjiang Province of China (LH2020F047), the Scientific Research Foundation for Returned Scholars Abroad of Heilongjiang Province of China (LC2018030), and the Technology Research Project of Heilongjiang Provincial Education Department (12531z004).摘要/Abstract
摘要: 针对现有的高维空间近似k近邻查询算法在数据降维时不考虑维度间关联关系的问题, 首次提出了基于维度间关联规则进行维度分组降维的方法.该方法通过将相关联维度分成一组进行降维来减少数据信息的损失, 同时针对Hash降维后产生的数据偏移问题, 设置了符号位并基于符号位的特性对结果进行精炼; 为提高维度间关联规则挖掘的效率, 提出了一种新的基于UFP-tree的频繁项集挖掘算法.通过将数据映射成二进制编码来进行查询, 有效地提高了近似k近邻查询效率, 同时基于信息熵筛选编码函数, 提高了编码质量; 在查询结果精炼的过程, 基于信息熵对候选集数据的编码位进行权重的动态设定, 通过比较动态加权汉明距离和符号位碰撞次数返回最终近似k近邻结果.理论和实验研究表明, 所提方法能够较好地处理高维空间中近似k近邻查询问题.
参考文献
相关文章 15
[1] | 魏征, 窦禹, 高艳珍, 马捷, 孙凝晖, 邢晶. 一种基于条带的一致性散列数据放置算法[J]. 计算机研究与发展, 2021, 58(4): 888-903. |
[2] | 吴志军, 张入丹, 岳猛. 一种联合检测命名数据网络中攻击的方法[J]. 计算机研究与发展, 2021, 58(3): 569-582. |
[3] | 刘渝, 郭婵, 冯树耀, 周可, 肖志立. 基于语义相似性的跨模态图文内容筛选存储机制研究[J]. 计算机研究与发展, 2021, 58(2): 338-355. |
[4] | 张永, 陈蓉蓉, 张晶. 基于交叉熵的安全Tri-training算法[J]. 计算机研究与发展, 2021, 58(1): 60-69. |
[5] | 朱颖雯, 陈松灿. 基于随机投影的高维数据流聚类[J]. 计算机研究与发展, 2020, 57(8): 1683-1696. |
[6] | 田俊峰, 王彦骉. 一种基于HashGraph的NoSQL型分布式存储因果一致性模型[J]. 计算机研究与发展, 2020, 57(12): 2703-2716. |
[7] | 冯景瑜, 杨锦雯, 张瑞通, 张文波. 抗位置隐私泄露的物联网频谱共享激励机制[J]. 计算机研究与发展, 2020, 57(10): 2209-2220. |
[8] | 张龙,王劲松. SDN中基于信息熵与DNN的DDoS攻击检测模型[J]. 计算机研究与发展, 2019, 56(5): 909-918. |
[9] | 徐明, 范以萌, 蒋昌俊. 基于时变水声信道的物理层密钥生成方案[J]. 计算机研究与发展, 2019, 56(12): 2660-2670. |
[10] | 石乐义,朱红强,刘祎豪,刘佳. 基于相关信息熵和CNN-BiLSTM的工业控制系统入侵检测[J]. 计算机研究与发展, 2019, 56(11): 2330-2338. |
[11] | 游理通,王振杰,黄林鹏. 一个基于日志结构的非易失性内存键值存储系统[J]. 计算机研究与发展, 2018, 55(9): 2038-2049. |
[12] | 陈昱,刘中金,赵威威,马原,石志强,孙利民. 一种大规模的跨平台同源二进制文件检索方法[J]. 计算机研究与发展, 2018, 55(7): 1498-1507. |
[13] | 刘政祎,嵩天. 一种基于HTTP/2协议的隐蔽序列信道方法[J]. 计算机研究与发展, 2018, 55(6): 1157-1166. |
[14] | 姚晟,徐风,赵鹏,纪霞. 基于自适应邻域空间粗糙集模型的直觉模糊熵特征选择[J]. 计算机研究与发展, 2018, 55(4): 802-814. |
[15] | 吴林阳, 罗蓉, 郭雪婷, 郭崎. CPU和DRAM加速任务划分方法:大数据处理中Hash Joins的加速实例[J]. 计算机研究与发展, 2018, 55(2): 289-304. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4390