基于HBase和SimHash的大数据K-近邻算法
王婷婷a,b,翟俊海a,b,张明阳a,b*,郝璞a,b河北大学 a. 河北省机器学习与计算智能重点实验室;b. 数学与信息科学学院, 河北 保定 071002
收稿日期:
2017-08-29出版日期:
2018-06-20发布日期:
2017-08-29通讯作者:
翟俊海(1964— ),男,河北易县人,博士,教授,主要研究方向为机器学习与数据挖掘. E-mail: mczjh@126.comE-mail:479064019@qq.com作者简介:
王婷婷(1991— ),女,河北廊坊人,硕士研究生,主要研究方向为云计算与大数据处理. E-mail:479064019@qq.com基金资助:
河北省自然科学基金资助项目(F2017201026);河北大学自然科学研究计划资助项目(799207217071);河北大学研究生创新资助项目(X2016059)资助K-NN algorithm for big data based on HBase and SimHash
WANG Tingtinga,b, ZHAI Junhaia,b*, ZHANG Mingyanga,b, HAO Pua,ba. Key Lab. of Machine Learning and Computational Intelligence;
b. College of Mathematics and Information Science, Hebei University, Baoding 071002, Hebei, China
Received:
2017-08-29Online:
2018-06-20Published:
2017-08-29摘要/Abstract
摘要: 针对大数据K-近邻(K-nearest neighbors, K-NN)计算复杂度高的问题,提出一种基于HBase和SimHash的大数据K-近邻分类算法。利用SimHash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBase数据库中,行健(rowkey)为样例的哈希签名值,值(value)为样例的类别;对于测试样例,以其哈希签名值作为健rowkey,从HBase数据库中获取所有样例的value,通过对这些values进行多数投票,即可以得到测试样例的类别。与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较。试验结果显示,在保持分类能力的前提下,提出的算法的运行时间远远低于其他两种方法。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1736