删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于HBase和SimHash的大数据K-近邻算法

本站小编 Free考研考试/2022-02-06

基于HBase和SimHash的大数据K-近邻算法

王婷婷a,b,翟俊海a,b,张明阳a,b*,郝璞a,b
河北大学 a. 河北省机器学习与计算智能重点实验室;b. 数学与信息科学学院, 河北 保定 071002
收稿日期:2017-08-29出版日期:2018-06-20发布日期:2017-08-29
通讯作者:翟俊海(1964— ),男,河北易县人,博士,教授,主要研究方向为机器学习与数据挖掘. E-mail: mczjh@126.comE-mail:479064019@qq.com
作者简介:王婷婷(1991— ),女,河北廊坊人,硕士研究生,主要研究方向为云计算与大数据处理. E-mail:479064019@qq.com
基金资助:河北省自然科学基金资助项目(F2017201026);河北大学自然科学研究计划资助项目(799207217071);河北大学研究生创新资助项目(X2016059)资助

K-NN algorithm for big data based on HBase and SimHash

WANG Tingtinga,b, ZHAI Junhaia,b*, ZHANG Mingyanga,b, HAO Pua,b
a. Key Lab. of Machine Learning and Computational Intelligence;
b. College of Mathematics and Information Science, Hebei University, Baoding 071002, Hebei, China
Received:2017-08-29Online:2018-06-20Published:2017-08-29







摘要/Abstract


摘要: 针对大数据K-近邻(K-nearest neighbors, K-NN)计算复杂度高的问题,提出一种基于HBase和SimHash的大数据K-近邻分类算法。利用SimHash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBase数据库中,行健(rowkey)为样例的哈希签名值,值(value)为样例的类别;对于测试样例,以其哈希签名值作为健rowkey,从HBase数据库中获取所有样例的value,通过对这些values进行多数投票,即可以得到测试样例的类别。与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较。试验结果显示,在保持分类能力的前提下,提出的算法的运行时间远远低于其他两种方法。


PDF全文下载地址:

http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1736
相关话题/数据 河北大学 计算 测试 河北

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 非均匀数据的变异系数聚类算法
    非均匀数据的变异系数聚类算法杨天鹏1,徐鲲鹏1,陈黎飞1,2*1.福建师范大学数学与信息学院,福建福州350117;2.数字福建环境监测物联网实验室,福建福州350117收稿日期:2017-08-24出版日期:2018-06-20发布日期:2017-08-24通讯作者:陈黎飞(1972—),男,福建 ...
    本站小编 Free考研考试 2022-02-06
  • 复合Bessel函数零点数值计算方法及分布规律
    复合Bessel函数零点数值计算方法及分布规律姬安召,王玉风*,刘雪芬陇东学院能源工程学院,甘肃庆阳745000收稿日期:2017-03-10出版日期:2018-02-20发布日期:2017-03-10通讯作者:王玉风(1986—),女,河北石家庄人,讲师,硕士,主要研究方向为应用地球物理.E-ma ...
    本站小编 Free考研考试 2022-02-06
  • 基于用户隐式数据的个性化酒店推荐算法䥺Symbol`@@
    基于用户隐式数据的个性化酒店推荐算法䥺Symbol`@@史达1,于淼川2*,李梦琪21.东北财经大学旅游与酒店管理学院,辽宁大连116025;2.东北财经大学国际商学院,辽宁大连116025发布日期:2021-07-19作者简介:史达(1973—),男,博士,教授,博士生导师,研究方向为旅游信息化 ...
    本站小编 Free考研考试 2022-02-06
  • 左截断右删失数据中泊松分布的贝叶斯推断
    左截断右删失数据中泊松分布的贝叶斯推断胡江山1,隋云云1,付云鹏21.潍坊学院数学与信息科学学院,山东潍坊261061;2.辽宁大学经济学院,辽宁沈阳110036发布日期:2021-07-19作者简介:胡江山(1979—),男,硕士,讲师,研究方向为应用统计研究.E-mail:hjs0501@126 ...
    本站小编 Free考研考试 2022-02-06
  • 浙江省空气质量变化特征研究——基于函数型数据分析
    浙江省空气质量变化特征研究——基于函数型数据分析武祺然,周力凯*,孙金金,王念鸽,余群芳浙江财经大学数据科学学院,浙江杭州310018发布日期:2021-07-19作者简介:武祺然(1996—),男,硕士研究生,研究方向为函数型数据分类.E-mail:wu1996@zufe.edu.cn*通信作者简 ...
    本站小编 Free考研考试 2022-02-06
  • 区块链数据隐私保护研究综述
    区块链数据隐私保护研究综述康海燕1,邓婕21.北京信息科技大学信息管理学院,北京100192;2.北京信息科技大学计算机学院,北京100101发布日期:2021-05-13作者简介:康海燕(1971—),男,博士,教授,硕士生导师,研究方向为网络安全与隐私保护.E-mail:kanghaiyan@1 ...
    本站小编 Free考研考试 2022-02-06
  • 面向网络入侵检测数据的对抗样本生成方法
    面向网络入侵检测数据的对抗样本生成方法解滨1,2,3(),李清扬1,董新玉1,21.河北师范大学计算机与网络空间安全学院,河北石家庄0500242.河北师范大学河北省网络与信息安全重点实验室,河北石家庄0500243.河北师范大学供应链大数据分析与数据安全河北省工程研究中心,河北石家庄050024收 ...
    本站小编 Free考研考试 2022-02-06
  • P-未知数据集及其过滤-分离
    P-未知数据集及其过滤-分离刘纪芹,潘正琨山东财经大学数学与数量经济学院,山东济南250014发布日期:2021-01-21作者简介:刘纪芹(1968—),女,博士,教授,研究方向为粗系统理论与应用.E-mail:sdfiljq@126.comP-unknowndatasetsandtheirfil ...
    本站小编 Free考研考试 2022-02-06
  • 基于SDG简化模型的工控系统数据网故障溯源方法
    基于SDG简化模型的工控系统数据网故障溯源方法杨艳华1(),姚立纲21.福建江夏学院工程学院,福建福州3501082.福州大学机械工程及自动化学院,福建福州350116收稿日期:2020-07-15出版日期:2020-11-20发布日期:2020-11-17作者简介:杨艳华(1976—),女,博士, ...
    本站小编 Free考研考试 2022-02-06
  • 数据智能分类与分类智能检索-识别
    数据智能分类与分类智能检索-识别张凌,任雪芳*龙岩学院数学与信息工程学院,福建龙岩364012出版日期:2020-10-20发布日期:2020-10-07作者简介:张凌(1963—),男,硕士,教授,研究方向为大数据分析与应用.E-mail:zl79024@163.com*通信作者简介:任雪芳(19 ...
    本站小编 Free考研考试 2022-02-06