基于MapReduce模型的大数据相似重复记录检测算法

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-02-12

宋人杰1，余通1，陈宇红2，陈宇阳2，夏滨2

1. 东北电力大学信息工程学院，吉林 132012； 2. 国网吉林供电公司，吉林 132000

出版日期:2018-03-01发布日期:2018-03-01

基金资助:国家自然科学基金项目(61271115)

A Similar Duplicate Record Detection Algorithm for Big Data Based on MapReduce

SONG Renjie1,YU Tong1,CHEN Yuhong2,CHEN Yuyang2,XIA Bin2

1. College of Information Engineering, Northeast Electric Power University, Jilin 132012, China;2. State Grid Jilin Power Supply Company, Jilin 132000, China

Online:2018-03-01Published:2018-03-01

摘要/Abstract

摘要： 针对大数据来源多、维度高和体量大的特点，提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进，以解决算法中关键词提取速度慢、精度和权重计算精度低的问题；利用倒排索引算法对传统SimHash算法进行优化，以提高其相似重复记录的匹配效率；利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数，并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出；在Hadoop平台上进行实例分析，以验证MP-SYYT算法的高效性和实用性.
关键词: 云环境, 大数据, 相似重复记录, 并行检测, 冗余识别
Abstract: In view of the characteristics of multi-source, high dimension and large volume of big data, traditional algorithms have been unable to effectively complete the similar duplicate records detection for big data, therefore, a new parallel algorithm MP-SYYT for the detection of similar duplicate records of big data in the cloud environment is put forward. Firstly, Institute of computing technology chinese lexical analysis system (ICTCLAS) word segmentation technology, Delphi method and team frequency Inverse document frequency (TF-IDF) algorithm are used to improve the traditional SimHash algorithm, and these methods effectively solve the insufficiency of the traditional one, such as the low extraction speed, the imprecision of the keywords, and the low accuracy on weight calculation. Secondly, the inversed file retrieval algorithm is used to optimize the traditional SimHash algorithm to improve the matching efficiency of similar duplicate records. Finally, the Map function and the Reduce function based on the improved SimHash algorithm are defined on a cloud platform to realize the parallel detection of big data and the direct output of duplicate records in cloud environment with MapReduce model, and an experimental analysis about the multi-source measured data is made on a Hadoop platform. The results show that MP-SYYT is an efficient and accurate algorithm with good scalability and acceleration ratio, and it is suitable for similar duplicate record detection of big data.
Key words: cloud environment, big data, similar duplicate records, parallel detection, redundant identification

PDF全文下载地址:

点我下载PDF

相关话题/数据 环境 吉林 优化 东北电力大学

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
基于生物医学大数据寻找不孕症关键致病基因及通路
摘要/Abstract摘要：目的·通过整合不孕症遗传因素大数据，挖掘突变规律及相关致病基因。方法·根据全球蛋白资源数据库（UniversalProteinResource，Uniprot）蛋白类别对搜集的人类不孕症致病基因进行分类，统计分析临床病例中每类基因的突变频数。针对功能异常的氧化还原酶这一重 ...
上海交通大学科研学术本站小编 Free考研考试 2022-02-12
非线性混合效应模型基于异速生长方程拟合上下法实验数据确定儿童右美托咪定半数有效量
摘要/Abstract摘要：目的·探索采用非线性混合效应模型基于异速生长方程拟合上下法临床实验数据，以确定儿童半数有效量（medianeffectivedose，ED50）的可行性。方法·对22例2~12岁阻塞型睡眠呼吸暂停（obstructivesleepapnea，OSA）患儿采用右美托咪定复合 ...
上海交通大学科研学术本站小编 Free考研考试 2022-02-12
乳腺癌类器官共培养技术的建立和优化
摘要/Abstract摘要：目的·改进乳腺癌类器官培养传代方法，建立富集肿瘤相关成纤维细胞（cancerassociatedfibroblasts，CAFs）的共培养体系。方法·采用不同类型胶原酶（Ⅰ型、Ⅲ型、Ⅳ型）处理5例乳腺癌新鲜肿瘤组织，通过细胞计数法计数组织消化后的细胞数量，用流式细胞仪分析 ...
上海交通大学科研学术本站小编 Free考研考试 2022-02-12
基于GEO数据库筛选狼疮性肾炎的关键基因和信号通路
摘要/Abstract摘要：目的·利用生物信息学分析方法筛选狼疮性肾炎相关差异表达基因及相关信号通路。方法·从GEO公共数据库中下载GSE32591数据集矩阵数据，应用R软件limma包进行标准化以及筛选差异表达基因，应用ggpubr和pheatmap包对差异基因绘制火山图及热图。应用DAVID在线 ...
上海交通大学科研学术本站小编 Free考研考试 2022-02-12
妊娠早期血脂谱与子痫前期发病风险的关系——基于真实世界数据的研究
摘要/Abstract摘要：目的·探讨妊娠早期血脂水平与子痫前期（preeclampsia，PE）发病风险的关系。方法·研究对象为2015年1月—2017年12月于上海交通大学医学院附属国际和平妇幼保健院行常规产检并住院分娩的孕妇，经筛选后纳入26230例，其中发生PE的孕妇（PE组）680例、未发 ...
上海交通大学科研学术本站小编 Free考研考试 2022-02-12
基于SEER数据库的老年肺癌术后患者预后模型构建与内部验证
摘要/Abstract摘要：目的·运用回顾性研究的分析方法，探讨术后老年肺癌患者预后的独立预测因素，并建立个体化预测预后的列线图模型。方法·通过回顾美国癌症监测、流行病学和结果（surveillance,epidemiologyandendresults，SEER）数据库获取术后老年肺癌患者临床资料 ...
上海交通大学科研学术本站小编 Free考研考试 2022-02-12
REDCap在母婴干预队列数据采集及管理中的应用
摘要/Abstract摘要：目的·采用开源性软件REDCap，以母婴干预预防肥胖队列为示范，阐述基于网络的在线电子数据采集系统构建和数据质控管理。方法·安装REDCap软件，建立母婴干预队列为示范项目。基于研究方案，将队列数据收集的时点和问卷模块列成随访图，设置和创建问卷和电子病历报告表单（elec ...
上海交通大学科研学术本站小编 Free考研考试 2022-02-12
基于人工智能的病历后结构化专病数据库在临床研究中的价值探讨
摘要/Abstract摘要：目的·探讨由非结构化电子病历文本信息建立的病历后结构化专病数据库在临床研究中的价值支撑。方法·采集2007年10月—2019年9月于上海市某三甲专科医院就诊的患者信息，采用人工智能（artificialintelligence，AI）引擎等信息化方法将电子病历文本信息后结 ...
上海交通大学科研学术本站小编 Free考研考试 2022-02-12
上海市杨浦区学龄前儿童犬弓首蛔虫的感染情况及环境中犬弓首蛔虫的存在情况调查
摘要/Abstract摘要：目的调查上海市杨浦区学龄前儿童犬弓首蛔虫的血清阳性率以及犬弓首蛔虫在公共环境中的存在情况。方法采用横断面研究设计，对上海市杨浦区7家幼儿园的789名大班儿童进行了犬弓首蛔虫感染相关的问卷调查，用酶联免疫吸附法检测其中605名儿童血清中犬弓首 ...
上海交通大学科研学术本站小编 Free考研考试 2022-02-12
有机紫外线吸收剂二苯甲酮-3的环境污染及其内分泌干扰作用研究进展
摘要/Abstract摘要：二苯甲酮-3是目前使用最广泛的苯甲酮型紫外线吸收剂，具有亲脂性、光稳定性和生物累积性。二苯甲酮-3在环境水体中广泛存在，并且可在人体内被检出，其潜在毒性（特别是内分泌干扰作用）已经引起了人们的关注。在国外文献中可以获得较多二苯甲酮-3在环境和人体中暴露的有关数据，但我国相 ...
上海交通大学科研学术本站小编 Free考研考试 2022-02-12