删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于Hadoop的邮政寄递大数据分析系统设计与实现

本站小编 Free考研考试/2021-12-25

闂傚倸鍊烽懗鍫曞箠閹剧粯鍋ら柕濞炬櫅缁€澶愭煙閻戞ɑ鈷愰悗姘煼閺岋綁寮崒姘闁诲孩纰嶅畝鎼佸蓟濞戞ǚ鏋庣€广儱鎳庢慨搴ㄦ⒑鏉炴媽顔夐柡鍛█楠炲啰鎹勭悰鈩冾潔闁哄鐗冮弲娑氭暜閵娧呯=濞达絼绮欓崫铏圭磼鐠囪尙澧曢柣锝呭槻椤繄鎹勯崫鍕偓鍧楁⒑閸濆嫭鍌ㄩ柛銊ヮ煼瀹曪綁骞囬悧鍫㈠幗闂佺粯锚瀵爼骞栭幇顒夌唵鐟滃瞼鍒掑▎鎾虫槬闁靛繈鍊栭崵鍐煃閸濆嫬鈧悂鎯冮锔解拺闁告稑锕ユ径鍕煕閹炬潙鍝洪柟顔斤耿楠炲洭鎮ч崼姘闂備礁鎲¢幐鍡涘礃瑜嶉ˉ姘舵⒑濮瑰洤鐒洪柛銊ゅ嵆椤㈡岸顢橀悢渚锤闂佸憡绋戦敃銉х礊閸ャ劊浜滈柟鎵虫櫅閻忊晜顨ラ悙宸剶婵﹥妞藉畷妤呮偂鎼粹€承戦梻浣规偠閸ㄨ偐浜搁鍫澪﹂柟鎵閺呮悂鏌ㄩ悤鍌涘40%闂傚倸鍊风粈浣革耿鏉堚晛鍨濇い鏍仜缁€澶愭煛瀹ュ骸骞栭柛銊ュ€归幈銊ノ熼崸妤€鎽甸柣蹇撶箰鐎涒晠骞堥妸銉庣喖宕归鎯у缚闂佽绻愬ù姘椤忓牆钃熼柕濞垮劗濡插牓鏌ц箛锝呬簻妞ゅ骏鎷�
闂傚倸鍊峰ù鍥綖婢跺顩插ù鐘差儏缁€澶屸偓鍏夊亾闁逞屽墰閸掓帞鎷犲顔兼倯闂佹悶鍎崝宀勬儍椤愨懇鏀芥い鏃囶潡瑜版帒鏄ラ柡宥庡亗閻掑﹥銇勮箛鎾跺闁绘挻绋戦…璺ㄦ崉閻氭潙浼愰梺鍝勬閸犳劗鎹㈠☉娆忕窞婵☆垰鎼猾宥嗙節绾版ê澧查柟绋垮暱閻g兘骞掗幋鏃€鏂€闂佸綊鍋婇崜姘额敊閺囩偐鏀介柣鎰▕閸ょ喎鈹戦姘煎殶缂佽京鍋ら崺鈧い鎺戝閻撳繘鏌涢埄鍐炬當闁哄棴绲块埀顒冾潐濞测晝绱炴笟鈧妴浣糕槈閵忊€斥偓鐑芥煃鏉炵増顦峰瑙勬礀閳规垿顢欓惌顐簽婢规洟顢橀悩鍏哥瑝闂佸搫绋侀悘鎰版偡閹靛啿鐗氶梺鍛婃处閸嬪棝顢栭崟顒傜閻庣數枪瀛濋梺缁橆殔缁绘帒危閹版澘绫嶉柛顐g箘椤撴椽姊虹紒妯忣亪鎮樺璺虹畾闁挎繂顦伴埛鎺戙€掑顒佹悙濞存粍绻堥弻锛勪沪鐠囨彃顬嬪┑鐐叉閸ㄤ粙骞冨▎鎴斿亾閻㈢數銆婇柡瀣墵濮婅櫣绱掑Ο铏逛桓闁藉啴浜堕弻鐔兼偪椤栨瑥鎯堢紓浣介哺鐢€愁嚕椤曗偓閸┾偓妞ゆ帒瀚崑锟犳煥閺冨倸浜鹃柡鍡樼矌閹叉悂鎮ч崼婵堫儌閻庤鎸风欢姘跺蓟濞戔懇鈧箓骞嬪┑鍥╁蒋闂備礁鎲¢懝楣冨箠鎼淬劍绠掗梻浣稿悑缁佹挳寮插☉婧惧彺闂傚倷绶氶埀顒傚仜閼活垱鏅堕鐐粹拺闁兼亽鍎遍埛濂濆┑鐘垫暩閸嬬偛岣垮▎鎾宠Е閻庯綆鍠楅崵灞轿旈敐鍛殭缂佺姷鍠栭弻鐔煎箚閻楀牜妫勯梺璇茬箺濞呮洜鎹㈠┑瀣瀭妞ゆ劧绲介弳妤冪磽娴f彃浜炬繝銏e煐閸旀牠鎮¢悢鍏肩厓鐟滄粓宕滃▎鎰箚濞寸姴顑嗛悡鏇㈡煃閸濆嫬鈧煤閹绢喗鐓涢悘鐐跺Г閸h銇勯锝囩畵闁伙絿鍏樺畷鍫曞煛閸愨晜鐦掗梻鍌欐祰瀹曞灚鎱ㄩ弶鎳ㄦ椽濡堕崼娑楁睏闂佺粯鍔曢幖顐︽嚋鐟欏嫨浜滈柟鐑樺灥閳ь剙缍婂畷鎴濐潨閳ь剟寮婚弴鐔虹鐟滃秶鈧凹鍣e鎶芥偐缂佹ǚ鎷洪梺鍛婄☉閿曘倗绮幒鎾茬箚妞ゆ劧绲鹃ˉ鍫熶繆椤愩垺鍤囬柛鈺嬬節瀹曘劑顢欓幆褍鍙婇梻鍌欒兌缁垶宕濋敃鍌氱婵炲棙鍔曠欢鐐碘偓骞垮劚椤︿即鎮″▎鎾村€垫繛鎴炵憽缂傛艾顭胯閸撶喖寮婚悢鍏煎剬闁告縿鍎宠ⅵ婵°倗濮烽崑娑㈡煀閿濆棔绻嗛柣鎴f鎯熼梺闈涱檧婵″洦绂嶅畡鎵虫斀闁绘劖娼欓悘锔芥叏婵犲嫭鍤€妞ゎ厼鐏濋~婊堝焵椤掑嫮宓侀柛鎰╁壆閺冨牆宸濇い鏃囧Г閻濐偊鏌f惔鈥冲辅闁稿鎹囬弻娑㈠箛椤撶偛濮㈠┑鐐茬墢閸嬫挾鎹㈠☉姘e亾閻㈢櫥褰掝敁閹惧墎纾界€广儰绀佹禍楣冩⒒娓氣偓濞佳兾涘Δ鍛柈闁圭虎鍠栫粻鐘绘煏韫囨洖啸闁哄棗顑夐弻鈩冨緞鎼淬垻銆婇梺璇″櫙閹凤拷40%闂傚倸鍊风粈浣革耿鏉堚晛鍨濇い鏍仜缁€澶愭煛瀹ュ骸骞栭柛銊ュ€归幈銊ノ熼幐搴c€愰弶鈺傜箞濮婅櫣绮欓幐搴㈡嫳缂備浇顕х粔鐟扮暦閻㈠憡鏅濋柍褜鍓熷﹢渚€姊虹紒妯兼噧闁硅櫕鍔楃划鏃堫敆閸曨剛鍘梺绯曞墲椤ㄥ懘寮抽悢鍏肩厵鐎瑰嫭澹嗙粔鐑樸亜閵忊埗顏堝煘閹达箑鐐婄憸婊勫閸℃稒鈷掑ù锝呮啞閹牓鏌eΔ浣虹煉鐎规洘绮岄埥澶愬閳ュ厖鎴锋俊鐐€栭悧妤冪矙閹炬眹鈧懘鎮滈懞銉ヤ化婵炶揪绲介幗婊堟晬瀹ュ洨纾煎璺猴功娴犮垽妫佹径瀣瘈鐟滃繑鎱ㄩ幘顔肩柈妞ゆ牜鍋涚粻姘舵煕瀹€鈧崑鐐烘偂閵夛妇绠鹃柟瀵稿€戦崷顓涘亾濮樺崬顣肩紒缁樼洴閹剝鎯旈埥鍡楀Ψ缂傚倷绀侀崐鍝ョ矓瑜版帇鈧線寮撮姀鐙€娼婇梺缁樶缚閺佹瓕鈪�9闂傚倸鍊烽懗鍫曘€佹繝鍥ф槬闁哄稁鍓欑紞姗€姊绘笟鈧埀顒傚仜閼活垱鏅堕鈧弻娑欑節閸愨晛鈧劙鏌熼姘殻濠殿喒鍋撻梺闈涚墕閹虫劙藝椤愶附鈷戠紒顖涙礀婢у弶绻涢懠顒€鏋涢柟顕嗙節閸╋繝宕ㄩ瑙勫闂備礁鎲¢幐鍡涘礃瑜嶉ˉ姘舵⒑濮瑰洤鐒洪柛銊╀憾楠炴劙鎼归锛勭畾闁诲孩绋掕摫濠殿垱鎸抽幃宄扳枎韫囨搩浠奸梻鍌氬亞閸ㄨ泛顫忛搹瑙勫厹闁告侗鍨伴悧姘舵⒑缁嬪潡顎楃€规洦鍓熷﹢浣糕攽椤斿浠滈柛瀣崌閺岀喖顢欓妸銉︽悙闁绘劕锕弻宥夊传閸曨偅娈查梺璇″灲缂嶄礁顫忓ú顏勭閹艰揪绲哄Σ鍫ユ⒑閸忓吋銇熼柛銊ф暬婵$敻骞囬弶璺紲闂佺粯鍔樼亸娆撍囬锔解拺闁告繂瀚峰Σ瑙勩亜閹寸偟鎳囩€规洘绻堝畷銊р偓娑欋缚閸樻悂鎮楃憴鍕鞍闁告繂閰e畷鎰板Χ婢跺﹦鏌堥梺鍓插亖閸庢煡鎮¢弴鐘冲枑閹艰揪绲块惌娆撶叓閸ャ劎鈽夐柣鎺戠仛閵囧嫰骞嬮敐鍛Х闂佺ǹ绻愰張顒傛崲濞戙垹宸濇い鎰╁灩椤姊虹拠鈥崇仭婵☆偄鍟村顐﹀礃閳哄倸顎撶紓浣割儓濞夋洘绂掗銏♀拻濞达絽鎲¢崯鐐烘煟閵婏妇鐭嬮柟宄版嚇楠炴捇骞掑鍜佹婵犵數鍋犻幓顏嗙礊娓氣偓瀵煡鎳犻鍐ㄐ¢梺瑙勫劶婵倝鎮¢弴鐔剁箚闁靛牆瀚ˇ锕傛煙閸忓吋鍊愰柡灞界Х椤т線鏌涜箛鏃傘€掔紒顔肩墛閹峰懘宕烽褎閿ら梻浣告惈濞层劑宕伴幘璇茬厴鐎广儱顦粻鎶芥煙閹増顥夐柣鎺戠仛閵囧嫰骞嬪┑鍫滆檸闂佺ǹ锕ュΣ瀣磽閸屾艾鈧绮堟笟鈧鐢割敆閳ь剟鈥旈崘顔藉癄濠㈠厜鏅滈惄顖氱暦缁嬭鏃堝焵椤掑啰绠芥繝鐢靛仩閹活亞绱為埀顒佺箾閸滃啰绉€规洩缍侀崺鈧い鎺嶈兌缁犻箖鏌熺€电ǹ浠﹂柣鎾卞劤缁辨帡濡搁敂濮愪虎闂佺硶鏂侀崑鎾愁渻閵堝棗鐏﹂悗绗涘懐鐭堝ù鐓庣摠閻撶喐銇勮箛鎾村櫤閻忓骏绠撻弻鐔碱敊閼恒儯浠㈤梺杞扮劍閸旀瑥鐣烽崼鏇炵厸闁稿本绋戦崝姗€姊婚崒娆戭槮闁硅绻濋幊婵嬪礈瑜夐崑鎾愁潩閻撳骸鈷嬫繝纰夌磿閺佽鐣烽崼鏇ㄦ晢闁稿本姘ㄩ妶锕傛⒒娴e憡鍟為柛鏃€鐗為妵鎰板礃椤旂晫鍘愰梻渚囧墮缁夌敻鎮¤箛娑欑厱闁宠棄妫楅獮妤呮倵濮樼偓瀚�
王卫锋, 杨林
中国科学院大学计算机与控制学院信息动态学与工程应用实验室, 北京 100049
2016年09月14日 收稿; 2016年11月18日 收修改稿
通信作者: 王卫锋, E-mail:ry_009@126.com

摘要: 面对海量邮政寄递数据,现有的构建于关系数据库上的数据仓库系统在做数据分析时具有建设成本高、分析能力会遇到瓶颈等缺点。Hadoop具有高可扩展、高性能和低成本等优点,被广泛应用于大数据的存储和分析。基于对Hadoop开源框架的研究,设计邮政寄递大数据分析系统,并对该系统进行部分实现。结合邮政安监系统工程需求展开实验,得出大数据分析系统的性能参数,为后续工程建设提供依据。
关键词: 邮政寄递数据Hadoop大数据存储大数据分析
Design and implementation of postal delivery big data analytic system based on Hadoop
WANG Weifeng, YANG Lin
Information Dynamics and Engineering Applications Laboratory, School of Computer and Control Engineering, University of Chinese Academy of Sciences, Beijing 100049, China


Abstract: Facing massive postal delivery data, the existing data warehouse system based on the traditional relational database has problems of high construction cost and analysis capacity bottleneck. Nowadays, Hadoop is widely used in large data storage and analysis, and it has the advantages of high scalability, high performance, and so on. On the basis of studies of the open source framework of Hadoop, combining with practical engineering project, we proposed a delivery data analysis system based on Hadoop. we implemented some parts of the system. We obtained the performance parameters of this system. The parameters can be widely used in future building of the project.
Key words: postal delivery dataHadoopbig data storagebig data analysis
随着网络信息技术的不断普及,网上购物凭借其方便、快捷等特点,受到越来越多购物者的青睐。继而导致寄递数据呈现几何增长的趋势。据国际统计局《2015年邮政行业发展统计公报》数据显示,2015邮政行业全年业务总量已突破5 000亿元,快递业务量突破200亿件,快递业所产生的各类数据已达到PB级[1]。寄递数据具有数据量大、结构复杂且动态变化等特点,如何对寄递数据进行有效的监督管理、从中分析得出业务数据特征并进行决策制定,已成为困扰相关部门的难题之一。国家相关单位在2012年启动“邮政业监督管理信息系统工程——安全监管信息系统”的建设。该工程系统是基于RDBMS (关系数据库管理系统) 构建的数据仓库系统,目前该系统的数据管理分析遇到瓶颈。表现为以下几个方面:1) 非结构化数据处理支持力度不够:关系型数据库处理方式是指数据对应到映射到行和列组成的关系范式上,即映射到表。企业真实产生的寄递数据包括大量的非结构化数据,如:图片、日志等。基于关系型数据仓库系统难以满足要求,或需付出高昂成本实现。2) 扩展成本较高:为保证数据的安全性和可靠性,数据库服务器通常采用昂贵的高端机器作为数据库服务器,对数据库服务器进行扩展的成本较高。3) 数据处理能力有限:基于RDBMS的数据仓库,面对海量数据处理,数据I/O成为瓶颈,分析运算时间较长[2-3]。本文针对上述问题,展开对邮政寄递大数据分析系统的研究。
1 相关技术基于Hadoop[4]分布式存储计算框架,针对上述系统瓶颈提供有效技术手段。Hadoop源于Google公司2003—2004年发表的3篇技术论文[5-7]。技术人员根据这3篇论文实现了Hadoop这一全新的开源分布式存储和计算框架。其中HDFS (Hadoop distribute file system) 是Hadoop存储的核心。MapReduce是Hadoop的分布式计算编程模型。
Hadoop构建于普通机器组成的分布式集群上,采用HDFS分布式文件系统作为存储系统,能对海量数据进行合理分割和高可靠存储。Hadoop采用MapReduce编程模型,将计算任务合理分配到集群节点上,充分利用分布式计算优点。与传统数据仓库系统相比,Hadoop在大数据处理方面具有诸多优势[8-9],如表 1所示。
Table 1
表 1 Hadoop与RDBMS数据仓库对比Table 1 Comparison between Hadoop and RDBMS data warehouse
特征 RDBMS数据仓库 Hadoop
非结构数据支持 支持、成本高 支持、成本低
扩展成本
分布式处理成本
容量 有限 按需供应
存储可靠性 高可靠 高可靠

表 1 Hadoop与RDBMS数据仓库对比Table 1 Comparison between Hadoop and RDBMS data warehouse

Hadoop除上述核心HDFS存储框架和MapReduce计算模型外,还具有丰富的生态系统圈,为Hadoop在大数据计算方面提供有利补充。
Hadoop目前被广泛应用于大数据分析计算领域,在百度、阿里、腾讯等一些大型网络公司得到广泛应用,是目前应用最多,最为成熟的大数据计算框架。
因此,本文致力于研究Hadoop开源框架,设计了一个基于Hadoop的邮政寄递大数据分析系统,并对该系统进行部分实现。
2 系统的设计和实现2.1 系统架构设计结合寄递数据特点,邮政寄递大数据分析系统分为数据采集层、存储层、分析层以及集群调度层等几个部分[10-13]。如图 1所示。
Fig. 1
Download: JPG
larger image

图 1 系统架构图

Fig. 1 System architecture diagram

1) 数据采集层。数据采集层是采集工具和ETL工具的集合,主要是将快递企业上报的快递数据进行采集、校验和清洗。数据采集层采集数据后,处理出有意义的数据,并通过统一接口平台将经过处理的数据存储在数据存储层相应的存储系统中,供数据分析层使用。数据的使用统一接口平台,满足不同数据源类型,同时实现对存储的底层屏蔽,具有较好的可编程性,方便管理和部署。
2) 数据存储层。数据存储层对邮政寄递数据进行分类存储,批量分析使用的“冷”数据,存储HDFS中。实时更新的业务数据存储于RDBMS中,小规模实时数据存储于数据仓库中。RDBMS中的实时数据定期往HDFS和数据仓库中同步。HDFS与数据仓库结合使用,承担不同分析任务。
3) 数据分析层。数据分析层是在业务基础之上建立分析模型,并结合模型采用多种分析手段对数据进行分析。分析模型包括:地理信息系统模型、快递中转模型、爆仓预警模型、快递监控模型以及重点寄件监控等多个模型。分析层除使用MapReduce编程模型作为分析手段外,还引入其他分析工具,如Hive[14]与Hadoop进行整合以减少MapReduce的开发成本。在后续试验中还会尝试引入其他分析手段。
4) 集群监管调度层。集群监管调度层主要对集群进行调度和维护。调度包括对集群进行负载均衡,维护主要是对集群的运行状态进行实时监控。
2.2 数据流设计基于Hadoop邮政寄递大数据分析系统,底层核心采用Hadoop开源框架实现,数据采集层的核心采用Apache Flume[15]开源软件实现。Flume具有高性能、高可用和高可靠等特点,用于承担系统采集和清洗任务。图 2为邮政寄递数据在大数据分析系统内部流转的流程图。
Fig. 2
Download: JPG
larger image

图 2 大数据分析系统底层数据流图

Fig. 2 Data flow diagram of big data analysis system

2.3 系统实现由于时间和篇幅有限,本文对邮政寄递大数据分析系统进行部分实现。底层Hadoop集群采用1台NameNode服务器和3台DataNode服务器组成。底层操作系统采用64位centos 6.5系统,Hadoop采用2.7.0稳定版。Hadoop运行需Java环境,本实验JDK选取的jdk-7u79-linux-x64。集群配置见表 2所示。
Table 2
表 2 Hadoop集群配置信息Table 2 Configuration information of Hadoop cluster
主机名 IP JSP命令结果 系统 CPU 内存/G 硬盘/G
Master.Hadoop 10.211.55.13 ResourceManager SecondaryName Node NameNode Centos6.5(64位) Inteli7-48HQ CPU@2.3GH 4 128
Slave1.Hadoop 10.211.55.15 NodeManager DataNode JobHistoryServer Centos6.5(64位) Inteli7-48HQ CPU@2.3GH 4 128
Slave2.Hadoop 10.211.55.16 DataNode NodeManager Centos6.5(64位) Inteli7-48HQ CPU@2.3GH 4 128
Slave3.Hadoop 10.211.55.17 DataNode NodeManager Centos6.5(64位) Inteli7-48HQ CPU@2.3GH 4 128

表 2 Hadoop集群配置信息Table 2 Configuration information of Hadoop cluster

Hadoop的集群安装准备工作:安装JDK、修改系统主机名以及将集群设置为SSH无密码访问。设置时间同步等一系列工作完成之后,配置$HADOOP_HOME/etc/hadoop目录下的core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml文件。配置成功之后,通过$HADOOP_HOME/sbin/目录下的start-all.sh和stop-all.sh对系统进行启动和停止,如图 3所示。
Fig. 3
Download: JPG
larger image

图 3 Hadoop正确配置启动图

Fig. 3 Properly configured boot graph of Hadoop

3 实验及测试3.1 实验设计为验证大数据分析平台相对于传统数据仓库系统在分析性能方面的优缺点,本文结合实际工程需求开展实验设计。其中,面单数据是快递的基本信息,包括寄件人信息、收件人信息、地理信息及时间信息等。数据以文件如:contract_EMS_20150401 _1460724345866.txt的形式采集、上报和存储,每条面单数据中每个字段用逗号分隔,每条面单用换行符分隔,如下为面单数据样例。
“安监系统”包括多个子系统,其中业务量检测子系统主要负责对邮政寄递数据业务量进行统计、检测和预警,并支持与历史数据的同比分析、环比分析,对比结果以表格、图形等方式呈现。区域业务量功能模块的主要功能是统计邮政寄递数据区域分布情况并对业务量进行提前预警通报。预警模型需计算出寄件流入前10名城市和流入量。目前,寄件产生的面单数据量已超过10亿条,针对此需求开展验证实验设计。安监系统现有数据仓库采用SQLServer2008作为底层实现,数据仓库实验采用SQL语句进行分析,语句如下:
大数据分析系统采用MapReduce编程模型,处理流程为:将数据集分割成一条条记录→map < k, v > →combine < k, list (v) > →reduce < k1, v1 > →结果数据,图 4为邮政寄递数据流入量MapReduce处理流程。
Fig. 4
Download: JPG
larger image

图 4 邮政寄递数据的MapReduce编程模型

Fig. 4 The MapReduce programming model of postal delivery data

首先从HDFS中读取一条面单信息,从中获取收件地址字段,并通过Map函数将字符处理成 < Key, Value > 的形式,其中key为收件地址城市,Value为1,Map函数伪代码如下:
Reduce阶段将Map传过来的 < Key, Value > 按照Key的形式进行累加,得出每个城市的总数,输出时进行排序,取出排序前10的数据为结果。算法伪代码如下:
3.2 实验结果实验部分,分两组进行。第1组:分别在SqlServer2008与单节点Hadoop集群上进行数据量级别为5 000万 (993 M)、1亿 (2 GB)、5亿 (9.78 GB) 和10亿条记录 (19.8 GB) 实验,记录执行时间。实验结果如图 5所示。
Fig. 5
Download: JPG
larger image

图 5 第1组实验结果

Fig. 5 Results of the first group of experiments

第2组实验:分别在单节点Hadoop集群和3个节点的Hadoop集群,进行数据量级别为5 000万 (993 M)、1亿 (2 GB)、5亿 (9.78 GB) 和10亿条记录 (19.8 GB) 的实验,记录执行时间。实验结果如图 6所示。
Fig. 6
Download: JPG
larger image

图 6 第2组实验结果

Fig. 6 Results of the second group of experiments

实验结果表明:1) 在进行数据量小于2 GB邮政寄递数据分析时,现有的基于RDBMS的数据仓库系统具有优势。2) 在进行超过2 GB邮政寄递数据分析时,基于Hadoop的大数据分析系统具有明显分析优势。3) 增加基于Hadoop的邮政寄递大数据分析系统的数据节点,分析性能明显提高。4) 节点数与执行效率不是线性关系,因此需根据需求和成本进行合理节点选取。
4 结束语本文基于Hadoop及生态系统的研究,设计并部分实现了底层以Hadoop为核心的邮政寄递大数据分析系统。结合安监系统预警模型的实际需求,分别在现有RDBMS数据仓库系统和大数据系统上展开实验。实验结果表明,现有数据仓库系统在分析数据量较小 (小于2 GB) 数据时性能较好,基于Hadoop的大数据分析系统,在分析海量数据时具有明显优势。随着数据量的增加,可以通过增加数据节点,提高大数据分析系统性能。节点的个数需根据分析需要和构建成本合理选择。本文对邮政寄递大数据分析系统实验时,采用MapReduce编程模型作为分析手段。MapReduce将中间结果写入文件系统,分析性能受到影响。后续将采用Spark[16]与Hadoop结合的方式,进一步开展邮政寄递大数据分析系统的研究与探索。
参考文献
[1] 中国产业研究院. 2015-2022年中国电子商务市场全景调研及投资战略咨询报告[EB/OL]. (2015)[2016-09-14]. http://www.chyxx.com/research/201510/349060.html.
[2] Pavlo A, Paulson E, Rasin A. A comparison of approaches to large-scale data analysis[C]//ACM. SIGMOD International Conference on Management of Data. Rhode Island: SIGMOD, 2009: 165-178.
[3] Gunther N, Puglia P, Tomasette K. Hadoop superlinear scalability[J].Communications of the ACM, 2015, 58(4):46–55.DOI:10.1145/2749359
[4] Apache Foundation. Apache Hadoop [EB/OL]. (2016-01-20) [2016-09-14]. https://wiki.apache.org/hadoop.
[5] Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters[C]//Conference on Symposium on Opearting Systems Design & Implementation. USENIX Association, 2004: 107-113.
[6] Ghemawat S, Gobioff H, Leung S T. The Google file system[J].Acm Sigops Operating Systems Review, 2003, 37(5):29–43.DOI:10.1145/1165389
[7] Chang F, Dean J, Ghemawat S, et al. Bigtable: a distributed storage system for structured data[J].ACM Transactions on Computer Systems, 2008, 26(2):205–218.
[8] Cohen J, Dolan B, Dunlap M, et al. MAD skills: new analysis practices for big data[J].Proceedings of the Vldb Endowment, 2009, 2(2):1481–1492.DOI:10.14778/1687553
[9] 覃雄派, 王会举, 杜小勇, 等. 大数据分析:RDBMS与MapReduce的竞争与共生[J].计算机光盘软件与应用, 2013, 23(7):55–56.
[10] Laurie B, Laurie P. Apache: the defini-tive guide[M].3rd ed.O'Reilly & Associates, 2005: 14-60.
[11] 蔡斌, 陈湘萍. Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理[M].北京: 机械工业出版社, 2013: 151-184.
[12] 董西成. Hadoop技术内幕:深入解析MapReduce架构设计与实现原理: in-depth study of mapreduce[M].北京: 机械工业出版社, 2013: 228-240.
[13] 魏迪. 基于Hadoop的海量业务数据分析平台的设计与实现[D]. 北京: 北京邮电大学, 2013.
[14] Thusoo A, Sarma J S, Jain N, et al. Hive: a warehousing solution over a map-reduce framework[J].Proceedings of the Vldb Endowment, 2009, 2(2):1626–1629.DOI:10.14778/1687553
[15] Hoffman S. Apache flume: distributed log collection for Hadoop[M].Birmingham: Packt Publishing, 2013: 24-88.
[16] Gupta S, Dutt N, Gupta R, et al. SPARK: a high-level synthesis framework for applying parallelizing compiler trans-formations[C]//International Conference on Vlsi Design. IEEE Computer Society, 2003:461-466.


相关话题/数据 系统 邮政 实验 设计

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • NaCl溶液静态闪蒸瞬态传热特性的实验研究
    王朝阳,张丹,杨庆忠,王宇,严俊杰西安交通大学动力工程多相流国家重点实验室,西安7100492016年04月22日收稿;2016年07月14日收修改稿基金项目:国家自然科学基金(51306148,51436006)资助通信作者:严俊杰,E-mail:yanjj@xjtu.edu.cn摘要:对NaCl ...
    本站小编 Free考研考试 2021-12-25
  • 空气-水段塞流冷却传热与相界面分布实验研究
    王鑫1,董传帅2,张晓凌1,岳晓庆1,何利民11.中国石油大学(华东)储运与建筑工程学院储运系,山东青岛266580;2.香港理工大学,香港9990772016年04月28日收稿;2016年07月22日收修改稿基金项目:国家自然科学基金(51376197)和山东省自然基金(ZR2011EEM029) ...
    本站小编 Free考研考试 2021-12-25
  • 气液两相间歇流管道蜡沉积实验研究
    高歌,吴海浩,全青,宫敬,王玮中国石油大学(北京)油气管道输送安全国家工程实验室,北京1022492016年05月25日收稿;2016年11月22日收修改稿基金项目:国家自然科学基金重点基金(51534007)和国家科技十三五重大专项(2016ZX05028-004-001)资助通信作者:宫敬,E- ...
    本站小编 Free考研考试 2021-12-25
  • 微小颗粒在多孔介质中运移的实验研究
    雷海燕1,崔明杰1,戴传山1,李琪21.天津大学中低温热能高效利用教育部重点实验室,天津300072;2.东北电力大学,吉林吉林1320122016年04月18日收稿;2016年09月28日收修改稿基金项目:国家自然科学基金(51306130和41574176)资助通信作者:雷海燕,E-mail:l ...
    本站小编 Free考研考试 2021-12-25
  • 面向移动健康医疗系统的多层二分网络推荐算法
    周岩,雷世尧,张灿中国科学院大学电子电气与通信工程学院,北京1000492016年04月28日收稿;2016年05月18日收修改稿基金项目:国家自然科学基金(61571416)资助通信作者:张灿,E-mail:czhang@ucas.ac.cn摘要:移动健康医疗系统是信息搜索、精准服务和信息过滤的重 ...
    本站小编 Free考研考试 2021-12-25
  • SAR原始数据压缩的自适应比特分配BAQ算法
    潘志刚,王小龙,李志勇中国科学院电子学研究所,北京1001902016年03月16日收稿;2016年05月16日收修改稿基金项目:国家自然科学基金(61101201)资助通信作者:潘志刚,E-mail:zgpan@mail.ie.ac.cn摘要:针对SAR原始数据压缩,在传统BAQ算法基础上,提出一 ...
    本站小编 Free考研考试 2021-12-25
  • UHFRFID读写器系统的设计与实现
    郭振军1,2,孙应飞11.中国科学院大学,北京100049;2.桂林电子科技大学信息科技学院,广西桂林5410042016年04月19日收稿;2016年05月30日收修改稿通信作者:郭振军,E-mail:zjguo666@126.com摘要:针对现有识别系统的结构复杂及成本高的弊端,设计一款由分立元 ...
    本站小编 Free考研考试 2021-12-25
  • 强磁场和电场作用下的液态金属飞溅抑制的实验研究
    李粲,王增辉,贾潇,倪明玖中国科学院大学工程科学学院,北京1000492017年01月11日收稿;2017年04月28日收修改稿基金项目:国家自然科学基金(51476162)和973ITER项目(2013GB114001)资助通信作者:王增辉,E-mail:wzhawk@ucas.ac.cn摘要:液 ...
    本站小编 Free考研考试 2021-12-25
  • 基于SCUSS和SDSS数据的银河系晕金属丰度分布
    左文波,杜翠花中国科学院大学物理科学学院,北京1014082017年03月21日收稿;2017年05月04日收修改稿基金项目:国家自然科学基金委员会-中国科学院天文联合基金(U1231113)和中国科学院大学校所合作基金资助通信作者:杜翠花,E-mail:ducuihua@ucas.ac.cn摘要: ...
    本站小编 Free考研考试 2021-12-25
  • CCI:一种基于容器化的持续集成系统
    张兆晨,罗铁坚中国科学院大学计算机与控制学院,北京1014082017年03月10日收稿;2017年05月16日收修改稿基金项目:中国科学院仪器设备共享管理系统优化项目(Y42901VED2)资助通信作者:张兆晨,E-mail:zhangzhaochen14@mails.ucas.ac.cn摘要:随 ...
    本站小编 Free考研考试 2021-12-25