删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于在线性能测试的概念漂移检测方法

本站小编 Free考研考试/2022-01-02

摘要:概念漂移是动态流数据挖掘中一类常见的问题,但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果,即模型在线测试性能的不稳定波动,导致二者容易混淆,发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问题,提出一种基于在线性能测试的概念漂移检测方法(concept drift detection method based on online performance test,简称CDPT).该方法将最新获得的数据集进行均匀分组,在每组子数据集上分别进行在线学习,同时记录每组子数据集训练测试得到的分类精度向量,并计算相邻学习时间单元之间的精度落差,依据测试精度下降阈值得到有效波动位点.然后采用交叉检验的方式整合不同分组中的有效波动位点,以消除流数据在线学习过程中由于训练样本过小导致模型不稳定造成的检测干扰,根据精度波动一致性得到一致波动位点.最后,通过跟踪在线学习分类准确率,得到一致波动位点邻域参照点的测试精度变化,比较一致波动位点邻域参照点对应的模型测试精度下降幅度及收敛情况,以有效检测一致波动位点当中真实的概念漂移位点.实验结果表明,该方法能够有效辨识流数据在线学习过程中发生的真实概念漂移,并能有效避免训练样本过小或者流数据中噪声对检测结果的负面影响,同时提高模型的泛化性能.



Abstract:Concept drift is a common problem in dynamic streaming data mining, but the false concept drift generated by the mixed noise data or too small scale size training data will cause similar results to the concept drift, that is, the instability fluctuation of model online testing performance, which leads to confusion between them, and the false alarm of concept drift. To address the problem which is easy to confuse the authenticity of concept drift, concept drift detection method based on online performance test, namely CDPT, is presented. With CDPT, the latest acquired data are evenly divided into groups, and online learning is performed on each group sub sets. At the same time, the classification accuracy vectors obtained by training and testing of each group sub sets are recorded, and the accuracy difference between adjacent learning time units is calculated. The effective fluctuation points are obtained according to the testing accuracy decline threshold. Then, the effective fluctuation points in different groups are integrated by cross checking to eliminate the detection interference caused by the instability of the model due to the small training samples in the online learning process of streaming data, and the consistent fluctuation points are obtained according to the consistency of accuracy fluctuation. Finally, by tracking the classification accuracy of online learning, the change of testing accuracy can be achieved of neighborhood reference points of consistent fluctuation points, and the decline and convergence of model testing accuracy can be compared of neighborhood reference points of consistent fluctuation points, so as to effectively detect the true concept drift points of the consistent fluctuation points. The experimental results demonstrate that the proposed CDPT method can effectively identify the true concept drift occurring in the online learning process of streaming data, effectively avoid the negative impact of too small training samples or noise on the detection results, and improve the generalization performance of the model.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5917
濠电姷鏁搁崑鐐哄垂閸洖绠伴柟缁㈠枛绾惧鏌熼崜褏甯涢柣鎾寸☉椤潡鎳滃妤婁邯閹﹢鎮╃紒妯煎帾闂佸壊鍋呯换鍕春閿濆鐓欑€规洖娲ら埢鍫⑩偓瑙勬礃缁秹骞忛崨鏉戞嵍妞ゆ挾鍠愰蹇涙⒒閸屾艾鈧嘲霉閸ヮ灛娑㈠礋椤愩倖娈惧銈嗗坊閸嬫挻銇勯锝囩疄濠碘剝鎮傞崺鈩冩媴閾忕懓骞€濠碉紕鍋戦崐鏍偋濡ゅ懏鍋¢柕鍫濇穿婵娊鏌℃径濠勬皑婵℃彃鐗撻弻锟犲礃閿濆懍澹曟繝鐢靛О閸ㄦ椽鏁冮姀鐘垫殾闁告繂瀚弳鍡涙煕閺囥劌澧繛鍫濈焸濮婃椽宕ㄦ繝鍌毿曟繛瀛樼矌閸嬨倕鐣峰ú顏勭伋闁哄倶鍎查~宥夋⒑鐟欏嫬鍔ら柣掳鍔庢禍鎼侇敃閵堝洨锛滃┑掳鍊曢崯顐﹀几閺冨牊鐓欏瀣閳诲牊顨ラ悙鏉戠伌妤犵偛娲、娆撳传閸曨亣鍩呴梻鍌氬€风粈渚€骞栭锕€纾圭憸鐗堝笚閸嬶繝寮堕崼姘珕妞ゎ偅娲熼弻銊╂偆閸屾稑顏�
2濠电姷鏁搁崑鐐哄垂閸洖绠扮紒瀣紩濞差亜惟闁冲搫顑囩粙蹇涙⒑閸︻厼鍔嬫い銊ユ瀹曠敻鍩€椤掑嫭鈷戦柛娑橈工婵箑霉濠婂懎浠辩€规洘妞介弫鎾绘偐瀹曞洤骞楅梻渚€娼х换鍫ュ磹閺嵮€妲堢憸鏃堝蓟閿濆鐒洪柛鎰典簼閸n厾绱撴担鍓插剰闁挎洦浜顐﹀磼閻愭潙娈愰梺鍐叉惈閸犳艾危閸楃偐鏀介柍钘夋娴滅偛顭胯椤ㄥ﹪寮€n剛纾藉ù锝夋涧婵倸霉濠婂棗鐓愬ǎ鍥э功閳ь剚绋掕摫濠殿垰顕槐鎺戔槈濮楀棗鍓辩紓鍌氱Т閿曘儲绌辨繝鍥舵晝闁靛牆鎷嬮弳顓㈡⒑閸撹尙鍘涢柛銊ョ埣瀹曟椽鍩€椤掍降浜滈柟杈剧稻绾埖銇勯敂鑲╃暤闁哄本绋戦埢搴ょ疀閺囩媭鍞圭紓鍌欑窔缂傛艾螞閸曨喚浜欓梻浣告啞濞诧箓宕㈣ぐ鎺戠;闁圭儤顨嗛埛鎴︽煕濠靛棗顏╅柍褜鍓欑紞濠囧箖闁垮缍囬柍鍝勫亞濞肩喎鈹戦瑙掔懓鈻斿☉銏″剹婵°倐鍋撻柍瑙勫灴閹晠骞撻幒鍡椾壕闁归棿绀侀柨銈呪攽閻樻彃鏋ゆ繛鍫滅矙閺岋綁骞囬浣叉灆闂佹悶鍊楅崰鎰崲濠靛鐒垫い鎺戝閻掓椽鏌涢幇顖涚《闁活厽顨呴埞鎴︻敊缁涘鐣堕梺缁橆殔缁绘帞鍒掗崼鐔风窞閻庯綆鍓涢鏇㈡⒑閻熼偊鍤熷┑顔炬暬瀵娊鍩¢崒婊咁啎闁荤姴娉ч崟顐紦547闂傚倸鍊风粈浣革耿闁秲鈧倹绂掔€n亞锛涢梺鐟板⒔缁垶鍩涢幒妤佺厱闁哄洦顨嗗▍鍛存煟韫囷絼閭柡宀嬬到铻栭悗锝庡亜椤忥拷4濠电姷鏁搁崑鐐哄垂閸洖绠扮紒瀣紩濞差亝鏅查柛銉㈡櫇椤︻垶姊洪悷閭﹀殶闁稿鍠栭崺銏ゅ籍閳ь剟濡甸崟顔剧杸闁规儳顕ˇ閬嶆⒑缁嬫鍎愰柟鐟版搐閻e嘲顫滈埀顒勩€侀弮鍫濆耿婵°倕鍟獮鎰版⒒閸屾瑧顦﹂柛姘儏椤灝顫滈埀顒€鐣烽鐑嗘晝闁靛繈鍨哄▓楣冩⒑闂堟侗妾у┑鈥虫喘閸┿垽寮崼鐔哄幍闂佺顫夐崝鏇㈡儍濞差亝鐓熼柣鏃堟敱鐠愶紕绱掓潏銊ョ瑲鐎垫澘瀚埀顒婄秵娴滅偞绂掗悡搴樻斀闁绘劘娉涚槐锕傛煕濡ゅ嫭鐝ǎ鍥э功閳ь剚绋掕摫濠殿垱鎸抽幃宄扳枎濞嗘垵鍩屾繛瀛樼矒缁犳牠寮诲☉銏犵疀闁稿繐鎽滈弫鏍⒑缁洘娅旂紒缁樼箞瀵鈽夊⿰鍛澑闂佹寧绻傞幊搴綖閳哄懏鈷戦柛娑橈功閹虫洜绱掓潏銊︾妤犵偛绻橀幃鈺冩嫚閼碱剦鍟嬮梻浣告啞娓氭宕归幎鍓垮洭鍩¢崨顔规嫼闁荤偞绋堥埀顒€鍘栨竟鏇㈡⒒娴e憡璐¢弸顏嗙磼閵娿劌浜圭紒顕呭幗瀵板嫰骞囬鐘插箻闂備礁鎼€氼剛鎹㈤幒鏃囧С闁圭ǹ绨烘禍婊堟煛閸ヮ煁顏堟倶閼碱兘鍋撳▓鍨珮闁稿锕ら锝囨崉鐞涒剝鐎婚梺璇″瀻閸忎勘鍊濆缁樻媴閻熼偊鍤嬬紓浣割儐閸ㄨ儻妫熷銈嗘尪閸ㄥ綊鎮為崹顐犱簻闁圭儤鍩婇弨濠氭倵濮樼偓瀚�40缂傚倸鍊搁崐椋庣矆娓氣偓钘濇い鏍ㄧ矌閻挾鈧娲栧ú銊х不閺冨牊鐓欓柟顖嗗苯娈堕梺宕囩帛濮婂綊骞堥妸銉建闁逞屽墰濞戠敻骞栨担鍛婄€柣搴秵娴滃爼鎮㈤崱娑欏仯闁搞儻绲洪崑鎾诲礂閸涱収妫滅紓鍌氬€峰ù鍥ㄣ仈閹间焦鍋¢柍鍝勬噹閽冪喓鈧厜鍋撻柛鏇ㄥ亞椤撴椽姊洪幐搴g畵婵炶尙濞€瀹曟垿骞樼紒妯诲劒闁荤喐鐟ョ€氼剟宕㈣ぐ鎺撯拺闁告繂瀚婵嬫煕鎼淬垹鐏╂俊鍙夊姇楗即宕奸悢鍝勫妇闂備胶纭堕崜婵喢洪弽顐ュС缂侇偄瀵梻鍌氬€风欢姘缚瑜嶈灋闁哄啫鍊婚惌鍡椕归敐鍫殙闁荤喐瀚堥弮鍫濆窛妞ゆ棁顫夌€垫牠姊绘担鍛婂暈濞撴碍顨婂畷銏ゆ寠婢跺棙鐎洪悗鍏夊亾闁告洦鍓涢崢閬嶆⒑閸濆嫬鏆為柟绋垮⒔婢规洟骞愭惔娑楃盎闂侀潧楠忕槐鏇€€傞懠顒傜<闁哄啫鍊搁弸娑欍亜閵忊剝绀嬮柟顔规櫊椤㈡洟锝為鐑嗘婵犵數鍋犻幓顏嗙礊閳ь剚銇勯銏╂█闁诡噯绻濋崺鈧い鎺戝閳锋帡鏌涚仦鎹愬闁逞屽厸缁瑩銆佸▎鎰瘈闁告洦鍓﹀ḿ鐔兼⒑閸撴彃浜濇繛鍙夌墱缁崵绱掑Ο闀愮盎闂佽宕樺▔娑㈩敁瀹€鍕厸濞达絽澹婇崕蹇斻亜椤撯剝纭堕柟椋庡█閸ㄩ箖宕楅崨顖涘瘻闂傚倷绶氶埀顒傚仜閼活垶宕㈤幖浣圭厾闁告劘灏欓崺锝呪攽閿涘嫭鏆柟顔界懇瀵爼骞嬮鐐搭啌濠电姵顔栭崰妤呮晝閳哄懎绀傛繛鎴炵椤洟鏌ㄥ┑鍡樺仾鐟滅増甯楅弲鏌ユ煕閳╁啰鎳呴柣鎾冲€搁—鍐Χ閸愩劎浠剧紒鐐緲缁夊墎鍒掗埡鍛亜缁炬媽椴搁弲婵嬫⒑闂堟稓澧曟繛璇х畵楠炲棝鏁愭径瀣ф嫼闂佸湱枪濞寸兘鍩ユ径瀣ㄤ簻闁挎棁顕у顕€鏌涢埞鎯т壕婵$偑鍊栫敮鎺楁晝閵壯€鍋撳鐐28缂傚倸鍊搁崐椋庢閿熺姴纾诲鑸靛姦閺佸鎲搁弮鍫㈠祦闁告劦鍠栫粻濠氭煕閹捐尙绐旈柍鐟扮箲缁绘繈濮€閿濆棛銆愬Δ妤婁簼閹稿啿鐣峰┑瀣窛閻庢稒岣块崢閬嶆⒑閸濆嫬鏆婇柛瀣尵缁辨帞鈧綆鍋呭畷宀€鈧鍣崑濠囧箖娴犲鍨傛い鎰╁灩楠炴垿姊绘担鍛婃儓婵炶绠戦~婵嬪Ω閳哄倸浠梺瀹犳〃鐠佹彃危閸儲鐓欓柣鎰靛墯缂嶆垿鏌熼崗鍏煎€愰柡灞界Х椤т線鏌涢幘鍗炲妤犵偛绻橀弫鎾绘晸閿燂拷1130缂傚倸鍊搁崐椋庣矆娓氣偓钘濇い鏍ㄧ矌閻捇鏌涢幘鑼槮闁搞劍绻堥弻銊╂偄閸濆嫅銏㈢磼閳ь剟宕掗悙瀵稿幈濠电偞鍨堕敃顐﹀绩缂佹ḿ绠鹃柛顐g箘閻掓悂鏌$仦绋垮⒉鐎垫澘瀚埀顒婄秵娴滄粓锝為崶顒佲拺闂侇偆鍋涢懟顖涙櫠妤e啯鐓欓柛鎴欏€栫€氾拷
相关话题/数据 测试 计算 干扰 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 面向众包数据清洗的主动学习技术
    摘要:传统方法多数采用机器学习算法对数据进行清洗.这些方法虽然能够解决部分问题,但存在计算难度大、缺乏充足的知识等局限性.近年来,随着众包平台的兴起,越来越多的研究将众包引入数据清洗过程,通过众包来提供机器学习所需要的知识.由于众包的有偿性,研究如何将机器学习算法与众包有效且低成本结合在一起是必要的 ...
    本站小编 Free考研考试 2022-01-02
  • 人工智能赋能的数据管理技术研究
    摘要:大数据时代,数据规模庞大、数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.人工智能赋能的数据库系统通过对数据分布、查询负载、性能表现等特征进行建模和学习,自动地进行查询负载预测、数据库配置参数调优、数据分 ...
    本站小编 Free考研考试 2022-01-02
  • 人工智能赋能的数据管理、分析与系统专刊前言
    摘要:大数据时代,数据规模庞大,数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.专刊强调数据管理与人工智能的深度融合,研究人工智能赋能的数据库新技术和新型系统,包括两方面:(1)传统数据管理、数据分析技术及系统 ...
    本站小编 Free考研考试 2022-01-02
  • 面向关系数据库的智能索引调优方法
    摘要:数据库索引是关系数据库系统实现快速查询的有效方式之一.智能索引调优技术可以有效地对数据库实例进行索引调节,从而保持数据库高效的查询性能.现有的方法大多利用了数据库实例的查询日志,它们先从查询日志中得到候选索引,再利用人工设计的模型选择索引,从而调节索引.然而,从查询日志中产生出的候选索引可能并 ...
    本站小编 Free考研考试 2022-01-02
  • 面向数据特征的内存跳表优化技术
    摘要:跳表作为数据库中被广泛采用的索引技术,优点在于可以达到类似折半查找的复杂度O(log(n)).但是标准跳表算法中,结点的层数是通过随机算法生成的,这就导致跳表的性能是不稳定的.在极端情况下,查找复杂度会退化到O(n).这是因为经典跳表结构没有结合数据的特征.一个稳定的跳表结构应该充分考虑数据的 ...
    本站小编 Free考研考试 2022-01-02
  • 基于相关性分析的工业时序数据异常检测
    摘要:多维时间序列上的异常检测,是时态数据分析的重要研究问题之一.近年来,工业互联网中传感器设备采集并积累了大量工业时间序列数据,这些数据具有模式多样、工况多变的特性,给异常检测方法的效率、效果和可靠性均提出更高要求.序列间相互影响、关联,其隐藏的相关性信息可以用于识别、解释异常问题.基于此,提出一 ...
    本站小编 Free考研考试 2022-01-02
  • 面向多维稀疏数据仓库的欺诈销售行为挖掘
    摘要:分销渠道系统中,产品制造商会分配给销售额较大的分销商更多返点利润鼓励销售,而分销商之间可能会联合起来将多个分销商的销售业绩累计在其中一个分销商上,获取高额利润,这种商业欺诈行为被称为挂单或窜货.由于数据中大量正常极值点的存在,使得传统异常探测算法很难区分正常极值和由挂单导致的异常极值;另外,多 ...
    本站小编 Free考研考试 2022-01-02
  • 轩辕:AI原生数据库系统
    摘要:大数据时代下,数据库系统主要面临3个方面的挑战:首先,基于专家经验的传统优化技术(如代价估计、连接顺序选择、参数调优)已经不能满足异构数据、海量应用和大规模用户对性能的需求,可以设计基于学习的数据库优化技术,使数据库更智能;其次,AI时代,很多数据库应用需要使用人工智能算法,如数据库中的图像搜 ...
    本站小编 Free考研考试 2022-01-02
  • 学习式数据库系统:挑战与机遇
    摘要:通用的数据库系统为不同的应用需求与数据类型提供统一的处理方式,在取得了巨大成功的同时,也暴露了一定的局限性:由于没有结合具体应用的数据分布与工作负载,系统往往难以保证性能的最优.为了解决这一问题,"学习式数据库系统"成为了目前数据库领域的研究热点,它利用机器学习技术有效捕获负载与数据的特性,从 ...
    本站小编 Free考研考试 2022-01-02
  • 数据集成方法发展与展望
    摘要:数据集成在数据管理与分析领域起着重要的作用.尽管从学术界首次提出并开始研究数据集成问题已经过去30多年,但在各个领域仍然存在着大量与数据集成问题密切相关的问题亟待解决.对数据集成领域从2001年开始到现在相关工作的发展脉络进行了梳理与总结.通过追踪数据集成方法的发展轨迹,不仅可以了解前人在解决 ...
    本站小编 Free考研考试 2022-01-02
闂傚倸鍊风粈浣虹礊婵犲倴缂氱憸鏃堛€侀弽顓炲耿婵$偟绮弫鐘绘⒑闁偛鑻晶鎾煟閹垮啫浜扮€规洖澧庨幑鍕姜閺夋寧鐎抽梻鍌欑窔閳ь剛鍋涢懟顖涙櫠娴煎瓨鐓曢柣妯荤叀閸欏嫮鈧娲忛崹鑺ヤ繆閸洖鐐婇柕濞垮労娴兼洟姊洪懡銈呮瀾闁荤喆鍎抽埀顒佸嚬閸欏啫顕i幎钘夐唶闁靛濡囬崢閬嶆⒑瑜版帒浜伴柛鎾寸懇閵嗗啫鈻庨幋鐘碉紲闂佸憡鐟﹂敋鐎规挸妫涢埀顒冾潐濞插繘宕濋幋锕€鏋侀柟鍓х帛閺呮悂鏌ㄩ悤鍌涘闂傚倸鍊烽悞锔锯偓绗涘懐鐭欓柟杈鹃檮閸庢柨鈹戦崒姘暈闁稿鍠愮换娑㈠箣濞嗗繒浠肩紒缁㈠幐閸嬫捇姊虹拠鏌ヮ€楁繝鈧潏銊﹀弿閻庨潧鎽滄稉宥嗐亜閺嶎偄浠﹂柣鎾存礃缁绘盯宕卞Ο鍝勵潕婵犫拃灞藉缂佺粯绻堥崺鈧い鎺戝缁犮儲銇勯弮鈧崕鍐茬暦閵夈儮鏀介柣鎰级椤ョ偤鎮介婊冧槐濠碘€崇埣椤㈡洟鏁傞悾灞藉箰闂備胶枪閺堫剛绮欓幘璇茬疇闁糕剝鐟﹂崑鏍ㄧ箾閸℃ɑ灏伴柣鎾存礃娣囧﹪顢涘▎鎺濆妳闂佺ǹ瀛╅崹鍦閹捐纾兼慨妯哄悑妤旈梻渚€鈧偛鑻晶瀛樼箾娴e啿鍚樺☉妯锋闁靛繆鈧厖鍑芥繝鐢靛Т閿曘倝鎮ф繝鍥х柧妞ゆ帒瀚悡銉╂煟閺囩偛鈧湱鈧熬鎷�