删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于数据分布的标签噪声过滤

本站小编 Free考研考试/2020-04-15

陈庆强1, 王文剑2, 姜高霞1
1. 山西大学 计算机与信息技术学院, 太原 030006;
2. 山西大学 计算智能与中文信息处理教育部重点实验室, 太原 030006

收稿日期:2018-09-10
基金项目:国家自然科学基金资助项目(61673249);山西省回国留学人员科研基金资助项目(2016-004);赛尔网络下一代互联网技术创新项目(NGII20170601)
作者简介:陈庆强(1994-), 男, 硕士研究生
通信作者:王文剑, 教授, E-mail:wjwang@sxu.edu.cn

摘要:在监督学习中,标签噪声对模型建立有较大的影响。目前对于标签噪声的处理方法主要有基于模型预测的过滤方法和鲁棒性建模方法,然而这些方法存在过滤效果差或者过滤效率低等问题。针对该问题,该文提出一种基于数据分布的标签噪声过滤方法。首先对于数据集中的每一个样本,根据其近邻内样本的分布,将其及邻域样本形成的区域划分为高密度区域和低密度区域,然后针对不同的区域采用不同的噪声过滤规则进行过滤。与已有方法相比,该方法从数据分布角度出发,使得噪声过滤更具有针对性从而提高过滤效果;此外,使用过滤规则对噪声数据进行处理而非建立噪声预测模型,因而可以提高过滤效率。在15个UCI标准多分类数据集上的实验结果表明:该方法在噪声低于30%时,噪声检测效率和分类精度均有很好的表现。
关键词:标签噪声噪声过滤模型鲁棒性数据分布
Label noise filtering based on the data distribution
CHEN Qingqiang1, WANG Wenjian2, JIANG Gaoxia1
1.School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China;
2.Key Laboratory of Computation Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006, China


Abstract: Label noise can severely influence supervised learning models. Existing methods are mainly based on model predictions and robust prediction modeling. However, these methods are sometimes not effective or efficient. This paper presents a label noise filtering method based on the data distribution. First, the area formed by each sample and the vicinage samples is divided into high density area or low density areas according to the distribution of the vicinage samples. Then, different noise filtering rules are used to deal with the different areas. Thus, this approach takes the data distribution into account so that the label noise filtering is focused on the key data and can avoid over-filtering. Filter rules are used instead of a noise filter forecasting model, which improves the efficiency. Tests on 15 UCI standard multi-class data sets show that this approach is effective and efficient.
Key words: label noisenoise filteringrobust modelingdata distribution
现实生活中的数据由于信息的不充分、编码传递过程中的误差以及标签标定过程中的主观性(如在医学、图像等领域)等因素,使得数据中包含一定比例的噪声。根据噪声在数据中产生的位置,可以将噪声分为属性值噪声与标签噪声。前者是指观测误差仅仅发生在数据的属性值中,后者是指观测误差仅仅发生在数据的标签中。标签噪声给建模带来的影响往往大于属性值噪声[1]。标签噪声可能会增加模型复杂度[2],降低数据集的利用率[3],降低分类精度[4-7]等。
噪声鲁棒性建模和基于模型预测的噪声数据过滤方法是处理标签噪声的主要方法,前者主要通过鲁棒性损失[8]、重要性加权[9]、集成方法[10-11]以及决策树的划分准则[12]等方式来构建鲁棒性模型。许多基于鲁棒性建模的方法在监督学习中对于标签噪声并不是完全鲁棒,其模型的表现性能依然受标签噪声的影响[1,4,6-7]。因此,基于模型预测的噪声数据过滤方法更为常用,它主要通过模型预测的方法对噪声数据进行检测并移除,以达到降低噪声数据对建模影响的目的。
基于模型预测的过滤噪声方法主要以单分类器或集成分类器作为具体实现措施。在单分类器的过滤方法中,由于KNN(k-nearest neighbor)分类器对于标签噪声比较敏感,尤其在近邻个数取值较小时[13],因此一些****们提出了基于KNN的噪声数据过滤方法,典型的方法有:ENN(edited nearest neighbor)[14]、ANN(all k-nearest neighbor)[15]和CNN(condensed nearest neighbor)[16]。由于基于近邻规则的过滤方法效率较低而且数据分布对其影响较大,相比之下,集成分类器的应用比较广泛。
基于集成分类器的过滤方法主要是通过集成同质或者异质分类器对数据集中的每一个样本进行基于模型的预测,然后根据移除准则将数据集中的噪声数据移除。常用的移除准则有2种:多数投票准则与一致性投票准则,前者是指一个样本被大多数分类器分错则该样本就是一个噪声数据,后者则需要所有的分类器都将样本错分才将该样本判定为噪声数据。ND-KNN(noise-detection KNN)[17]是使用同质分类器的集成过滤方法的典型代表,该方法主要利用AdaBoost对噪声的敏感性优势来构建基于不同评价标准的标签噪声过滤方法,实验结果表明:基于KNN评价标准的AdaBoost方法在高噪声环境中检测性能相对较好,并且基于KNN评价准则构建的检测算法的降噪性能优于基于期望最大化的评价准则的降噪性能。因为噪声数据会增加模型的复杂度,所以也出现了一种基于降低模型复杂度的标签噪声过滤方法,如Prune-SF(prune saturation filter)算法[18]是通过决策树节点个数来衡量模型的复杂度,如果移除某一样本点能够降低模型的复杂度,则该样本点就是一个疑似噪声点。此外,还有一些基于主动学习思想以及其类似思想的方法如ALNR (active label noise remove)[19]和INNFC(iterative noise filter based on fusion of classifier)[6],这2种方法主要通过多重过滤机制对标签噪声进行辨别,以此来提高噪声过滤的效果。近期,一些基于噪声数据采样方式的噪声过滤方法被提出,例如PSAM(probabilistic sampling)[4]和TWE(two-stage ensemble method for detection of class noise)[5],前者采用概率性采样的方法来增加预测模型的鲁棒性,而后者则采用重采样与集成学习弹性投票的方式来提高模型对于标签噪声的预测效率。
尽管现阶段已经存在许多标签噪声过滤的方法,但是仍然存在一些问题值得研究。首先,这些方法容易出现过度过滤现象,即将非噪声数据去除,导致数据的利用率降低,影响预测模型的泛化能力;其次,建立噪声预测模型所使用到的数据本身含有标签噪声,使得模型预测可靠性不强。为此,本文提出一种基于数据分布的标签噪声过滤方DDF(data distribution filtering),首先对于数据集中的每一个样本根据其近邻内样本的分布,将其及邻域样本形成的区域划分为高密度区域和低密度区域,然后针对不同的区域采用不同的噪声过滤规则进行过滤。与已有方法相比,本文从数据分布角度出发,使得噪声过滤更具有针对性从而避免过度过滤现象的出现。此外,本文使用过滤规则对噪声数据进行处理而非建立噪声预测模型,克服基于模型预测过滤方法的缺陷, 从而提高过滤效率。
1 DDF算法建模该算法首先根据每一个样本及其近邻样本的分布,将其及邻域样本形成的区域划分为高密度区域和低密度区域,然后针对不同的区域采用不同的噪声过滤规则进行过滤。
1.1 数据区域划分对于某一样本xi,其标签为yi,定义其k近邻区域D(xi)的密度为
${\rm{density}}\left( {D\left( {{x_i}} \right)} \right) = \sum\limits_{j = 1}^k {{\rm{dist}}\left( {{x_i},{x_j}} \right)} .$ (1)
其中: dist(xi, xj)是xi与其近邻样本xj的距离。当density(D(xi))大于一个给定阈值α时,认为D(xi)为低密度区域表示为Dl(xi),否则为高密度区域表示为Dh(xi)。
根据样本及其邻域样本的标签,又可以将样本邻域分为混合标签区域(区域内样本属于不同类)和单一标签区域(区域内所有样本属于同一类)。一般地,在混合标签区域中样本密度较小,在单一标签区域中样本密度较大。在高密度区域中,样本标签相对单一,而在低密度区域中标签既可能相对单一,也可能是混合的。
图 1是一个基于数据分布划分区域的例子,图中有2类数据,AB区域为高密度区域,CD为低密度区域。在AB区域中,标签是一致的;在D区域中,2类数据都有,C区域则只有一类数据。
图 1 (网络版彩图)数据分布划分
图选项





本文采用局部标签信息熵HY(yi/D(xi))刻画D(xi)内标签混合程度,其定义如下:
${H_Y}\left( {{y_i}/D\left( {{x_i}} \right)} \right) = - {P_{\rm{s}}}{\log _2}{P_{\rm{s}}} - {P_{\rm{d}}}{\log _2}{P_{\rm{d}}}.$ (2)
其中变量Y为样本标签。PsPd分别表示如下:
${P_{\rm{s}}} = \frac{1}{k}\sum\limits_{j = 1}^k {I\left( {{y_i} = {y_j}} \right)} ,{x_j} \in D\left( {{x_i}} \right),$ (3)
${P_{\rm{d}}} = 1 - {P_{\rm{s}}}.$ (4)
其中I为指示函数。
HY(yi/Dl(xi))小于某一阈值δ时,认为该样本及其近邻处于单一标签区域,表示为Dls(xi);否则处于混合标签区域,表示为Dlm(xi)。
HY(yi/D(xi))所刻画的是D(xi)内样本标签的分布情况,但无法度量与内样本的远近程度。为此,本文采用相异性差值(difference of dissimilarity,DoD)对D(xi)内样本的距离分布进行度量,其定义如下:
$\begin{array}{*{20}{c}}{{\rm{DoD}}\left( {D\left( {{x_i}} \right)} \right) = \left| {\sum\limits_{d \in {S_d}\left( {D\left( {{x_i}} \right)} \right)} {{\rm{dist}}\left( {{x_i},d} \right)} - } \right.}\\{\left. {\sum\limits_{s \in {S_s}\left( {D\left( {{x_i}} \right)} \right)} {{\rm{dist}}\left( {{x_i},s} \right)} } \right|.}\end{array}$ (5)
其中Sd(D(xi))和Ss(D(xi))分别表示D(xi)区域内与xi标签不同的样本集合与标签相同的样本集合。
对于Dl(xi),可以使用HY(yi/D(xi))、DoD(D(xi))分别从标签分布和距离分布2个角度对其内的数据分布进行详细刻画,使得Dl(xi)的区域划分更加细致。
1.2 过滤方法在基于集成方法的标签噪声过滤中,多数投票和一致性投票是常用的2种过滤移除准则。在基于KNN的噪声过滤方法中,多数投票是指当D(xi)内多数样本标签与yi不同时,则yi是标签噪声;一致性投票是指当D(xi)内所有样本标签都与yi不同时,则yi才是标签噪声,否则yi不是标签噪声。
对于所有的标签噪声过滤方法,都容易出现2类过滤误差:当过滤方法把一个正确的数据判断为噪声数据时,此时发生的误差称为第一类误差,表示为E1;当过滤方法把一个噪声数据判断为非噪声数据时,此时发生的误差称为第二类误差,表示为E2。对于xi以及D(xi)区域,如果采用多数投票对其进行噪声过滤时,出现这2类误差的概率分别表示为$\mathbb{P}$(E1MV)和$\mathbb{P}$(E2MV);如果采用一致性投票对其进行噪声过滤时,出现这两类误差的概率分别表示为$\mathbb{P}$(E1CV)和$\mathbb{P}$(E2CV)。
由节1.1中的分析可知,在Dh(xi)中对于E1来说虽然$\mathbb{P}$(E1MV)>$\mathbb{P}$(E1CV),但是由于该区域内标签一致性程度较高,所以出现E1的概率较小;对于E2来说,存在$\mathbb{P}$(E2CV)>$\mathbb{P}$(E2MV),即一致性投票容易将噪声点保留,从而降低检测效果。因此,对于Dh(xi),使用多数投票对其进行过滤比较合理。
Dl(xi)中,如果xi处于Dls(xi),则同样应该采用多数投票进行过滤;如果处于Dlm(xi),则存在$\mathbb{P}$(E2CV)>$\mathbb{P}$(E2MV)和$\mathbb{P}$(E1MV)>$\mathbb{P}$(E1CV),此时采用多数投票和一致性投票都存在较大的过滤误差。因此,应该采用更小的近邻范围对该问题进行解决,因为xi与同类样本距离较小而与异类距离较大,所以采用缩小近邻范围的方法可以在一定程度上解决Dlm(xi)内样本标签噪声的过滤问题。
基于以上分析,本文提出基于数据分布的过滤规则,针对不同的分布采用不同的投票策略。对于样本xi,其具体噪声过滤规则如下:
1) 对于Dh(xi)以及Dls(xi),采用多数投票过滤策略进行噪声过滤。
2) 对于Dlm(xi),当DoD(D(xi)) < $\frac{\text{density}(D({{x}_{i}}))}{k}$时,则保留原样本标签,不对其进行判别。
3) 对于Dlm(xi)且DoD(D(xi))≥$\frac{\text{density}(D({{x}_{i}}))}{k}$时,使用Sα(D(xi))内样本采用多数投票规则对xi进行噪声判别,其中Sα(D(xi))表示如下:
${S_\alpha }\left( {D\left( {{x_i}} \right)} \right) = \cup {x_j}\;{\rm{s}}{\rm{.}}\;{\rm{t}}{\rm{.}}\;{\rm{dist}}\left( {{x_i},{x_j}} \right) \le \alpha ,{x_j} \in {D_l}\left( {{x_i}} \right).$ (6)
4) 对于规则(3)中不能过滤的情况,即Sα(D(xi))内的样本异类与同类个数相同或者Sα(D(xi))内没有样本时,则根据下一个最近邻的样本的标签对xi进行判断。本文采用近邻样本标签异同差比(difference ratio of label,DRL),将多数投票和一致性投票方法进行统一表示:
${\rm{DRL}}\left( {D\left( {{x_i}} \right)} \right) = \frac{{{C_d}\left( {{x_i}} \right) - {C_s}\left( {{x_i}} \right)}}{k}.$ (7)
其中Cd(xi)和Cs(xi)分别表示D(xi)内标签与yi不同的样本个数和相同的样本个数。
为说明本文提出的噪声过滤规则,图 2给出不同情况下噪声过滤的例子。图中实心圆表示待测样本T, 灰色实心圆表示T的5个近邻样本,α表示样本的密度阈值等值线,β为density(D(T))等值线。图 2a表示D(T)处于高密度区域,即β < α, 根据规则1, 采用多数投票规则进行噪声点过滤。图 2b2d表示D(T)处于低密度区域,即βα。对于Dls(T),根据近邻标签采用多数投票对其进行判断。以下通过几个具体的样本分布例子对处于Dlm(T)内的样本T进行噪声点判别分析。对于图 2b表示近邻样本都在α之外,当DoD(D(T))较小时,例如5个近邻样本中出现3个异类样本(距离α较近)和2个同类样本(距离α较远),则根据规则2不对T进行判别;当DoD(D(T))较大时,则根据规则3进行判别。图 2c中在α内外都有样本,当DoD(D(T))较大时,例如α之内的一个样本标签与T相同、在α之外有两个不同,此时根据规则3则采用α之内样本对其进行判断,但是由于α之内样本根据多数投票不能得出结果,因此需要采用规则4,在α之内的样本中找距离α最近的样本(如图 2d中黑色实心圆),根据其标签对T进行判别。
图 2 噪声过滤的例子
图选项





从例子中可以看出,针对不同的数据分布采取不同的判断规则对噪声数据进行判断更为合理,可以在一定程度上避免过度过滤现象,从而提高过滤效果,而且DDF规则也符合实际问题的处理过程。
1.3 DDF算法根据噪声过滤规则,本文提出的DDF算法的主要步骤总结如图 3所示。
图 3 DDF算法
图选项





DDF算法的主要时间用于建立近邻矩阵和计算局部信息熵。对于数据量为Nm维数据集来说,通过建立KD-Tree查找近邻的时间复杂度为O(N·m·logN),计算局部标签信息熵的时间复杂度为O(N·k)。由于一般情况下m·logN>k, 所以本文提出的DDF算法时间复杂度为O(N·m·logN)。
2 实验结果与分析2.1 实验数据集及评价指标为了较为全面地验证算法的有效性,本文从UCI标准数据集[20]中选取了15个多分类数据集验证算法的有效性,数据集的详细信息见表 1。为了消除不同属性取值范围对距离计算的影响,本文对所选的数据集都进行了属性值归一化处理。
表 1 数据集描述
UCI数据集 样本个数 特征个数 类别个数 领域
Iris 150 4 3 生命科学
Seeds 210 7 3 生命科学
Ecoli 272 7 3 生命科学
Yeast 1 136 8 3 生命科学
Glass 175 9 3 物理学
Contraceptive Method 1 473 9 3 生命科学
Abalone 4 177 9 3 生命科学
Wine 178 13 3 物理学
Connectionist Bench 900 13 10 物理学
Letter Recongnition 2 204 16 3 计算机科学
Pen-Base Recongnition 5 451 16 5 计算机科学
Statlog(Vehicle) 846 18 4 汽车
Image Segmentation 2 310 19 7 图像
Landsat Satellite 4 435 36 6 物理学
Satimage 6 435 36 6 物理学


表选项






为了验证算法的降噪性能,在所选的数据集中采用随机替换类标签的方式进行实验。具体替换规则为:1)确定加噪比例NR(改变的标签数量占全部样本的比例);2)将改变的标签数量平均分配到每一类中;3)在每一类中随机选择样本,并随机替换为其他类别标签。分别选取NR值为5%、10%、20%、30%、40%进行实验。为了降低实验结果的随机性,本文所有实验均采用十折交叉验证的平均值作为最后的实验结果。
为了衡量噪声过滤算法的降噪性能,使用P(准确率)、R(召回率)、F值和Re(移除率)4个指标进行度量,它们分别定义如下:
$P = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FP}}}},$ (8)
$R = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}},$ (9)
${F_\beta } = \left( {1 + {\beta ^2}} \right)\frac{{P \cdot R}}{{{\beta ^2}P + R}},$ (10)
${\mathop{\rm Re}\nolimits} = \frac{{{\rm{RN}}}}{N}.$ (11)
其中: TP、FP、FN、RN分别表示过滤算法将真正人工噪声预测为噪声的数量、将非人工噪声判别为噪声的数量、将人工噪声判别为非噪声的数量、去除的数据量。Re指算法所辨别的噪声数量占全部数据量的比例,该指标旨在刻画算法是否出现过度过滤的现象。
为验证本文提出算法的高效性,将其与5种噪声过滤算法进行比较,分别是ND-KNN(k = 5)、Prune-SF、INNFC、PSAM和TWE。ND-KNN是基于近邻规则同时结合集成思想而提出的降噪算法,Prune-SF则是从降低模型复杂度的角度来检测噪声点,INNFC是从双重过滤以及噪声评估准则这2个角度出发而提出的标签噪声过滤方法,最后的PSAM和TWE则从噪声采样方式方面进行构建模型而后者在此基础上同时加入概率性集成投票机制。以上5种方法分别从不同角度对标签噪声进行过滤,与这些方法对比可以进一步验证本文算法的有效性。
2.2 实验结果1) 参数对算法的影响。
本文提出的算法参数有近邻参数k, 密度阈值α和信息熵阈值δ。为降低参数寻优的复杂性,令
$\delta = H_Y^ * \left( {{y_i}/D\left( {{x_i}} \right)} \right)\;\;\;\;\;{\rm{s}}.\;{\rm{t}}.\;\;\left| {{P_{\rm{s}}} - {P_{\rm{d}}}} \right| = \left\lfloor {k/3} \right\rfloor /k.$ (12)
本节实验主要验证kα对算法的影响。令参数kα的实验区间分别为[1,60], [dmax1%, dmax60%],其中密度阈值α选取规则为:样本集中任意2个样本的最大距离dmaxj%分位数dmaxj%作为密度阈值,即α = dmaxj% (j = 1, 2,…, 60)。
图 4是实验数据集在添加10%人工噪声的情况下,参数kαF1影响的色阶图。从图中可以发现每一幅色阶图在纵向颜色的变化比较明显,而在横向变化相对较小,也就是说在同一近邻参数下,α在[dmax1%, dmax60%]区间内对算法的影响程度不大,而近邻参数对F1影响比较大。因此本文将参数α在该区间内视为无关变量以降低算法参数寻优的复杂度,在后续实验中将α设置为dmax10%,进行近邻参数设置。
图 4 (网络版彩图)参数kαF1的影响
图选项





图 5是在α = dmax10%时,不同值下F1值的曲线图。图 5a为在15个数据集上算法检测噪声的F1值曲线,可以看到所有曲线走向大致相同。图 5b为通过归一化处理后的F1值曲线图,可以看到曲线的极值出现在某一区域。图 5c是对图 5b中曲线值在不同近邻下的累加值曲线,可以发现在近邻为k = 7时算法的降噪性能最优,因此在下一步实验中将使用k = 7作为算法DDF的默认参数。
图 5 (网络版彩图)参数kF1的影响
图选项





2) 噪声过滤性能比较。
图 6是算法过滤性能在F0.5和Re下的比较结果。因为PSAM算法主要针对提升分类准确率的问题而提出,所以其并没有针对性的移除数据,因此在该部分实验中不对其作对比分析。从图 6a曲线的整体走势来看,F值随着噪声比例的增加而增加。Prune-SF算法相比其他算法有较低的F值,INNFC和TWE有相似的曲线走向,本文提出的DDF算法在F值指标下噪声检测性能优于其他算法, ND-KNN过滤效果仅次于DDF,这在一定程度上可以说明本文所提出算法在标签噪声过滤方面的高效性。
图 6 过滤性能比较
图选项





图 6b为算法的移除率,从图中可以发现Prune-SF的移除率明显高于所对应的人工噪声比例NR。而DDF和INNFC的过滤效果相对保守,当NR在20%~40%的区间内时,ND-KNN和TWE移除率大致相同。从以上分析中可以得出Prune-SF可能出现过度过滤现象,在噪声环境较高时,INNFC和DDF会出现保守的过滤现象而ND-KNN和TWE的移除率处于正常水平。
图 7是6种标签噪声过滤算法的平均运行时间比较,从图中可以看到ND-KNN、Prune-SF以及INNFC算法有大致相同的运行时间,PSAM的运行时间最低、DDF次之而TWE的运行时间最高。其中Prune-SF由于需要遍历大部分的数据导致增加了算法的运行时间,ND-KNN由于受到Adaboost迭代次数的影响致使运行时间较高,INNFC由于需要计算可疑噪声样本的得分值从而增加其运行时间。对于TWE,由于其需要建立较多的C4.5决策树从而使得其运行时间较大。
图 7 算法运行时间比较
图选项





3) 分类性能比较。
图 8是分类准确率在不同噪声比例下的环比落差比较,该环比值越小,越能说明算法对噪声的鲁棒性越好。从图中可以看出,DDF的分类准确率的环比差值在(5~10, 10~20)这两个阶段相对较低,在其他两个阶段性能表现一般。而从总体环比值SRV来看, DDF相比其他算法有较明显的优势,这也在一定程度上说明DDF算法能够更有效地移除噪声数据从而保证较高的分类准确率。
图 8 分类准确率环比值
图选项





4 结论本文提出的标签噪声过滤方法主要以数据分布为中心,结合邻域数据的不同分布给出不同的噪声过滤策略。相比现有的标签噪声过滤方法,本文所提出的方法能够根据数据集自身的分布特点对标签噪声进行特殊处理,从而提高标签噪声过滤效果;另外,可以克服基于模型预测噪声过滤方法的自身缺陷,不仅过滤效果高而且过滤结果较为可靠。在不同的噪声环境中,本文提出的噪声过滤方法也具有较好的稳定性。由于本文方法对于数据分布的密度度量采用Euclidean距离,这可能对某些数据集在数据分布判定方面不是很恰当,如何扩展方法的适用范围值得进一步研究。此外,在噪声环境相对较高的情况下,算法的表现性能有待进一步提高。

参考文献
[1] FRENAY B, VERLEYSEN M. Classification in the presence of label noise:A survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(5): 845-869. DOI:10.1109/TNNLS.2013.2292894
[2] SEGATA N, BLANZIERI E, DELANY S J, et al. Noise reduction for instance-based learning with a local maximal margin approach[J]. Journal of Intelligent Information Systems, 2010, 35(2): 301-331. DOI:10.1007/s10844-009-0101-z
[3] VAN DEN HOUT A, VAN DER HEIJDEN P G M. Randomized response, statistical disclosure control and misclassification:A review[J]. International Statistical Review, 2002, 70(2): 269-288.
[4] YUAN W W, GUAN D H, MA T H, et al. Classification with class noises through probabilistic sampling[J]. Information Fusion, 2018, 41: 57-67. DOI:10.1016/j.inffus.2017.08.007
[5] SABZEVARI M, MARTíNEZ-MU?OZ G, SUáREZ A. A two-stage ensemble method for the detection of class-label noise[J]. Neurocomputing, 2018, 275: 2374-2383. DOI:10.1016/j.neucom.2017.11.012
[6] SáEZ J A, GALAR M, LUENGO J, et al. INFFC:An iterative class noise filter based on the fusion of classifiers with noise sensitivity control[J]. Information Fusion, 2016, 27: 19-32. DOI:10.1016/j.inffus.2015.04.002
[7] LUENGO J, SHIM S O, ALSHOMRANI S, et al. CNC-NOS:Class noise cleaning by ensemble filtering and noise scoring[J]. Knowledge-Based Systems, 2018, 140: 27-49. DOI:10.1016/j.knosys.2017.10.026
[8] MANWANI N, SASTRY P S. Noise tolerance under risk minimization[J]. IEEE Transactions on Cybernetics, 2013, 43(3): 1146-1151. DOI:10.1109/TSMCB.2012.2223460
[9] LIU T L, TAO D C. Classification with noisy labels by importance reweighting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(3): 447-461. DOI:10.1109/TPAMI.2015.2456899
[10] FRIEDMAN J, HASTIE T, TIBSHIRANI R. Additive logistic regression:A statistical view of boosting[J]. The Annals of Statistics, 2000, 28(2): 337-374.
[11] ABELLáN J, MASEGOSA A R. Bagging decision trees on data sets with classification noise[C]//The 6th International Symposium Foundations of Information and Knowledge Systems. Sofia, Bulgaria: Springer, 2010: 248-265.
[12] BARTLETT P L, JORDAN M I, MCAULIFFE J D. Convexity, classification, and risk bounds[J]. Journal of the American Statistical Association, 2006, 101(473): 138-156. DOI:10.1198/016214505000000907
[13] WILSON D R, MARTINEZ T R. Reduction techniques for instance-based learning algorithms[J]. Machine Learning, 2000, 38(3): 257-286. DOI:10.1023/A:1007626913721
[14] WILSON D L. Asymptotic properties of nearest neighbor rules using edited data[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1972.
[15] BARANDELA R, GASCA E. Decontamination of training samples for supervised pattern recognition methods[C]//Proceedings of the Joint IAPR International Workshops on Advances in Pattern Recognition. Alicante, Spain: Springer, 2000: 621-630.
[16] HART P. The condensed nearest neighbor rule (Corresp.)[J]. IEEE Transactions on Information Theory, 1968, 14(3): 515-516. DOI:10.1109/TIT.1968.1054155
[17] CAO J J, KWONG S, WANG R. A noise detection based AdaBoost algorithm for mislabeled data[J]. Pattern Recognition, 2012, 45(12): 4451-4465. DOI:10.1016/j.patcog.2012.05.002
[18] SLUBAN B, GAMBERGER D, LAVRAC N. Ensemble-based noise detection:Noise ranking and visual performance evaluation[J]. Data Mining and Knowledge Discovery, 2014, 28(2): 265-303. DOI:10.1007/s10618-012-0299-1
[19] EKAMBARAM R, FEFILATYEV S, SHREVE M, et al. Active cleaning of label noise[J]. Pattern Recognition, 2016, 51: 463-480. DOI:10.1016/j.patcog.2015.09.020
[20] DUA D, KARRA TANISKIDOU E. UCI machine learning repository[EB/OL].[2017-11-05]. http://archive.ics.uci.edu/ml.

相关话题/数据 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 热电偶熔敷埋设法测量CFB锅炉壁温的实验研究
    姚禹歌1,2,吕俊复1,2,张扬1,2,陈书洁1,2,张缦1,2,杨海瑞1,21.清华大学能源与动力工程系,热科学与动力工程教育部重点实验室,北京100084;2.清华大学能源与动力工程系,电力系统及发电设备控制和仿真国家重点实验室,北京100084收稿日期:2018-09-12基金项目:“十三五” ...
    本站小编 Free考研考试 2020-04-15
  • 基于中国人体CT数据的股骨和胫骨参数化模型的开发
    杜雯菁1,罗逍2,黄晗1,许述财1,张金换11.清华大学汽车安全与节能国家重点实验室,北京100084;2.一汽集团智能网联开发院,长春130011收稿日期:2018-07-15基金项目:国家自然科学基金资助项目(51305223)作者简介:杜雯菁(1990-),男,博士研究生通信作者:张金换,研究 ...
    本站小编 Free考研考试 2020-04-15
  • 异方差加噪下差分隐私流数据发布一致性优化算法
    孙岚,康健,吴英杰,张立群福州大学数学与计算机科学学院,福州350116收稿日期:2018-07-06基金项目:国家自然科学基金资助项目(61300026);福建省自然科学基金资助项目(2017J01754,2018J01797)作者简介:孙岚(1978-),女,讲师通信作者:吴英杰,教授,E-ma ...
    本站小编 Free考研考试 2020-04-15
  • 低气压环境对固体燃烧特性影响的实验研究
    冯瑞1,田润和2,陈科位3,叶君健4,张辉11.清华大学工程物理系,公共安全研究院,北京100084;2.北京数码视讯科技股份有限公司,北京100000;3.美的科技有限公司,佛山528311;4.华为技术有限公司,深圳518000收稿日期:2018-06-03基金项目:国家重大研发计划(2017Y ...
    本站小编 Free考研考试 2020-04-15
  • 面向社区风险防范的大数据平台理论架构设计
    贾楠1,郭旦怀2,陈永强3,刘奕11.清华大学工程物理系,公共安全研究院,北京100084;2.中国科学院计算机网络信息中心,北京100019;3.北京大学工学院,力学与工程科学系,北京100871收稿日期:2018-06-11基金项目:国家重点研发计划项目(2017YFC0803300);国家自然 ...
    本站小编 Free考研考试 2020-04-15
  • 软件定义网络中低成本流量数据采集算法
    赵俊1,包丛笑2,李星11.清华大学电子工程系,北京100084;2.清华大学信息化技术中心,北京100084收稿日期:2018-05-11作者简介:赵俊(1989-),男,博士研究生通信作者:李星,教授,E-mail:xing@cernet.edu.cn摘要:因为网络测量在软件定义网络中扮演着非常 ...
    本站小编 Free考研考试 2020-04-15
  • 满足本地差分隐私的位置数据采集方案
    高志强,崔翛龙,杜波,周沙,袁琛,李爱武警工程大学乌鲁木齐校区,乌鲁木齐830049收稿日期:2018-10-15基金项目:国家自然科学基金项目(U1603261);新疆维吾尔自治区自然科学基金项目(2016D01A080)作者简介:高志强(1989-),男,博士研究生通信作者:崔翛龙,教授,E-m ...
    本站小编 Free考研考试 2020-04-15
  • 结构化数据清洗技术综述
    郝爽1,2,李国良2,冯建华2,王宁11.北京交通大学计算机与信息技术学院,北京100044;2.清华大学计算机科学与技术系,数据库组,北京100084收稿日期:2018-07-31基金项目:国家重点研发计划项目(2018YFC0809800);国家自然科学基金项目(61373024,6163201 ...
    本站小编 Free考研考试 2020-04-15
  • 超临界压力CO2竖直管内传热恶化抑制实验
    王振川,胥蕊娜,熊超,姜培学清华大学热科学与动力工程教育部重点实验室,二氧化碳资源化利用与减排技术北京市重点实验室,北京100084收稿日期:2018-03-07基金项目:国家自然科学基金资助项目(51536004)作者简介:王振川(1989-),男,博士研究生通信作者:姜培学,教授,E-mail: ...
    本站小编 Free考研考试 2020-04-15
  • 极静环境对睡眠质量影响的实验探究
    燕翔1,王江华2,李卉2,陈雨潇11.清华大学建筑学院,北京100084;2.北京德尚静洁科技发展有限公司,北京100083收稿日期:2018-01-09作者简介:燕翔(1972-),男,副教授。E-mail:yx@abcd.edu.cn摘要:该实验通过对比受试者在背景噪声接近0dB(A)的极静环境 ...
    本站小编 Free考研考试 2020-04-15