一种基于聚类的过抽样算法
王换,周忠眉闽南师范大学计算机学院, 福建 漳州 363000
收稿日期:
2017-08-24出版日期:
2018-06-20发布日期:
2017-08-24作者简介:
王换(1990— ),女,河南安阳人,硕士研究生,主要研究方向为数据挖掘. E-mail:704807435@qq.com基金资助:
国家自然科学基金资助项目(61170129)An over sampling algorithm based on clustering
WANG Huan, ZHOU ZhongmeiSchool of Computer, Minnan Normal University, Zhangzhou 363000, Fujian, China
Received:
2017-08-24Online:
2018-06-20Published:
2017-08-24摘要/Abstract
摘要: 在过抽样技术研究中,为了合成较有意义的新样本,提出一种基于聚类的过抽样算法ClusteredSMOTE-Boost。过滤小类的噪声样本,将剩余的每个小类样本作为目标样本参与合成新样本。对整个训练集聚类,根据聚类后目标样本所在簇的特点确定其权重及合成个数。将所有目标样本聚类,在目标样本所在的簇内选取K个近邻,并从中任选一个与目标样本合成新样本,使新样本与目标样本簇内的样本尽量相似,并减少由于添加样本而造成的边界复杂度。试验结果表明,ClusteredSMOTE-Boost算法在各个度量上均明显优于SMOTE-Boost、ADASYN-Boost和BorderlineSMOTE-Boost三种经典算法。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=383