1(山西大学计算机与信息技术学院 太原 030006);2(计算智能与中文信息处理教育部重点实验室(山西大学) 太原 030006) (xuh102@126.com)
出版日期:
2018-10-01基金资助:
国家自然科学基金项目(61673249);山西省回国留学人员科研基金项目(2016-004);赛尔网络下一代互联网技术创新项目(NGII20170601)A Feature Selection Method for Small Samples
Xu Hang1, Zhang Kai1, Wang Wenjian1,21(School of Computer and Information Technology, Shanxi University, Taiyuan 030006);2(Key Laboratory of Computational Intelligence and Chinese Information Processing(Shanxi University), Ministry of Education,Taiyuan 030006)
Online:
2018-10-01摘要/Abstract
摘要: 小样本数据由于其特征维数相对于样本数目较多,且常包含不相关或冗余特征,使得常用的机器学习算法处理小样本数据时无法得到好的效果,通过特征选择来降低数据维数是解决该问题的一种有效途径.针对小样本数据,提出一种基于互信息的过滤型特征选择方法,首先定义了基于互信息的特征分组标准,该标准同时考虑特征与类别的相关性和不同特征之间的冗余性,根据该标准对特征分组后,在各组内选出与类别相关性最大的特征构成候选特征子集,保证了算法具有较低的时间复杂度,之后采用Boruta算法,在候选特征子集中自动确定最佳特征子集,从而大幅度降低数据的维数.通过与5种经典的特征选择算法比较,在标准数据集上采用3种分类器的实验结果表明提出的方法选出的特征子集具有较好的运行效率和分类性能.
参考文献
相关文章 15
[1] | 刘艳芳, 李文斌, 高阳. 基于自适应邻域嵌入的无监督特征选择算法[J]. 计算机研究与发展, 2020, 57(8): 1639-1649. |
[2] | 郭亚庆,王文剑,苏美红. 一种针对异常点的自适应回归特征选择方法[J]. 计算机研究与发展, 2019, 56(8): 1695-1707. |
[3] | 闫小强,叶阳东. 共享和私有信息最大化的跨媒体聚类[J]. 计算机研究与发展, 2019, 56(7): 1370-1382. |
[4] | 綦小龙,高阳,王皓,宋蓓,周春蕾,张友卫. 一种可度量的贝叶斯网络结构学习方法[J]. 计算机研究与发展, 2018, 55(8): 1717-1725. |
[5] | 王玲,孟建瑶. 基于特征变权的动态模糊特征选择算法[J]. 计算机研究与发展, 2018, 55(5): 893-907. |
[6] | 姚晟,徐风,赵鹏,纪霞. 基于自适应邻域空间粗糙集模型的直觉模糊熵特征选择[J]. 计算机研究与发展, 2018, 55(4): 802-814. |
[7] | 李峰,苗夺谦,张志飞,张维. 基于互信息的粒化特征加权多标签学习k近邻算法[J]. 计算机研究与发展, 2017, 54(5): 1024-1035. |
[8] | 王珺,卫金茂,张璐. 基于保留分类信息的多任务特征学习算法[J]. 计算机研究与发展, 2017, 54(3): 537-548. |
[9] | 董红斌,滕旭阳,杨雪. 一种基于关联信息熵度量的特征选择方法[J]. 计算机研究与发展, 2016, 53(8): 1684-1695. |
[10] | 常青,刘中金,王猛涛,陈昱,石志强,孙利民. VDNS: 一种跨平台的固件漏洞关联算法[J]. 计算机研究与发展, 2016, 53(10): 2288-2298. |
[11] | 杨昙,冯翔,虞慧群. 基于多群体公平模型的特征选择算法[J]. 计算机研究与发展, 2015, 52(8): 1742-1756. |
[12] | 唐成华,刘鹏程,汤申生,谢逸. 基于特征选择的模糊聚类异常入侵行为检测[J]. 计算机研究与发展, 2015, 52(3): 718-728. |
[13] | 段洁,胡清华,张灵均,钱宇华,李德玉. 基于邻域粗糙集的多标记分类特征选择算法[J]. 计算机研究与发展, 2015, 52(1): 56-65. |
[14] | 张 维,苗夺谦,高 灿,岳晓冬. 邻域粗糙协同分类模型[J]. 计算机研究与发展, 2014, 51(8): 1811-1820. |
[15] | 邓红霞, 相 洁, 游 雅, 李海芳,. 基于fMRI的思维数据分析方法研究[J]. 计算机研究与发展, 2014, 51(4): 773-780. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3799