1(中国科学院计算技术研究所 北京 100190);2(中国科学院大学 北京 100190) (wangnian@ict.ac.cn)
出版日期: 2019-12-01基金资助:国家自然科学基金项目(61672498);国家重点研发计划项目(2016YFC0302300)EasiFFRA: A Fast Feature Reduction Algorithm Based on Neighborhood Rough Set
Wang Nian1,2, Peng Zhenghong1,2, Cui Li11(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190);2(University of Chinese Academy of Sciences, Beijing 100190)
Online: 2019-12-01摘要/Abstract
摘要: 从高维异构感知信息中提取有效特征是支撑物联网系统预测与识别的基础.物联网场景中通常包括多个多种感知节点,系统通常会从感知数据中提取大量特征,其中不乏部分无关和冗余特征.这些无关及冗余特征会降低系统的运行速度,引入冗余计算,更会影响后续的分类及预测等机器学习操作的性能.因而高效识别并提取低维有效的特征子集是物联网数据分析所面临的一大挑战.邻域粗糙集方法能够在保持数据集可分性的前提下,识别和去除无关及冗余特征子集,从而达到降维效果.但由于现有基于邻域粗糙集的特征约简算法的计算开销大、运行时间长,故而并未得到广泛应用.提出了一种基于邻域关系对称性及决策值过滤策略的特征快速约简算法EasiFFRA.EasiFFRA可通过改进的散列分桶方法加速正域样本计算,可检验并过滤冗余决策值样本,从而降低现有方法中由于重复距离评估所带来的冗余计算.实验结果表明:EasiFFRA在实际采集的水质数据集和多个不同样本量及维度的公开数据集中平均加快75.45%的特征约简时间,其约简结果和已有邻域粗糙集特征约简算法等效,可有效解决物联网数据分析中由冗余及无关特征导致的分类及预测精度下降问题,有重要应用价值.
参考文献
相关文章 3
| [1] | 周艳红,张贤勇,莫智文. 粒化单调的条件邻域熵及其相关属性约简[J]. 计算机研究与发展, 2018, 55(11): 2395-2405. |
| [2] | 段洁,胡清华,张灵均,钱宇华,李德玉. 基于邻域粗糙集的多标记分类特征选择算法[J]. 计算机研究与发展, 2015, 52(1): 56-65. |
| [3] | 张 维,苗夺谦,高 灿,岳晓冬. 邻域粗糙协同分类模型[J]. 计算机研究与发展, 2014, 51(8): 1811-1820. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4060
