摘要:在分类中,特征选择一直是一个重要而又困难的问题.最近的研究表明,森林优化特征选择算法(FSFOA)具有更好的分类性能及较好的维度缩减能力.然而,初始化阶段的随机性、更新机制上的局限性及局部播种阶段新树的劣质性严重限制了该算法的分类性能和维度缩减能力.该文采用一种新的初始化策略和更新机制,并在局部播种阶段加入贪婪策略,形成特征选择算法IFSFOA,在最大化分类性能的同时,最小化特征个数.实验阶段,IFSFOA使用SVM,J48和KNN分类器指导学习过程,通过机器学习数据库UCI上的小维、中维、高维数据集进行测试.实验结果表明:与FSFOA相比,IFSFOA在分类性能和维度缩减上均有明显提高.将IFSFOA算法与近几年提出的比较高效的特征选择方法进行对比,不论是在准确率,还是在维度缩减上,IFSFOA仍具有很强的竞争力.
Abstract:In classification, feature selection has been an important, but difficult problem. Recent research results disclosed that feature selection using forest optimization algorithm (FSFOA) has a better classification performance and good dimensionality reduction ability. However, the randomness of initialization phase, the limitations of updating mechanism and the inferior quality of the new tree in the local seeding stage severely limit the classification performance and dimensionality reduction ability of the algorithm. In this paper, a new initialization strategy and updating mechanism are used and a greedy strategy is added in the local seeding stage to form a new feature selection algorithm (IFSFOA) in order to maximize the classification performance and simultaneously minimize the number of features. In experiment, IFSFOA uses SVM, J48 and KNN classifiers to guide the learning process while utilizing the machine learning database UCI for testing. The results show that compared with FSFOA, IFSFOA has a significant improvement in classification performance and dimensionality reduction. Comparing IFSFOA algorithm with more efficient feature selection methods proposed in recent years, IFSFOA is still very competitive in both accuracy and dimensionality reduction.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5395
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于森林优化特征选择算法的改进研究
本站小编 Free考研考试/2022-01-02
相关话题/实验 数据 数据库 优化 过程
求解大规模问题协同进化动态粒子群优化算法
摘要:随着工程技术的发展与优化问题数学模型的完善,许多优化问题从低维优化发展成高维的大规模复杂优化,成为实值优化领域的一个热点问题.通过对大规模问题的特点分析,提出了随机动态的协同进化策略,将其加入动态多种群粒子群优化算法中,实现了对种群粒子和决策变量的双重分组.最后,使用CEC2013的大规模全局 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于混合智能优化算法的复杂软件可靠性分配
摘要:软件可靠性是系统设计、研究和运行过程中必须考虑的关键因素之一.与目前大多数软件可靠性分配的研究主要局限于简单的串并联模型不同,是将最优化算法应用于大型复杂软件系统的可靠性分配.针对分布估计算法收敛速度快、全局搜索能力强但易于陷入局部最优,且差分进化算法局部搜索能力强,但搜索速度略慢的问题,提出 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中央银行数字货币原型系统实验研究
摘要:数字货币的出现被视为货币形态的又一次重大革命,有望成为数字经济时代的主流通货和重要金融基础设施.中央银行推动发行央行数字货币(centralbankdigitalcurrency,简称CBDC)势在必行.根据中国人民银行法定数字货币原型系统实验,探索了二元模式下法定数字货币发行、转移、回笼闭环 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02数据广播调度自适应信道划分与分配方法
摘要:随着移动网络的不断发展,移动终端设备的计算能力与日俱增,越来越多的用户倾向于通过移动网络获取信息资源,这使得实时按需数据广播面临新的挑战:(1)数据内容和规模的多样化;(2)用户请求的实时性与需求多样性使得热点数据增加,直接导致广播数据总量的剧增;(3)用户对服务质量和水平的要求越来越高.当前 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02数据驱动的软件智能化开发方法与技术专题前言
摘要:Abstract:PDF全文下载地址:http://jos.org.cn/jos/article/pdf/5534 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于StackOverflow数据的软件功能特征挖掘组织方法
摘要:软件的功能描述文档是开发人员了解软件的重要基础.现有的软件项目并不都是具备全面描述软件功能的文档,但软件项目开发和应用过程中的各种交流记录蕴含了讨论其功能的大量信息.为此,提出了一种基于StackOverflow问答数据的软件功能特征挖掘组织方法.该方法提出以动宾短语形式描述软件功能特征,挖掘 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向开源生态的软件数据挖掘技术研究综述
摘要:全球开源软件生态中孕育的大众化软件生产模式正在快速形成一种新型的软件生产力,在软件开发和应用各个环节发挥了巨大作用.大众化软件生产的数据规模日趋庞大、协同范围不断扩展、管理模式高度精简,这些全球化特征使其在软件复用、协同开发、知识管理等环节面临诸多挑战,迫切需要新的理论指导和工具支持.首先,界 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向位置大数据的快速密度聚类算法
摘要:面向位置大数据聚类,提出了一种简单但高效的快速密度聚类算法CBSCAN,以快速发现位置大数据中任意形状的聚类簇模式和噪声.首先,定义了Cell网格概念,并提出了基于Cell的距离分析理论,利用该距离分析,无需距离计算,可快速确定高密度区域的核心点和密度相连关系;其次,给出了网格簇定义,将基于位 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于时隙传输的数据中心路由算法设计
摘要:基于软件定义网络(softwaredefinednetwork,简称SDN)的数据中心流量工程,能够通过对全局视图的网络管控,动态选择路由路径,规避拥塞发生的风险.但是在制定路由策略时,经常会对数据流进行迁移,尤其是针对大流的迁移容易造成数据流丢包以及接收端数据包乱序的问题.提出了基于时隙的流 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于离线密钥分发的加密数据重复删除方法
摘要:重复数据删除技术受到工业界和学术界的广泛关注.研究者致力于将云服务器中的冗余数据安全地删除,明文数据的重复删除方法较为简单.而用户为了保护隐私,会使用各自的密钥将数据加密后上传至云服务器,形成不同的加密数据.在保证安全性的前提下,加密数据的重复删除较难实现.目前已有的方案较多依赖于在线的可信第 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02