删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

特征选择稳定性研究综述

本站小编 Free考研考试/2022-01-02

摘要:随着大数据的发展和机器学习的广泛应用,各行业的数据量呈现大规模的增长,高维性是这些数据的重要特点,采用特征选择对高维数据进行降维是一种预处理方法.特征选择稳定性是其中重要的研究内容,它是指特征选择方法对训练样本的微小扰动具有一定鲁棒性.提高特征选择稳定性有助于发现相关特征,增强特征可信度,进一步降低开销.在回顾现有特征选择稳定性提升方法的基础上对其进行分类,分析比较各类方法的特点和适用范围,总结特征选择稳定性中的相关评估工作,并通过实验剖析其中稳定性度量指标的性能,进而对比4种集成方法的效用.最后讨论当前工作的局限性,指出未来的研究方向.



Abstract:With the development of big data and the wide application of machine learning, data from all walks of life is growing massively. High dimensionality is one of its most important characteristics, and applying feature selection to reduce dimensions is one of the preprocessing methods of high dimensional data. Stability of feature selection is an important research direction, and it stands for the robustness of results with respect to small changes in the dataset composition. Improving the stability of feature selection can help to identify relevant features, increase experts' confidence to the results, and further reduce the complexity and costs of getting original data. This paper reviews current methods for improving the stability, and presents a classification of those methods with analysis and comparison on the characteristics and range of application of each category. Then it summarizes the evaluations of stability of feature selection, and analyzes the performance of stability measurement and validates the effectiveness of four ensemble approaches through experiments. Finally, it discusses the localization of current works and a perspective of the future work in this research area.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5394
相关话题/数据 工作 指标 实验 特征

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 中央银行数字货币原型系统实验研究
    摘要:数字货币的出现被视为货币形态的又一次重大革命,有望成为数字经济时代的主流通货和重要金融基础设施.中央银行推动发行央行数字货币(centralbankdigitalcurrency,简称CBDC)势在必行.根据中国人民银行法定数字货币原型系统实验,探索了二元模式下法定数字货币发行、转移、回笼闭环 ...
    本站小编 Free考研考试 2022-01-02
  • 数据广播调度自适应信道划分与分配方法
    摘要:随着移动网络的不断发展,移动终端设备的计算能力与日俱增,越来越多的用户倾向于通过移动网络获取信息资源,这使得实时按需数据广播面临新的挑战:(1)数据内容和规模的多样化;(2)用户请求的实时性与需求多样性使得热点数据增加,直接导致广播数据总量的剧增;(3)用户对服务质量和水平的要求越来越高.当前 ...
    本站小编 Free考研考试 2022-01-02
  • 数据驱动的软件智能化开发方法与技术专题前言
    摘要:Abstract:PDF全文下载地址:http://jos.org.cn/jos/article/pdf/5534 ...
    本站小编 Free考研考试 2022-01-02
  • 融合结构与语义特征的代码注释决策支持方法
    摘要:代码注释是辅助编程人员理解源代码的有效手段之一.高质量的注释决策不仅能够覆盖软件系统中的核心代码片段,还能避免产生多余的代码注释.然而在实际开发中,编程人员往往缺乏统一的注释规范,大部分的注释决策都取决于个人经验以及领域知识.对于新手程序员来说,注释决策显然成为一项重要而艰巨的任务.为了减少编 ...
    本站小编 Free考研考试 2022-01-02
  • 基于StackOverflow数据的软件功能特征挖掘组织方法
    摘要:软件的功能描述文档是开发人员了解软件的重要基础.现有的软件项目并不都是具备全面描述软件功能的文档,但软件项目开发和应用过程中的各种交流记录蕴含了讨论其功能的大量信息.为此,提出了一种基于StackOverflow问答数据的软件功能特征挖掘组织方法.该方法提出以动宾短语形式描述软件功能特征,挖掘 ...
    本站小编 Free考研考试 2022-01-02
  • 面向开源生态的软件数据挖掘技术研究综述
    摘要:全球开源软件生态中孕育的大众化软件生产模式正在快速形成一种新型的软件生产力,在软件开发和应用各个环节发挥了巨大作用.大众化软件生产的数据规模日趋庞大、协同范围不断扩展、管理模式高度精简,这些全球化特征使其在软件复用、协同开发、知识管理等环节面临诸多挑战,迫切需要新的理论指导和工具支持.首先,界 ...
    本站小编 Free考研考试 2022-01-02
  • 一种多特征融合的软件开发者推荐
    摘要:软件开发者能力评价和协作关系推荐,是大数据环境下软件智能化开发领域的一个研究热点.通过分析互联网开发者社区和企业内部开发环境,设计出基于模糊综合评价的开发者能力模型.随后,通过挖掘开发者与任务的动态交互行为、静态匹配度以及开发者能力这3个不同维度的特征并结合矩阵分解技术,提出一种能力与行为感知 ...
    本站小编 Free考研考试 2022-01-02
  • 面向位置大数据的快速密度聚类算法
    摘要:面向位置大数据聚类,提出了一种简单但高效的快速密度聚类算法CBSCAN,以快速发现位置大数据中任意形状的聚类簇模式和噪声.首先,定义了Cell网格概念,并提出了基于Cell的距离分析理论,利用该距离分析,无需距离计算,可快速确定高密度区域的核心点和密度相连关系;其次,给出了网格簇定义,将基于位 ...
    本站小编 Free考研考试 2022-01-02
  • 基于Haar小波域指标自适应选择载体的JPEG隐写
    摘要:为了解决目前图像纹理复杂度建模的隐写载体选择指标难以有效适用于JPEG隐写的问题,提出一种基于Haar小波域指标自适应选择载体的JPEG隐写方法,以高阶Haar小波变换模型建立JPEG图像像素关系,计算各方向上的分解图像矩阵的范数均值,用于选择难以被检测的载体.该指标比已有方法的像素间建模能力 ...
    本站小编 Free考研考试 2022-01-02
  • 基于时隙传输的数据中心路由算法设计
    摘要:基于软件定义网络(softwaredefinednetwork,简称SDN)的数据中心流量工程,能够通过对全局视图的网络管控,动态选择路由路径,规避拥塞发生的风险.但是在制定路由策略时,经常会对数据流进行迁移,尤其是针对大流的迁移容易造成数据流丢包以及接收端数据包乱序的问题.提出了基于时隙的流 ...
    本站小编 Free考研考试 2022-01-02