摘要:正则化属性选择算法减小噪音数据影响的效果不佳,而且样本空间的局部结构几乎没有被考虑,在将样本映射到属性子空间后,样本之间的联系与原空间不一致,导致数据挖掘算法的效果不能令人满意.提出一个抗噪音属性选择方法,可以有效地解决传统算法的这两个缺陷.该方法首先采用自步学习的训练方式,这不仅能大幅度降低离群点进入训练的可能性,而且有利于模型的快速收敛;然后,采用加入l2,1正则项的回归学习器进行嵌入式属性选择,兼顾“求得稀疏解”和“解决过拟合”,使模型更稳健;最后,融合局部保留投影的技术,将其投影矩阵转换成模型的回归参数矩阵,在属性选择的同时保持样本之间的原有局部结构.采用一系列基准数据集合测试该算法,在aCC和aRMSE上的实验结果,表明了该属性选择方法的有效性.
Abstract:The regularization feature selection algorithm is not effective in reducing the impact of noisy data. Moreover, the local structure of the sample space is hardly considered. After the samples are mapped to the feature subspace, the relationship between samples is inconsistent with the original space, resulting in unsatisfactory results of the data mining algorithm. This study proposes an anti-noise feature selection method that can effectively solve these two shortcomings of traditional algorithms. This method first uses a self-paced learning training method, which not only greatly reduces the possibility of outliers entering training, but also facilitates the rapid convergence of the model. Then, a regression learner with regular terms is used to select the embedded features, taking into account the "sparse solution" and "solving over-fitting" to make the model more robust. Finally, the technique of locality preserving projections is integrated, and its projection matrix is transformed into the regression parameter matrix of the model, while maintaining the original local structure between the samples while selecting the features. Some experiments are conducted for evaluating the algorithm with a series of benchmark data sets. Experimental results show the effectiveness of the proposed algorithm in term of the aCC and aRMSE.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/6041
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
噪音数据的属性选择算法
本站小编 Free考研考试/2022-01-02
相关话题/空间 结构 数据 实验 测试
基于阈值动态调整的重复数据删除方案
摘要:云存储已经成为一种主流应用模式.随着用户及存储数据量的增加,云存储提供商采用重复数据删除技术来节省存储空间和资源.现有方案普遍采用统一的流行度阈值对所有数据进行删重处理,没有考虑到不同的数据信息具有不同的隐私程度这一实际问题.提出了一种基于阈值动态调整的重复数据删除方案,确保了上传数据及相关操 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向频繁项集挖掘的本地差分隐私事务数据收集方法
摘要:事务数据常见于各种应用场景中,如购物记录、页面浏览历史等.为了提供更好的服务,服务提供商收集用户数据并进行分析,但收集事务数据会泄露用户的隐私信息.为了解决上述问题,基于压缩的本地差分隐私模型,提出一种事务数据收集方法.首先,定义了一种新的候选项集分值函数;其次,基于该函数,将候选项集的样本空 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向大数据流的分布式索引构建
摘要:大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排序的批量构建技术,进一步对时间窗口分片,将数据流接收、分片数 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于着色Petri网的HDFS数据一致性建模与分析
摘要:HDFS分布式文件系统作为ApacheHadoop的核心组件之一,在工业界得到了广泛应用.HDFS采用了多副本机制保证数据的可靠性,但是由于多副本的存在,在节点失效、网络中断、写入失败时可能会导致数据不一致.与传统文件系统相比,HDFS被认为其数据一致性有所降低,但用户并不知道何时会出现不一致 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于细粒度数据的智能手机续航时间预测模型
摘要:如今,智能手机已成为人们日常生活中重要的组成部分.然而,在智能手机软硬件能力高速发展的同时,智能手机的电池能力却未能取得突破性的进展.这导致电池的续航能力经常会成为用户使用智能手机时的体验瓶颈.为了提高用户使用体验的优良感受,一种可行的方法是为用户提供电池续航时间预测.准确的电池续航时间预测能 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02构建新型高性能与高可用的键值数据库系统
摘要:近年来,写密集型应用程序越来越普遍.如何有效地处理这种工作负载,是数据库系统领域深入研究的方向之一.写操作开销主要由以下两个方面的因素构成:(1)硬件级别,即写操作引起的I/O,目前无法在短时间内消除这种开销;(2)软件开销,即修改内存数据拷贝以及构造日志记录造成的多次写操作.日志即数据(lo ...中科院软件研究所 本站小编 Free考研考试 2022-01-02医疗大数据隐私保护多关键词范围搜索方案
摘要:随着医疗信息系统的急速发展,基于医疗云的信息系统将大量电子健康记录(EHRs)存储在医疗云系统中,利用医疗云强大的存储能力和计算能力对EHRs数据进行安全与统一的管理.尽管传统加密机制可以保证医疗数据在半诚实云服务器中的机密性,但对加密后的EHRs数据执行安全、快速、有效的范围搜索,仍是一个有 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向关键字流图的相似程序间测试用例的重用
摘要:软件测试是软件开发中重要的一环,能有效地提高软件的可靠性和质量.而测试用例的重用可减少软件测试的工作量,提升测试的效率.提出一种面向关键字流图的相似程序间测试用例的重用方法,该方法将程序已经生成的测试数据重用到与之相似的程序中.可见,探究测试用例重用的前期工作是判定程序的相似性.对于程序相似性 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于日志挖掘的微服务测试集缩减技术
摘要:微服务系统每轮迭代过程中都需要进行回归测试,大量重复测试会造成资源浪费,可通过减少测试用例集的规模来降低成本,以提高测试效率.现有测试用例集缩减技术主要依赖系统规约和架构描述作为输入,对于具有服务自治、调用关系不确定等特点的微服务系统实用性受限.并且,现有测试用例集缩减技术很少考虑使用场景,测 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02碎片化家谱数据的融合技术
摘要:家谱数据是典型的碎片化数据,具有海量、多源、异构、自治的特点.通过数据融合技术将互联网中零散分布的家谱数据融合成一个全面、准确的家谱数据库,有利于针对家谱数据进行知识挖掘和推理,从而为用户提供姓氏起源、姓氏变迁和姓氏间关联等隐含信息.在大数据知识工程BigKE模型的基础上,提出了一个结合HAO ...中科院软件研究所 本站小编 Free考研考试 2022-01-02