删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种针对异常点的自适应回归特征选择方法

本站小编 Free考研考试/2022-01-01

郭亚庆1,王文剑2,苏美红1
1(山西大学计算机与信息技术学院 太原 030006);2(计算智能与中文信息处理教育部重点实验室(山西大学) 太原 030006) (791771653@qq.com)
出版日期: 2019-08-01


基金资助:国家自然科学基金项目(61673249);国家自然科学联合基金重点项目(U1805263);山西省回国留学人员科研基金项目(2016-004)

An Adaptive Regression Feature Selection Method for Datasets with Outliers

Guo Yaqing1, Wang Wenjian2, Su Meihong1
1(School of Computer and Information Technology, Shanxi University, Taiyuan 030006);2(Key Laboratory of Computational Intelligence and Chinese Information Processing (Shanxi University), Ministry of Education, Taiyuan 030006)
Online: 2019-08-01







摘要/Abstract


摘要: 数据集中含有不相关特征和冗余特征会使学习任务难度提高,特征选择可以有效解决该问题,从而提高学习效率和学习器性能.现有的特征选择方法大多针对分类问题,面向回归问题的较少,特别是当数据集含异常点时,现有方法对异常点敏感.虽然某些方法可以通过给样本损失函数加权来提高其稳健性,但是其权值一般都已预先设定好,且在特征选择和学习器训练过程中固定不变,因此方法的自适应性不强.针对上述问题,提出了一种针对异常点的回归特征选择方法(adaptive weight LASSO, AWLASSO),它首先根据回归系数更新样本误差,并通过自适应正则项将误差大于当前阈值的样本的损失函数赋予较小权重,误差小于阈值的样本的损失函数赋予较大权重,再在更新权重后的加权损失函数下重新估计回归系数,不断迭代上述过程.AWLASSO算法采用阈值来控制样本是否参与回归系数的估计,在阈值作用下,误差较小的样本才可参与估计,所以迭代完成后会获得较优的回归系数估计.另外,AWLASSO算法的阈值不是固定不变的,而是不断增大的(为使初始回归系数估计值较准确,其初始值较小),这样误判为异常点的样本可以重新进入训练集,并保证训练集含有足够的样本.对于误差大于最大阈值的样本点,由于其学习代价较大,算法将其识别为异常点,令其损失函数权重为0,从而有效降低了异常点的影响.在构造数据和标准数据上的实验结果表明:对于含有异常点的数据集,提出的方法比经典方法具有更好的稳健性和稀疏性.






[1]孟银凤, 梁吉业. 线性正则化函数Logistic模型[J]. 计算机研究与发展, 2020, 57(8): 1617-1626.
[2]刘艳芳, 李文斌, 高阳. 基于自适应邻域嵌入的无监督特征选择算法[J]. 计算机研究与发展, 2020, 57(8): 1639-1649.
[3]舒坚, 高素, 陈宇斌. 基于自适应广义回归神经网络的链路质量评估[J]. 计算机研究与发展, 2020, 57(12): 2662-2672.
[4]宋蕾,马春光,段广晗,袁琪. 基于数据纵向分布的隐私保护逻辑回归[J]. 计算机研究与发展, 2019, 56(10): 2243-2249.
[5]王玲,孟建瑶. 基于特征变权的动态模糊特征选择算法[J]. 计算机研究与发展, 2018, 55(5): 893-907.
[6]姚晟,徐风,赵鹏,纪霞. 基于自适应邻域空间粗糙集模型的直觉模糊熵特征选择[J]. 计算机研究与发展, 2018, 55(4): 802-814.
[7]许行,张凯,王文剑. 一种小样本数据的特征选择方法[J]. 计算机研究与发展, 2018, 55(10): 2321-2330.
[8]刘解放,王士同,王骏,邓赵红. 面向大规模数据属性效应控制的核心向量回归机[J]. 计算机研究与发展, 2017, 54(9): 1979-1991.
[9]陈加略,姜远. 最优间隔分布脊回归[J]. 计算机研究与发展, 2017, 54(8): 1744-1750.
[10]陈志明,李茂西,王明文. 基于神经网络特征的句子级别译文质量估计[J]. 计算机研究与发展, 2017, 54(8): 1804-1812.
[11]张勇,李飞腾,王昱洁. 基于KDDA和SFLA-LSSVR算法的WLAN室内定位算法[J]. 计算机研究与发展, 2017, 54(5): 979-985.
[12]王珺,卫金茂,张璐. 基于保留分类信息的多任务特征学习算法[J]. 计算机研究与发展, 2017, 54(3): 537-548.
[13]董红斌,滕旭阳,杨雪. 一种基于关联信息熵度量的特征选择方法[J]. 计算机研究与发展, 2016, 53(8): 1684-1695.
[14]潘伟丰,李兵,周晓燕,何鹏. 基于错误传播网络的回归测试用例排序方法[J]. 计算机研究与发展, 2016, 53(3): 550-558.
[15]常青,刘中金,王猛涛,陈昱,石志强,孙利民. VDNS: 一种跨平台的固件漏洞关联算法[J]. 计算机研究与发展, 2016, 53(10): 2288-2298.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3988
相关话题/计算机 数据 山西大学 信息 控制