基于熵权法的过滤式特征选择算法

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2024-01-15

李占山, 杨云凯, 张家晨
吉林大学软件学院，吉林长春 130012
收稿日期：2021-03-05
基金项目：吉林省自然科学基金资助项目(20180101043JC)；吉林省发展和改革委员会基金资助项目(2019C053-9)。
作者简介：李占山(1966-)，男，吉林公主岭人，吉林大学教授，博士生导师;
张家晨(1969-)，男，吉林德惠人，吉林大学教授。

摘要：互信息过滤式特征选择算法往往仅局限于互信息这一度量标准.为规避采取单一的互信息标准的局限性，在互信息的基础上引入基于距离度量的算法RReliefF，从而得出更好的过滤式准则.将RReliefF用于分类任务，度量特征与标签的相关性；应用最大互信息系数(maximal information coefficient，MIC)度量特征与特征之间的冗余性、特征与标签的相关性；最后，应用熵权法为MIC和RReliefF进行客观赋权，提出了基于熵权法的过滤式特征选择算法(filtering feature selection algorithm based on entropy weight method，FFSBEWM).在13个数据集上进行对比实验，结果表明，FFSBEWM所选择的特征子集的平均分类准确率和最高分类准确率均优于其他对比算法.
关键词：特征选择熵权法互信息过滤式准则信息理论
Filtering Feature Selection Algorithm Based on Entropy Weight Method
LI Zhan-shan, YANG Yun-kai, ZHANG Jia-chen
College of Software, Jilin University, Changchun 130012, China
Corresponding author: ZHANG Jia-chen, E-mail: zhangjc@jlu.edu.cn.

Abstract: Mutual information-based filtering feature selection algorithms are often limited to the metric of mutual information. In order to circumvent the limitations of adopting only mutual information, a distance metric-based algorithm RReliefF is introduced on the basis of mutual information to obtain better filtering criteria. RReliefF is used for the classification tasks to measure the relevance between features and labels. In addition, maximal information coefficient(MIC) is used to measure the redundancy between features and the relevance between features and labels. Finally, entropy weight method is applied to objectively weigh the MIC and RReliefF. On this basis, a filtering feature selection algorithm based on entropy weight method(FFSBEWM) is proposed. Comparing experiments carried out on 13 data sets show that the average classification accuracy and highest classification accuracy of the feature subsets selected by the proposed algorithm are higher than those of the comparison algorithms.
Key words: feature selectionentropy weight methodmutual informationfiltering criteriainformation theory
特征选择是模式识别和数据挖掘中的一个重要预处理步骤.其本质含义是指在不明显损失数据集潜在信息的基础上从原始特征集合中选出部分特征构成特征子集，以此来降低数据集的特征维度，规避维度灾难，提高分类的时间效率，它可以缩减训练时间并产生具有可解释性的模型^[1].
一般地，特征选择可以分为过滤式^[2]、封装式(包裹式)^[3-5]、嵌入式^[6-7].过滤式特征选择算法的核心在于过滤标准，即通过某种准则对特征(子集)进行度量.为此人们提出了多种评价准则，如基于距离度量标准的RReliefF^[8]、基于互信息理论的准则^[9]等.
近年来人们提出了多种基于互信息理论的过滤式特征选择算法，如MIFSU^[10]、mRMR^[11]、NMIFS^[12]、INMIFS^[13]、WNMIFS^[14]、CFR^[15]、WCFR^[16]等.
然而上述算法往往只局限于互信息这一度量标准，虽然互信息可以较好地度量变量之间的相关性，但其在实际应用中也有一定的局限性——互信息是基于信息熵理论的，该理论对于连续变量的信息熵，采取了微分熵的计算形式得出.但对于给定的数据集，常常无法知道连续变量的具体概率分布，进而无法计算其概率密度函数，也就不能在真正意义上计算得出连续变量的信息熵.这种情况下人们往往会采取将数据离散化的策略，将原始的连续变量转化为离散变量，又或者采取K-近邻等方式进行估算，这无疑在一定程度上引入了误差.
基于上述考虑，本文为了规避采取单一的互信息标准的局限性，试图在互信息的基础上引入另一种基于距离度量的算法RReliefF，以期能更好地对特征进行筛选.
RReliefF本是用于回归任务中的特征选择算法，它基于距离度量评估特征的重要性，RReliefF算法运行效率高，且对数据类型限制较少，因此可以作为互信息度量的一个有效补充.鉴于分类任务和回归任务的同一性，本文适应性地将RReliefF用于分类任务，度量特征与标签的相关性.
最大互信息系数(maximal information coefficient，MIC)是一种优秀的互信息变形，MIC利用了归一化互信息，使得MIC具有普适性、均衡性的优良特性，本文采用MIC度量特征与特征之间的冗余性、特征与标签的相关性.
RReliefF和MIC分别从距离度量和信息论的角度评估特征，将两者结合可以在某种程度上避免算法限于某一度量标准的单一性和盲目性，最大程度地挖掘特征的重要性.
通常情况下，人们往往会通过为不同事物赋权重的方式将事物结合起来，赋权的方式有主观赋权和客观赋权.主观赋权的随机性和主观性较大，普适性和自适应性较差.本文追求算法的稳定性和普适性，因此摈弃了主观赋权的思路.
熵权法是一种优秀的客观赋权方法，它基于信息熵理论，使得赋权过程更具客观性，赋权结果具有更好的可解释性.基于熵权法的上述特性，本文采用熵权法为RReliefF和MIC赋权，如此可以更充分地发挥两者各自的优势，使最终的度量标准更趋于完善.在此基础上，本文提出了基于熵权法的过滤式特征选择算法(filtering feature selection algorithm based on entropy weight method，FFSBEWM).
1 基于熵权法的过滤式特征选择算法(FFSBEWM)基于熵权法的过滤式特征选择算法框架如图 1所示.
图 1(Fig. 1)

图 1 基于熵权法的过滤式特征选择算法框架Fig.1 The frame of FFSBEWM

1.1 RReliefF度量数据集的各个特征RReliefF算法原是用于回归任务中的特征选择算法，该算法的伪代码如表 1所示^[8].
表 1(Table 1)

表 1 RReliefF伪代码Table 1 Pseudocode of RReliefF

1：设定初始值，使N[C]，N[A]，N[C] & N[A]的初始值为0
2:??for i=1；i < m；i++ do
??????随机选取一个样本R_i；
??????选取g个距离R_i最近的样本(I₁，I₂，…，I_g)；??????
for j=1；j < g；j++ do
????????N[C]: =N[C]+|f(R_i)-f(I_j)|·d(i，j)
????????N[A]: =N[A]+D(A，R_i，I_j)·d(i，j)
????????N[C]&N[A]: =N[C] & N[A]+|f(R_i)-f(I_j)|·D(A，R_i，I_j)·d(i，j)
????????end
end
3:W[A]: =N[C] & N[A]/N[C]-(N[A]-N[C] & N[A])/(m-N[C])

表 1 RReliefF伪代码 Table 1 Pseudocode of RReliefF

表 1中：C表示标签；A表示特征；N[C]表示对一个样本R_i，选取的近邻样本I_j与R_i的回归值不同的权重；N[A]表示对一个样本R_i，选取的近邻样本I_j与R_i的特征A取值不同的权重；N[C] & N[A]表示对一个样本R_i，选取的两个近邻样本I_j与R_i的特征A取值不同并且回归值不同的权重；m为总共选取的样本个数；f(R_i)为样本R_i的特征值；f(I_j)为样本I_j的特征值；d(i，j)=

为样本I_j与R_i的距离，其中，d₁(i，j)=

表示将R_i的g个最近邻样本按距离降序排序后I_j的秩，σ是用户自定义的参数；D(A，R_i，I_j)为样本I_j与R_i在特征A上的差值，对于离散型特征值，如果I_j与R_i的特征A取值相同，则其值为0，否则其值为1；W[A]为特征A的权值.
由表 1可知，对于特征A的权重，该算法选取g个最近邻样本，利用该样本与近邻样本间的距离来评估A的重要性.
RReliefF可以发现属性之间的强依赖关系，且具有良好的鲁棒性.
回归任务中样本的标签是连续值，而分类任务中样本的标签是离散值，且离散值在逻辑上是一种特殊的连续值，因此RReliefF同样可以应用于分类任务.设定g=5，假定数据集的特征个数为l，对特征{A₁，A₂，…，A_l}应用RReliefF算法进行度量，得到各个特征的权重值，以向量r表示，r=[W[A₁]，W[A₂]，…，W[A_l]]^T.
1.2 MIC度量各个特征与标签的相关性MIC最初由Reshef等^[17]提出，它基于互信息理论.在此本文对互信息理论予以简单介绍.
互信息用于评价两个变量的统计相关性.对离散型随机变量X和Y，其互信息定义如下：

(1)

式中：Ω_X为变量X的取值空间；Ω_Y为变量Y的取值空间；p(x)为X=x的概率；p(y)为Y=y的概率；p(x，y)为X=x且Y=y的联合概率.
除了式(1)外，对离散变量X，Y之间的互信息也可以用信息熵来表示.其定义如下：

(2)

式中，H(X)即为变量X的熵，其表达式为

(3)

变量X的信息熵描述了变量X的不确定性，变量不确定性越大，信息熵就越大，这也意味着变量X隐含的信息越大.式(2)中H(X|Y)表示在已知Y的条件下X的不确定性，其计算公式为

(4)

MIC的核心思想：如果两个变量之间存在某种关系，那么可以在两个变量构成的散点图上绘制一个网格，从而划分数据来封装这种关系.假设有两个随机变量X，Y，其MIC计算方式如下：

(5)

式中：M和N表示将X，Y构成的散点图划分为M列N行的网格图，M和N的取值需满足MN < B，通常情况下，B=n^0.6，n代表数据集的样本数；I^*(X，Y)代表某一M，N取值下，X和Y的最大互信息值.
MIC本质上是一种归一化互信息，归一化互信息的值被限制在(0，1)之间，屏蔽了互信息绝对值的数量级差异，因此MIC具有更高的准确性和普适性.鉴于此，应用式(5)度量各个特征与标签的相关性.假定数据集的特征个数为l，对特征{A₁，A₂，…，A_l}中的每个特征A_i，以及标签C，应用式(5)计算出该特征与标签的MIC值，最终得到向量q=[a(A₁；C)，a(A₂；C)，…，a(A_l；C)]^T.
1.3 应用熵权法进行客观赋权熵权法是一种优秀的客观赋权方法，在数学相关领域有很多应用.其依据的原理是指标的变异程度越小，所反映的信息量也越少，其对应的权值也应该越低.应用熵权法为指标RReliefF和MIC赋权的过程如下^[18].首先对r，q数据进行标准化：

(6)

(7)

随后根据标准化数据求r，q的信息熵：

(8)

(9)

其中：

.在此基础上r，q的权重分别为

(10)

(11)

1.4 构建过滤准则最终的过滤式准则是相关项减去冗余项.其中相关项代表假设加入待选特征f后，新特征子集对类别的相关性的加权平均值; S代表已选择的特征子集; η，θ客观上平衡了RReliefF和MIC的重要性，更具有数理上的统计优势.其具体表达形式如下：

(12)

冗余项代表待选特征f与已选特征子集的相关性的平均值.在度量待选特征f与已选特征s之间的相关性时，仅仅采用了MIC度量，并未采用RReliefF，原因在于RReliefF算法中特征与标签存在预测与被预测的关系，而待选特征f与已选特征s之间并不存在逻辑上的预测与被预测关系，它们之间是对等的，所以RReliefF不可以用来度量特征与特征之间的关系.其MIC度量表达式如下:

(13)

最终得到的过滤式准则为

(14)

1.5 贪婪式选择特征以式(14)为过滤式标准，采取前向搜索的策略，每次贪婪地选择使式(14)取最大值的特征，直至达到预设的特征数目为止.
2 实验2.1 数据集与对比算法为了验证所提算法(FFSBEWM)的优劣性，本文将所提算法与相关算法进行了对比.实验用到了3个分类器：K-近邻(K-nearest neighbor，KNN)分类器、支持向量机(support vector machines，SVM)分类器以及鉴别分析(discriminant analysis，DA)分类器.本文在13个数据集上进行了实验，数据集的各项信息如表 2所示.
表 2(Table 2)

表 2 数据集Table 2 Data sets

数据集	特征数	样本数	标签值数
Sobar	21	72	2
Breast Cancer	30	569	2
Sonar	60	208	2
Libras Movement	90	360	15
Semeion	256	1 593	10
USPS	256	9 298	10
LSVT	310	126	2
Multiple Features	649	2 000	10
ORL	1024	400	40
COIL20	1024	1 440	20
RELATHE	4 322	1 427	2
ARBT	8 266	590	8
SMK-CAN-187	19 993	187	2
注：“ARBT”数据集的全称为”Asian Religious and Biblical Texts”.

表 2 数据集 Table 2 Data sets

这些数据集来自UCI机器学习数据库以及Scikit-feature特征选择资源库.由表 2知，实验中采用的数据集涵盖了低维(特征维度小于200)、中维(特征维度介于200到1 000之间)、高维(特征维度大于1 000)数据集；涵盖了小样本(样本数小于1 000)、中样本(样本数大于1 000小于5 000)、大样本(样本数大于5 000)数据集；特征属性既包括实数型，又包括整数型.综上，本文选取的数据集具有代表性.
2.2 实验实施实验过程分为两个阶段：第一个阶段是利用各个算法对特征进行选择，得出各个算法所选择的特征子集；第二个阶段是对筛选出的特征子集的优越性进行评价，即将筛选出的数据放入分类器中进行分类，统计平均分类准确率和最高分类准确率.本文采用平均分类准确率和最高分类准确率作为评价指标，平均分类准确率的形式化描述如下：

(15)

式中：λ表示对特征子集进行10折交叉验证后的分类准确率；γ为设定的最大特征数目.若原始数据集特征个数大于30，则γ=30；否则，γ=特征数目.平均分类准确率度量了算法所选择特征子集的综合分类性能.
最高分类准确率即为当v取1到γ时，所有λ的最大值.最高分类准确率度量了算法所选择的最优特征子集的分类性能.其形式化描述如下：

(16)

2.3 实验结果及讨论表 3~表 5分别表示各个算法所选择的特征子集在KNN(K=5), SVM和DA分类器上的平均分类准确率.表 3、表 4、表 5所对应的N_b，N_e，N_w数据分别如表 6~表 8所示，N_b，N_e，N_w表示FFSBEWM较好、持平、较差于对比算法的数据集个数.
表 3(Table 3)

表 3 各个算法所选择的特征子集在KNN(K=5)分类器上的平均分类准确率Table 3 Average classification accuracy of feature subsets selected by different algorithms using KNN(K=5) classifier

数据集	RReliefF	MIFSU	mRMR	NMIFS	INMIFS	MIC	WNMIFS	CFR	WCFR	FFSBEWM
Sobar	85.08(=)	85.34(+)	83.66(+)	85.23(+)	84.86(+)	85.96(+)	85.56(+)	84.66(+)	85.54(+)	87.92
Breast Cancer	92.98(=)	92.09(+)	91.46(+)	92.30(+)	92.26(+)	92.47(+)	92.27(+)	88.06(+)	87.99(+)	93.38
Sonar	80.29(=)	78.19(=)	74.36(+)	77.73(=)	77.33(+)	80.30(=)	77.29(+)	75.00(+)	75.11(+)	79.64
Libras Movement	48.58(+)	63.89(+)	63.75(+)	63.44(+)	63.55(+)	45.06(+)	63.44(+)	60.87(+)	61.04(+)	70.25
Semeion	46.25(+)	56.22(+)	56.30(+)	57.98(+)	67.10(=)	45.79(+)	57.79(+)	58.39(+)	60.26(+)	66.25
USPS	75.35(+)	69.89(+)	55.28(+)	76.75(+)	76.62(+)	52.57(+)	75.95(+)	68.93(+)	64.05(+)	82.53
LSVT	74.19(+)	74.12(+)	74.20(+)	66.94(+)	66.87(+)	74.38(+)	65.89(+)	65.19(+)	65.15(+)	76.22
Multiple Features	69.34(+)	55.56(+)	55.01(+)	60.86(+)	60.98(+)	69.52(+)	60.84(+)	76.36(+)	69.64(+)	78.82
ORL	56.24(+)	46.12(+)	54.30(+)	40.33(+)	40.24(+)	59.84(+)	40.17(+)	51.13(+)	51.11(+)	63.76
COIL20	69.70(+)	81.09(+)	80.00(+)	80.42(+)	80.69(+)	82.57(+)	80.95(+)	81.58(+)	85.11(+)	89.70
RELATHE	55.42(+)	64.08(+)	67.51(=)	68.23(=)	64.77(+)	61.82(+)	66.29(+)	65.36(+)	65.35(+)	68.41
ARBT	34.03(+)	50.41(=)	49.85(+)	50.26(+)	54.08(=)	46.87(+)	50.52(+)	45.00(+)	45.44(+)	53.73
SMK-CAN-187	69.84(-)	65.48(+)	62.34(+)	65.24(+)	65.21(+)	69.47(=)	65.89(+)	56.92(+)	57.89(+)	68.47
平均值	65.95	67.88	66.77	68.13	68.81	66.66	67.91	67.50	67.21	75.31
注：(+)(-)(=)分别表示经过Wilcoxon秩和检验后，FFSBEWM的平均分类准确率显著优于该项数据、显著劣于该项数据、与该项数据无明显差异；粗体数据为FFSBEWM算法在所有算法中排名第一.下同.

表 3 各个算法所选择的特征子集在KNN(K=5)分类器上的平均分类准确率 Table 3 Average classification accuracy of feature subsets selected by different algorithms using KNN(K=5) classifier

表 4(Table 4)

表 4 各个算法所选择的特征子集在SVM分类器上的平均分类准确率Table 4 Average classification accuracy of feature subsets selected by different algorithms using SVM classifier

数据集	RReliefF	MIFSU	mRMR	NMIFS	INMIFS	MIC	WNMIFS	CFR	WCFR	FFSBEWM
Sobar	70.80(=)	70.82(=)	70.83(=)	70.84(=)	70.81(=)	70.84(=)	70.85(=)	70.82(=)	70.84(=)	70.85
Breast Cancer	69.41(+)	65.91(+)	67.64(+)	67.56(+)	67.66(+)	63.97(+)	67.64(=)	72.38(=)	72.39(+)	77.91
Sonar	53.25(=)	53.26(=)	53.30(=)	52.86(+)	52.85(=)	53.32(=)	52.93(=)	53.32(=)	53.22(=)	53.33
Libras Movement	31.15(+)	44.07(=)	45.42(+)	42.33(+)	42.25(+)	28.79(+)	42.13(+)	41.21(+)	40.89(+)	49.72
Semeion	49.83(+)	60.66(+)	60.62(+)	62.03(+)	70.67(=)	51.33(+)	61.89(+)	62.87(+)	64.52(+)	70.69
USPS	74.54(+)	68.46(+)	50.58(+)	77.85(+)	77.77(+)	44.96(+)	77.94(+)	69.00(+)	62.17(+)	83.30
LSVT	66.99(+)	67.14(+)	66.72(+)	67.40(+)	67.45(+)	66.88(+)	67.30(+)	66.10(+)	65.73(+)	78.19
Multiple Features	75.58(+)	31.48(+)	32.35(+)	11.14(+)	11.16(+)	14.61(+)	11.15(+)	8.68(+)	9.53(+)	83.63
ORL	65.85(=)	56.60(=)	68.67(=)	46.12(+)	46.04(+)	71.06(-)	45.96(+)	56.52(+)	56.52(+)	69.35
COIL20	48.14(+)	50.66(+)	55.21(+)	50.09(+)	50.36(+)	59.28(+)	50.70(+)	47.72(+)	60.95(+)	71.31
RELATHE	57.09(+)	67.04(+)	74.70(-)	77.32(-)	72.21(-)	66.51(+)	64.90(+)	59.83(+)	59.96(+)	70.92
ARBT	47.87(+)	61.89(+)	62.62(+)	62.77(+)	66.66(-)	57.87(+)	62.40(+)	57.46(+)	58.06(=)	64.23
SMK-CAN-187	72.98(-)	68.81(-)	61.40(+)	66.17(=)	65.93(=)	70.57(=)	66.93(+)	53.29(+)	53.21(+)	67.84
平均值	60.27	58.98	59.24	58.04	58.60	55.38	57.13	55.32	56.00	70.10

表 4 各个算法所选择的特征子集在SVM分类器上的平均分类准确率 Table 4 Average classification accuracy of feature subsets selected by different algorithms using SVM classifier

表 5(Table 5)

表 5 各个算法所选择的特征子集在DA分类器上的平均分类准确率Table 5 Average classification accuracy of feature subsets selected by different algorithms using DA classifier

数据集	RReliefF	MIFSU	mRMR	NMIFS	INMIFS	MIC	WNMIFS	CFR	WCFR	FFSBEWM
Sobar	81.99(=)	84.51(+)	83.19(+)	85.06(=)	85.75(=)	83.68(+)	84.66(+)	83.82(+)	84.12(+)	85.96
Breast Cancer	95.20(=)	94.69(+)	94.28(+)	94.70(=)	94.75(=)	94.51(=)	94.76(=)	94.18(+)	94.19(+)	94.97
Sonar	75.12(=)	73.25(=)	73.16(+)	71.29(+)	70.79(+)	76.68(-)	71.17(+)	72.47(+)	72.68(+)	74.47
Libras Movement	43.94(+)	59.34(+)	59.83(+)	57.78(+)	57.41(+)	43.52(+)	57.56(+)	54.31(+)	54.23(+)	64.50
Semeion	49.36(+)	59.52(+)	59.20(+)	61.16(+)	68.82(=)	50.16(+)	61.06(+)	61.84(+)	63.39(+)	68.29
USPS	67.01(+)	63.57(+)	50.79(+)	70.36(+)	70.27(+)	42.13(+)	70.56(+)	63.61(+)	58.23(+)	75.78
LSVT	83.29(-)	81.21(-)	75.29(-)	82.66(-)	83.11(-)	78.88(-)	83.30(-)	77.03(-)	77.28(-)	67.43
Multiple Features	76.94(+)	90.03(-)	89.21(=)	90.28(-)	90.37(-)	87.43(=)	90.36(-)	84.15(=)	82.57(=)	86.41
ORL	63.74(+)	51.50(+)	61.67(+)	38.79(+)	38.81(+)	59.44(+)	38.83(+)	53.56(+)	53.29(+)	68.88
COIL20	51.15(+)	64.32(+)	69.46(+)	56.72(+)	56.91(+)	65.06(+)	56.40(+)	65.56(+)	71.49(+)	75.16
RELATHE	61.62(+)	71.53(=)	72.97(-)	76.17(-)	69.41(=)	69.14(=)	73.06(-)	67.12(+)	67.09(+)	68.94
ARBT	50.19(+)	65.32(=)	64.59(=)	64.22(=)	68.71(-)	59.81(+)	63.89(=)	58.56(+)	59.04(+)	64.67
SMK-CAN-187	71.91(-)	67.69(=)	60.45(+)	65.08(+)	65.06(+)	70.82(-)	65.93(+)	54.23(+)	54.58(+)	67.89
平均值	67.04	71.27	70.31	70.33	70.78	67.79	70.12	68.50	68.63	74.10

表 5 各个算法所选择的特征子集在DA分类器上的平均分类准确率 Table 5 Average classification accuracy of feature subsets selected by different algorithms using DA classifier

表 6(Table 6)

表 6 各个算法所选择的特征子集在KNN(K=5)分类器上的N_b, N_e, N_w统计表Table 6 N_b, N_e, N_w statistics of feature subsets selected by different algorithms using KNN(K=5) classifier

算法	N_b	N_e	N_w
WCFR	13	0	0
CFR	13	0	0
WNMIFS	13	0	0
MIC	11	2	0
INMIFS	11	2	0
NMIFS	11	2	0
mRMR	12	1	0
MIFSU	11	2	0
RReliefF	9	3	1
平均值	11.6	1.3	0.1

表 6 各个算法所选择的特征子集在KNN(K=5)分类器上的N_b, N_e, N_w统计表 Table 6 N_b, N_e, N_w statistics of feature subsets selected by different algorithms using KNN(K=5) classifier

表 7(Table 7)

表 7 各个算法所选择的特征子集在SVM分类器上的N_b, N_e, N_w统计表Table 7 N_b, N_e, N_w statistics of feature subsets selected by different algorithms using SVM classifier

算法	N_b	N_e	N_w
WCFR	10	3	0
CFR	10	3	0
WNMIFS	10	3	0
MIC	9	3	1
INMIFS	7	4	2
NMIFS	10	2	1
mRMR	9	3	1
MIFSU	8	4	1
RReliefF	9	3	1
平均值	9.1	3.1	0.8

表 7 各个算法所选择的特征子集在SVM分类器上的N_b, N_e, N_w统计表 Table 7 N_b, N_e, N_w statistics of feature subsets selected by different algorithms using SVM classifier

表 8(Table 8)

表 8 各个算法所选择的特征子集在DA分类器上的N_b, N_e, N_w统计表Table 8 N_b, N_e, N_w statistics of feature subsets selected by different algorithms using DA classifier

算法	N_b	N_e	N_w
WCFR	11	1	1
CFR	11	1	1
WNMIFS	8	2	3
MIC	7	3	3
INMIFS	6	4	3
NMIFS	7	3	3
mRMR	9	2	2
MIFSU	7	4	2
RReliefF	8	3	2
平均值	8.2	2.6	2.2

表 8 各个算法所选择的特征子集在DA分类器上的N_b, N_e, N_w统计表 Table 8 N_b, N_e, N_w statistics of feature subsets selected by different algorithms using DA classifier

由表 3、表 4可看出，在KNN(K=5)和SVM分类器上，FFSBEWM均在9个数据集上取得最高准确率，并且这些数据集涵盖了低中高维数据集.除此之外，即便FFSBEWM在某些数据集上未取得最高准确率，其依旧排名第二或第三.由表 5可知，FFSBEWM所选择的特征子集在5个数据集上取得了最高的准确率，虽然相比SVM和KNN(K=5)分类器略有逊色，但纵向对比来看依旧说明FFSBEWM相比其他算法具有一定优势.由表 6~表 8可知，FFSBEWM胜于其他算法的数据集个数远大于不胜于其他算法的数据集个数，在KNN(K=5)，SVM，DA分类器上平均胜出的数据集个数分别为11.6，9.1，8.2，胜出率分别为89.23%，70%，63%.综合上述论证，FFSBEWM的平均分类准确率显著优于其他算法.
各个算法在三个分类器上的最大最高分类准确率如表 9所示.由表 9可知，FFSBEWM在6个数据集上最大最高分类准确率排名第一，这6个数据集同样涵盖低中高维；FFSBEWM在4个数据集上排名第二或第三.FFSBEWM算法的最大最高分类准确率整体上同样优于其他算法.
表 9(Table 9)

表 9 各个算法所选择的特征子集在KNN(K=5)，SVM和DA分类器上的最大最高分类准确率Table 9 Maximal highest classification accuracy of feature subsets selected by different algorithms using KNN(K=5), SVM and DA classifier

数据集	RReliefF	MIFSU	mRMR	NMIFS	INMIFS	MIC	WNMIFS	CFR	WCFR	FFSBEWM
Sobar	91.11	89.72	89.58	89.31	89.03	89.86	89.72	89.58	89.86	91.81
Breast Cancer	96.03	95.91	95.78	95.69	95.68	95.85	95.82	96.06	96.10	96.27
Sonar	83.37	82.98	79.42	81.63	80.63	85.14	81.01	82.26	82.26	85.00
Libras Movement	68.97	72.92	72.94	72.89	73.42	66.72	73.25	74.25	74.72	78.22
Semeion	67.83	75.54	71.67	74.35	85.57	69.57	74.17	74.07	75.25	83.97
USPS	86.85	74.91	68.49	89.62	89.28	61.58	89.35	83.71	77.81	94.04
LSVT	86.98	85.48	77.22	85.87	86.43	84.44	86.43	78.81	79.37	81.19
Multiple Features	87.01	96.80	95.76	96.76	96.78	96.37	96.84	95.90	95.67	94.76
ORL	82.78	74.18	81.88	65.43	63.80	84.93	65.45	75.25	75.90	88.30
COIL20	78.99	87.45	90.82	89.04	89.26	92.15	89.18	90.63	94.79	96.50
RELATHE	68.95	80.85	81.72	83.14	77.88	74.12	80.12	70.48	70.57	74.94
ARBT	62.81	78.54	69.44	69.88	75.29	68.39	69.66	70.12	70.08	71.21
SMK-CAN-187	77.30	72.51	72.37	70.65	70.37	74.34	69.89	62.78	63.53	74.22
平均值	79.92	82.14	80.54	81.87	82.57	80.27	81.61	80.30	80.45	85.42
注：粗体数据为FFSBEWM算法在所有算法中排名第一.

表 9 各个算法所选择的特征子集在KNN(K=5)，SVM和DA分类器上的最大最高分类准确率 Table 9 Maximal highest classification accuracy of feature subsets selected by different algorithms using KNN(K=5), SVM and DA classifier

为了分析分类准确率与特征子集大小的关系，选取了具有代表性的4个数据集，见图 2~图 4.
图 2(Fig. 2)

图 2 各个算法所选择的特征子集的分类准确率随特征数变化图(KNN(K=5)分类器)Fig.2 The classification accuracy of feature subsets selected by different algorithms with different number of features(KNN(K=5)classifier) (a)—Libras Movement数据集；(b)—COIL20数据集；(c)—ORL数据集；(d)—Semeion数据集.

图 3(Fig. 3)

图 3 各个算法所选择的特征子集的分类准确率随特征数变化图(SVM分类器)Fig.3 The classification accuracy of feature subsets selected by different algorithms with different number of features(SVM classifier) (a)—Libras Movement数据集；(b)—COIL20数据集；(c)—ORL数据集；(d)—Semeion数据集.

图 4(Fig. 4)

图 4 各个算法所选择的特征子集的分类准确率随特征数变化图(DA分类器)Fig.4 The classification accuracy of feature subsets selected by different algorithms with different number of features(DA classifier) (a)—Libras Movement数据集；(b)—COIL20数据集；(c)—ORL数据集；(d)—Semeion数据集.

由图 2~图 4可知，整体而言，随着所选特征个数的增多，特征子集的分类准确率相应提高.这是因为当选择的特征数较小时，特征子集所包含的信息也较少，因此分类准确率较低，反之亦然.值得一提的是这种正相关关系并非绝对.除此之外，尽管同一算法在同一分类器上的曲线走势并不完全一致，但FFSBEWM的曲线整体上均位于所有曲线的最上方，即无论所选特征子集的大小，FFSBEWM所选择的特征子集的分类性能均优于其他算法.这也进一步说明了即使不同分类器会对算法产生一些影响，但这些影响在本文讨论的范围内是非实质性的.
3 结语本文提出了一种基于熵权法的过滤式特征选择算法，在13个数据集上的实验结果显示本文算法选择的特征子集的平均分类准确率和最高分类准确率均优于其他算法.
但本文算法准确率还不够高，在个别数据集上略差于其他算法或者比其他算法的领先程度不够高；受数据集本身影响较大，导致在某些数据集上算法的稳定性较差；本文算法在不同的分类器上的表现也略有差异.后续将进一步对特征选择的过程框架予以改进，以期提高所选择的特征子集的分类准确率，同时完善特征选择的过滤式标准，加入对算法稳定性的度量，提高算法的稳定性.
参考文献

[1]	Zhou H F, Zhang Y, Zhang Y J, et al. Feature selection based on conditional mutual information: minimum conditional relevance and minimum conditional redundancy[J]. Applied Intelligence, 2019, 49(3): 883-896. DOI:10.1007/s10489-018-1305-0
[2]	Senawi A, Wei H L, Billings S A. A new maximum relevance-minimum multicollinearity(MRmMC) method for feature selection and ranking[J]. Pattern Recognition, 2017, 67: 47-61. DOI:10.1016/j.patcog.2017.01.026
[3]	Wu B, Zhou M Z, Shen X P, et al. Simple profile rectifications go a long way[C]//European Conference on Object-Oriented Programming. Berlin: Springer, 2013: 654-678.
[4]	Qiu C Y. A novel multi-swarm particle swarm optimization for feature selection[J]. Genetic Programming and Evolvable Machines, 2019, 20(4): 503-529. DOI:10.1007/s10710-019-09358-0
[5]	Djellali H, Ghoualmi N. Improved chaotic initialization of particle swarm applied to feature selection[C]//2019 International Conference on Networking and Advanced Systems(ICNAS). Matsue: IEEE, 2019: 1-5.
[6]	Baranauskas J A, Netto O P, Nozawa S R, et al. A tree-based algorithm for attribute selection[J]. Applied Intelligence, 2018, 48(4): 821-833. DOI:10.1007/s10489-017-1008-y
[7]	Apolloni J, Leguizamón G, Alba E. Two hybrid wrapper-filter feature selection algorithms applied to high-dimensional microarray experiments[J]. Applied Soft Computing, 2016, 38: 922-932. DOI:10.1016/j.asoc.2015.10.037
[8]	Robnik-ikonja M, Kononenko I. An adaptation of Relief for attribute estimation in regression[EB/OL]. (1997-07-08)[2021-08-10]. http://www.clopinet.com/isabelle/Projects/reading/robnik97-icml.pdf.
[9]	Das A, Das S. Feature weighting and selection with a Pareto-optimal trade-off between relevancy and redundancy[J]. Pattern Recognition Letters, 2017, 88: 12-19. DOI:10.1016/j.patrec.2017.01.004
[10]	Kwak N, Choi C H. Input feature selection for classification problems[J]. IEEE Transactions on Neural Networks, 2002, 13(1): 143-159.
[11]	Peng H C, Long F H, Ding C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1226-1238.
[12]	Estévez P A, Tesmer M, Perez C A, et al. Normalized mutual information feature selection[J]. IEEE Transactions on Neural Networks, 2009, 20(2): 189-201.
[13]	Li Y, Ma X F, Yang M X, et al. Improved feature selection based on normalized mutual information[C]//2015 14th International Symposium on Distributed Computing and Applications for Business Engineering and Science(DCABES). Guiyang: IEEE, 2015: 518-522.
[14]	Zhang P B, Wang X, Li X P, et al. EEG feature selection based on weighted-normalized mutual information for mental fatigue classification[C]//2016 IEEE International Instrumentation and Measurement Technology Conference Proceedings. Taipei: IEEE, 2016: 1-6.
[15]	Gao W F, Hu L, Zhang P, et al. Feature selection considering the composition of feature relevancy[J]. Pattern Recognition Letters, 2018, 112: 70-74.
[16]	Zhou H F, Wang X Q, Zhang Y. Feature selection based on weighted conditional mutual information[J/OL]. Applied Computing and Informatics, 2020[2021-08-10]. https://www.emerald.com/insight/content/doi/10.1016/j.aci.2019.12.003/full/pdf?title=feature-selection-based-on-weighted-conditional-mutual-information.
[17]	Reshef D N, Reshef Y A, Finucane H K, et al. Detecting novel associations in large data sets[J]. Science, 2011, 334(6062): 1518-1524.
[18]	Zhu Y X, Tian D Z, Yan F. Effectiveness of entropy weight method in decision-making[J/OL]. Mathematical Problems in Engineering, 2020[2021-08-10]. https://downloads.hindawi.com/journals/mpe/2020/3564835.pdf.

基于熵权法的过滤式特征选择算法

本站小编 Free考研考试/2024-01-15

相关话题/

领限时大额优惠券,享本站正版考研考试资料!