基于块对角投影表示的人脸识别*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

近年来，随着计算机技术的迅速发展，人脸识别技术得到广泛研究与应用，人脸识别成为近30年里模式识别和图像处理中最热门的研究主题之一。人脸识别的目的是从人脸图像中抽取人的个性化特征，并以此来识别人的身份。
随着人们获取数据能力提高的同时，数据维数的增加引起了“维数灾难”问题，限制了人脸识别的准确度和识别效率，因此对数据进行降维预处理变得尤为必要。其中，主成分分析(PCA)^[1]和线性判别分析(LDA)^[2]是最早的降维方法，有效缓解了维数灾难问题，提高了实验的精确度，在目标识别、图像分割^[3]和信号处理^[4]等领域有着广泛的应用。为了增强投影的判别力，He等^[5]考虑样本的局部信息，提出局部保持投影(LPP)，进一步，根据重构误差的最小，其提出了近邻保持嵌入(NPE)^[6]，但是该算法并没有考虑样本的全局结构；Sugiyama^[7]将LPP算法与LDA算法结合，提出了局部费舍尔判别分析(LFDA)，通过最大化类间可分性和保持类内局部结构来适当地降低多聚类结构数据的维数；2007年，Yan等^[8]提出了图嵌入框架，定义了本征图和惩罚图来描述数据的特征，并提出了边界费舍尔分析(MFA)。上述算法被广泛应用于维数约简，具有良好的降维效果。
随着进一步的研究，基于表示的分类在机器学习和模式识别等领域备受关注^[9]，常见的有稀疏表示、协作表示、低秩表示等。稀疏表示技术起源于压缩感知理论，最初应用于信号处理领域，对信号起压缩作用^[10]。2009年，Wright等^[11]首次将稀疏表示应用于图像分类中，提出基于稀疏表示的分类(Sparse Representation based Classification，SRC)，其主要思想是：在l₁范数的约束下，将测试样本表示为训练样本的一个线性组合，通过重建误差最小对测试样本进行分类，强调样本表示系数的稀疏性。鉴于SRC的成功，许多基于稀疏表示的降维方法相继出现。Qiao等^[12]提出了一种基于SRC的稀疏保持投影(SPP)来保持数据的稀疏构造关系。Ly等^[13]提出了基于图的稀疏判别分析(SGDA)算法，并应用于遥感图像的特征降维，该算法与SPP思想相近，不同的是SGDA是有监督的算法，利用了数据的判别信息。但是解决l₁范数最小化问题往往需要较大的计算量，这使得基于稀疏表示的方法(无论是原始的SRC还是降维的SPP等)均具有很高的计算复杂度。
虽然SRC强调了表示系数稀疏性的重要，但是Zhang等^[14]证明了真正提高人脸识别精度的机制可能来自协作表示，而非l₁范数稀疏性约束，进而提出了基于协作表示的分类(Collaborative Representation based Classification，CRC)，其采用l₂范数约束，不仅提高了运算效率，而且通过理论证明了CRC同样具有稀疏分类的效果。但是严格来说，与SRC一样，CRC并不算有监督分类方法并且作用于数据的原始空间。为了充分利用样本的标签信息，将CRC的思想与有监督投影算法相结合产生了一系列工作。2014年，Ly等^[15]提出了基于图的协作判别分析(CGDA)方法，其通过同类样本之间的协作表示来构造类内权值矩阵，使样本映射到低维空间后能够保持样本之间的局部信息。2016年，Yang等^[16]提出了基于判别投影的正则化最小回归(RLSDP)，首先利用所有训练样本用l₂范数正则化最小二乘法重构每个训练样本，通过最大化LDA的类间散射和最小化同一类的重构残差，寻找一个判别子空间。除上述算法外，许多****在协作表示基础上，不断地推出了新的方法和应用场景^[17-18]。
尽管上述算法在图像分类上取得了不错的效果，但是它们主要从最小化重构误差角度出发，无法保证采用组系数约束得到相同类别样本的编码系数间是否相似。另一方面，上述算法均为两阶段模型，实际上分类器的更新反馈对于算法的优化过程具有引导作用，将两者整合到同一框架下，通过联合优化，可获得更优的编码系数、判别投影矩阵以及更适合当前任务的分类器，从而有助于模型识别性能的提升。
基于此，本文提出了一种基于块对角投影表示(BDPR)学习方法，其主要优势如下：
1) 充分利用了同类样本之间的相似性，通过同类样本间的距离构造系数约束项，增强相同类别样本表示系数的相似性，同时使个别受噪声污染严重的样本在数据重构中的贡献最小化，以加强干净特征在联合表示中的作用。
2) 构造编码系数块对角化判别逼近项来学习判别投影，实现数据与编码系数相关联，使得判别投影具有提取数据相关表示的能力，同时使近似编码系数与标签信息相关联，确保近似编码系数尽可能具有块对角化结构。
3) 通过提取的具有块对角化结构的近似编码系数训练线性分类器，利用分类器的迭代反馈更新算法的优化过程以提升模型的最终分类性能。
在多个公开人脸数据集上测试的结果表明，本文所提BDPR方法的分类性能优于目前基于协作表示的分类方法和多个主流的子空间学习方法。
值得一提的是，上述子空间投影方法可以归纳入一种特殊的度量学习框架^[19]，随着深度学习的方兴未艾，以深度度量学习为代表的系列方法在图像分类中取得了瞩目的效果^[20]，构建了一系列度量函数，驱动各类深度模型在人脸识别^[21]、车辆识别^[22]、故障诊断^[23]等领域展现出卓越的性能。
1 基于块对角化结构的投影表示 1.1 方法描述 1) 基于编码系数块对角化结构的重构误差项
本文BDPR方法的首要目标是单独地学习每一类人脸图像数据的编码系数，以信息损失最少为代价重构原始图像数据，同时获得判别投影矩阵P用于从每个人的图像数据中提取具有判别性的编码系数，从而达到区分人脸图像的作用。因此，重构误差项可设计为

(1)

式中：X_i∈R^d×N_i为第i类的训练样本，d为样本维度，N_i为第i类样本的个数，i=1, 2, …, c，c为整个训练集X=[X₁, X₂, …, X_c]∈R^d×N的样本类别数，N为样本总数；Z_i∈R^N_i×N_i和R_i∈R^N_i×N_i分别为第i类样本的编码系数和样本之间的欧氏距离；Q=[Q₁, Q₂, …, Q_c]∈R^N×N为判别转换矩阵；α、β和λ为正则化参数；1∈R^N_i×1为所有元素全为1的列向量。在BDPR方法中通过Q_i构建第i类理想化的样本编码系数，即每个样本应该仅由相同类样本表示。假设X=[x₁, x₂, x₃, x₄, x₅, x₆], x₁、x₂属于第1类，x₃、x₄属于第2类，x₅、x₆属于第3类，那么Q的构建方式为

(2)

式(1)中第1项‖X_i－X_iZ_i‖_F²为样本重构误差项，借鉴自编码器的学习原理，使得每个样本仅由相同类别样本重构；第2项‖Z_i‖_F²则是为了防止方法过拟合；第3项‖R_i⊙Z_i‖_F²为编码系数局部约束项，目的在于增强相同类别样本表示系数间的相似性，同时最小化噪声对编码系数影响；第4项‖PX_i－Q_iZ_i‖_F²为编码系数近似误差项，利用投影矩阵P将数据特征与编码系数进行关联，使近似编码系数矩阵PX近似于块对角化系数矩阵Z，从而使投影矩阵P具有提取数据稀疏表示的能力。
为避免编码系数为负，以及样本被自己表示的极端情况，进一步约束Z_i非负，并强制其对角元素为0。同时为了避免平凡解，即一些样本在线性表示中不被选择，约束Z_i每一行的和为1。
2) 基于编码系数块对角化结构的分类误差项
为了训练更适合于有监督人脸识别任务的分类器，在式(1)的基础上，进一步引入人脸图像数据的标签信息进行分类器学习，在最小化样本重构误差的同时将分类器的分类误差作为反馈指导编码系数的优化，提升编码系数的表示能力。假设引入每个样本x对应的标签向量为y=[0, …, 1, …, 0]^T∈R^c×1, 1所在的位置对应x的标签。假设可将近似编码系数PX投影到标签矩阵上来学习一个线性分类器，那么分类误差项可写为

(3)

式中：W∈R^c×N为线性分类器；Y=[y₁, y₂, …, y_N]∈R^c×N为标签矩阵；τ为正则化参数。需要注意，从线性回归的角度分析，以0-1标签矩阵Y为回归目标会使得任意一对不同类别编码系数的回归目标之间的距离为

，实际上不同类别编码系数的回归目标之间的可区分性应当是越大越好。基于此，在式(3)中利用ε-dragging技术构建回归误差项，使学习到的分类器具有更强的判别性。“⊙”表示矩阵的哈达马积(Hadamard Product，HP)；H∈R^c×N中的元素即为每个样本针对不同类别的ε项；B∈R^c×N为一个常数矩阵，B的第i行第j列的元素为

(4)

其中：l_j表示x_j所属的类别。例如对于上述x₁~x₆构成的数据，其B矩阵构造为

(5)

通过结合式(1)和式(3)，可以得到所提BDPR方法的最终目标函数为

(6)

为了验证BDPR提取的近似编码系数PX为块对角化结构，在AR人脸数据集上进行测试。采用CRC作为对比方法，实验结果如图 1所示。图 1(a)为CRC所提取编码系数，图 1(b)为BDPR所提取近似编码系数PX。可以看出，CRC方法提取的编码系数块对角结构不明显，且主要分量集中于对角线元素，即样本重构过程中存在自我表示问题；BDPR所提取的编码系数则具有较为明显的块对角化结构，表现出更明确的样本关系信息。

图 1 CRC与BDPR在AR数据集上的样本编码系数对比 Fig. 1 Comparison of sample coding coefficients learned by CRC and BDPR on AR dataset

图选项

1.2 优化过程首先初始化P和W为随机矩阵。为了便于求解，引入一个辅助变量A，式(6)可转化为如下的等价问题：

(7)

式中：A的结构为

(8)

可以构建如下拉格朗日函数：

(9)

式中：μ为惩罚参数；C_i为拉格朗日乘子。对于式(9)，可以采用迭代求解的方式进行。
步骤1?? 固定Z、P、W, 更新A，对应子问题为

(10)

对于第i类样本：

(11)

定义

, 式(11)可以等价于

(12)

式中：a_kj、g_kj、r_kj分别为A_i、G_i、R_i的第k行第j列元素。对于式(12)，可以得到最优解A_i的每个元素为

(13)

结合式(8)和式(13)，则可求解出变量A。
步骤2?? 固定A、P、W，更新Z，其中Z为[Z₁, Z₂, …, Z_c]构成的块对角化矩阵。求解Z_i(i=1, 2, …, c)对应子问题为

(14)

为了减小计算复杂度和提高计算效率，参考Xu等^[24]的方法，首先通过式(15)计算式(14)的近似闭式解

：

(15)

式中：

的结构与A一致，均为块对角化结构。对于第i类样本

(16)

对式(16)求Z_i的导数，并令?f(Z_i)/?Z_i=0得

(17)

式中：I为单位矩阵。
参考Xu等^[24]的方法，可以根据式(18)求解目标解Z_i：

(18)

对于式(18)，可以得到Z_i的每一行为

(19)

式中：

为的

第k行且z_kk被设置为0；1为第k个元素为0、其余全为1的列向量；ζ_k为拉格朗日乘子，其可根据式(20)计算：

(20)

Z的形式与A一致，结合式(8)和式(19)，可以得到编码系数Z。
步骤3?? 固定A、Z、W，更新P，对应子问题为

(21)

假设X=[X₁, X₂, …, X_c]，M=[Q₁Z₁, Q₂Z₂, …, Q_cZ_c]，则式(21)等价为

(22)

对式(22)求P的导数，并令其为0可得

(23)

步骤4??固定A、Z、P，更新W，对应子问题为

(24)

令式(24)导数为0，可以得到其最优解W为

(25)

步骤5?? 固定A、Z、P、W, 更新H，对应子问题为

(26)

令S=WPX－Y，式(26)可被表示为

(27)

式(27)可以等效地解耦为c×N个子问题，对于矩阵H的第i行第j列个元素，有

(28)

式中：S_{i, j}和B_{i, j}分别为S和B的第i行第j列个元素。容易得到最优解H_{i, j}=_max(B_{i, j}S_{i, j}, 0)，即

(29)

1.3 测试过程给定测试样本x_test，首先利用最终学习到的投影矩阵计算x_test的近似编码系数Px_test，然后使用学习到的线性分类器W得到x_test的软标签向量f_test，其具体形式为

(30)

最后找到f_test最大元素所处的索引值，并将其作为x_test的预测类别标签。
将BDPR的方流程总结如下。
算法1 BDPR方法。
输入：训练集X, 距离度量矩阵R, 类标签矩阵Y, 调节参数λ、α、β、τ。
输出：编码系数Z，投影矩阵P，线性分类器W。
初始化：C_i=0(i=1, 2, …, c)，μ=0.2, μ_max=10⁸, ρ=1.1, Z=I。
训练：
1.按照式(13)更新A。
2.按照式(19)更新Z。
3.按照式(23)更新P。
4.按照式(25)更新W。
5.按照式(29)更新H。
6.按照下式更新C_i和μ：

7.检查式(6)函数值是否满足收敛条件，若满足或者方法达到最大迭代次数，迭代停止，否则跳到步骤1继续执行。
测试：
1.根据式(30)计算测试样例的软标签向量f_test。
2.将f_test中最大元素的位置索引作为测试样例的预测类别标签。
2 实验结果与分析本节对所提BDPR方法在3个不同的人脸数据集(BANCA、AR、YaleB)进行实验，BANCA为小样本数据集，AR和YaleB为中等样本数据集，具体数据集信息如表 1所示。对比方法为标准的协作表示分类CRC^[14]和经典的子空间投影算法，包括PCA^[1]、LPP^[5]、MFA^[8]、CGDA^[15]、RLSDP^[16]、RLSL^[25]等。在预处理阶段，统一先采用PCA方法保留样本99%的能量对样本进行初步降维。在训练阶段，本文在{10^-4, 10^-3, …, 10⁴}区间内采用网格式搜索的方式寻找各方法最优参数组合。所有实验均在软件环境为MATLAB R2019a、硬件环境为8.00 GB RAM、2.40 GHz CPU、64位Windows操作系统的计算机上进行。
表 1 实验采用的数据集信息 Table 1 Information of dataset used in experiment

数据集	类别	样本数	数据维度
BANCA	52	520	2 576
AR	50	1 300	2 200
YaleB	38	2 414	1 024

表选项

2.1 实验结果对比本节将详细介绍实验中所采用的人脸数据集(BANCA、AR、YaleB)及各方法的实验结果。
BANCA数据集^[26]：包含208人共2 496幅图像，这些图像包含不同图像质量、不同时间段、不同光照等变化条件。实验中选取了52个人，每人包含10幅图像，共520幅图像组成数据集。将原始数据图像裁剪为56×46。实验中每类选取4、5、6幅图像为训练样本，其余样本构建测试集。
AR数据集：包含4 000多种人脸图像，分别对应126人的面部，包含不同的面部表情、照明条件和遮挡的情况。实验中，选取50个人，每人包含26幅图像，共1 300幅图像组成数据集。将原始数据图像裁剪为55×40。实验中，每类分别选取5、10、15幅图像作为训练样本，其余样本构建测试集。
YaleB数据集^[27]：包含38个人共2 414幅图像、9种姿态和64种光照的变化。每幅图像剪裁为32×32。实验中，每类随机选取20、30、40幅图像作为训练集，其余样本构建测试集。
实验中，对数据进行10次随机划分，表 2为3个数据集上各方法在最优参数下的平均正确率，加粗数据表示同一实验条件下的最高分类正确率。
表 2 各方法在不同数据集的最优分类正确率 Table 2 Highest classification accuracy of each method on different datasets ?%

方法	BANCA			AR			YaleB
方法	4 train	5 train	6 train	5 train	10 train	15 train	20 train	30 train	40 train
CRC	46.03	45.92	47.74	68.79	81.85	87.58	92.67	88.69	96.02
PCA	48.40	52.42	56.63	33.73	48.09	57.60	61.90	68.31	72.19
LPP	41.12	38.78	42.84	38.00	48.44	61.20	83.97	88.69	90.83
MFA	73.01	77.62	80.67	86.49	94.43	97.24	93.97	96.04	97.13
CGDA	67.30	73.73	79.47	90.69	96.66	98.69	93.86	95.00	98.02
RLSDP	68.97	76.38	82.12	88.96	96.69	98.69	91.90	95.49	96.86
RLSL	72.18	77.50	82.13	84.97	95.63	97.87	93.47	96.85	98.15
BDPR	75.80	79.88	84.38	93.01	97.38	98.60	94.33	97.37	98.48

表选项

从实验结果可以得出以下结论：
1) PCA和LPP算法没有利用样本的标签信息，属于无监督算法，因此其分类性能明显低于有监督算法。
2) MFA、CGDA和RLSDP虽然都是有监督算法，但仅考虑了样本的类内和类间特性，而BDPR不仅利用标签信息构建了样本间的协作表示，而且考虑了相同类样本编码系数的相似性构造了编码系数局部约束项，并且该项可降低野值点样本对其他同类样本的重构贡献，因而编码系数具有更鲁棒的数据关系表征能力。
3) 上述对比方法的分类器是不参与训练的，BDPR则将系数学习和分类器学习整合到一个联合框架下，利用分类过程的反馈信息引导算法优化，学习到的分类器更适合当前样本特点且可直接用来分类，无需另外选择分类算法，避免了两阶段方法带来的系统误差。
2.2 方法收敛性为了考察方法的收敛性，分别在上述3个数据集上记录了方法在整个训练过程中目标函数值的变化。图 2给出BDPR在各数据集上(前述实验各最高训练数目下)方法的收敛性能曲线。可知BDPR在各数据集上均具有良好的收敛性能，并且从第3次迭代开始，收敛曲线均趋于平缓，说明BDPR具有较快的收敛速度。

图 2 不同数据集上BDPR的函数收敛曲线 Fig. 2 Function convergence curves of BDPR method on different datasets

图选项

2.3 参数敏感性为了衡量不同的参数(λ、α、β和τ)对BDPR分类性能的影响，考察其在不同的参数组合情况下、10次随机实验的平均分类正确率。选取AR人脸数据库，每类随机选取10个样例作为训练样本，其余设置和2.1节一致，参数选取范围为{10^－3, 10^－2, …, 10³}。鉴于BDPR中包含4个重要参数，因此采取固定2个参数调整另外2个参数的组合遍历测试。图 3为BDPR分类正确率随参数变化的三维柱状图。可知，BDPR对参数的选择并不敏感。

图 3 AR数据集上BDPR分类正确率随参数变化的三维柱状图 Fig. 3 Three-dimensional histogram of classification accuracy of BDPR method changing with different parameters on AR dataset

图选项

3 结论本文提出了一种基于块对角结构的投影表示(BDPR)学习方法，通过与经典的基于协作表示分类和子空间学习方法相比，可以得到以下结论：
1) BDPR在传统协作表示的基础上，构造了编码系数约束项，在增强了编码系数表征数据关系能力的同时，使得噪声和异常值对数据重构的影响最小。
2) 本文方法通过构造编码系数判别逼近项来学习一个判别投影，利用该投影将数据与编码系数相关联，实现了子空间里的最优判别表示。实验结果表明，相比于经典的CRC算法，BDPR所提取的编码系数具有更加明显的块对角化结构，有助于为后续的分类决策过程提供更加丰富的判别信息。
3) BDPR构建了投影表示学习和分类器学习联合优化的算法框架，学习更适合当前分类任务的线性分类器，避免了传统的两阶段模型在分类阶段的分类器抉择困难和在现实应用中其级联性能可能会下降的问题。
在多个人脸数据集上的测试结果表明，相比于现有的协作表示分类和子空间学习方法，本文方法具有更优的识别效果。
未来工作中，本文方法可以与深度网络相结合，对深度模型输出的高维特征向量进行子空间学习，不仅可以有效降低深度特征的维度，去除冗余信息，而且可以寻找更具判别力的投影表示向量，提升最终分类性能，这也是笔者未来的研究重点。

参考文献

[1]	TURK M, PENTLAND A. Eigenfaces for recognition[J]. Journal of Cognitive Neuroscience, 1991, 3(1): 71-86. DOI:10.1162/jocn.1991.3.1.71

[2]	FISHER R A. The use of multiple measurements in taxonomic problems[J]. Annals of Human Genetics, 1936, 7(2): 179-188.

[3]	蒋晨琛, 霍宏涛, 冯琦. 一种基于PCA的面向对象多尺度分割优化算法[J]. 北京航空航天大学学报, 2020, 46(6): 1192-1203. JIANG C C, HUO H T, FENG Q. An object-oriented multi-scale segmentation optimization algorithm based on PCA[J]. Journal of Beijing University of Aeronautics and Astronautics, 2020, 46(6): 1192-1203. (in Chinese)

[4]	李可, 刘祎, 杜少毅, 等. 基于PCA和WPSVM的航天器电特性识别方法[J]. 北京航空航天大学学报, 2015, 41(7): 1177-1182. LI K, LIU Y, DU S Y, et al. Spacecraft electrical characteristics identification method based on PCA feature extraction and WPSVM[J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(7): 1177-1182. (in Chinese)

[5]	HE X F, YAN S C, HU Y X, et al. Face recognition using Laplacianfaces[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(3): 328-340. DOI:10.1109/TPAMI.2005.55

[6]	HE X F, CAI D, YAN S C, et al. Neighborhood preserving embedding[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2005: 1208-1213.

[7]	SUGIYAMA M. Dimensionality reduction of multimodal labeled data by local Fisher discriminant analysis[J]. Journal of Machine Learning Research, 2007, 8(1): 1027-1061.

[8]	YAN S C, XU D, ZHANG B Y, et al. Graph embedding and extensions: A general framework for dimensionality reduction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(1): 40-51. DOI:10.1109/TPAMI.2007.250598

[9]	BENGIO Y, COURVILLE A, VINCENT P, et al. Representation learning: A review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828. DOI:10.1109/TPAMI.2013.50

[10]	HUANG K, AVIYENTE S. Sparse representation for signal classification[C]//Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2007: 609-616.

[11]	WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227. DOI:10.1109/TPAMI.2008.79

[12]	QIAO L S, CHEN S C, TAN X Y. Sparsity preserving projections with applications to face recognition[J]. Pattern Recognition, 2010, 43(1): 331-341. DOI:10.1016/j.patcog.2009.05.005

[13]	LY N H, DU Q, FOWLER J E. Sparse graph-based discriminant analysis for hyperspectral imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(7): 3872-3884. DOI:10.1109/TGRS.2013.2277251

[14]	ZHANG L, YANG M, FENG X C, et al. Sparse representation or collaborative representation: Which helps face recognition?[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2011: 471-478.

[15]	LY N H, DU Q, FOWLER J E. Collaborative graph-based discriminant analysis for hyperspectral imagery[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2688-2696. DOI:10.1109/JSTARS.2014.2315786

[16]	YANG W K, SUN C Y, ZHENG W M. A regularized least square based discriminative projections for feature extraction[J]. Neurocomputing, 2016, 175: 198-205. DOI:10.1016/j.neucom.2015.10.049

[17]	ZHENG C Y, WANG N N. Collaborative representation with k-nearest classes for classification[J]. Pattern Recognition Letters, 2019, 117: 30-36. DOI:10.1016/j.patrec.2018.11.005

[18]	LI W, DU Q. Collaborative representation for hyperspectral anomaly detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(3): 1463-1474. DOI:10.1109/TGRS.2014.2343955

[19]	KAYA M, BILGE H ?. Deep metric learning: A survey[J]. Symmetry, 2019, 11(9): 1066. DOI:10.3390/sym11091066

[20]	ZHONG G Q, WANG L N, LING X, et al. An overview on data representation learning: From traditional feature learning to recent deep learning[J]. The Journal of Finance and Data Science, 2016, 2(4): 265-278. DOI:10.1016/j.jfds.2017.05.001

[21]	ZHOU X Z, JIN K, XU M, et al. Learning deep compact similarity metric for kinship verification from face images[J]. Information Fusion, 2019, 48: 84-94. DOI:10.1016/j.inffus.2018.07.011

[22]	CHU R H, SUN Y F, LI Y D, et al. Vehicle re-identification with viewpoint-aware metric learning[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 8282-8291.

[23]	车畅畅, 王华伟, 倪晓梅, 等. 基于深度学习的航空发动机故障融合诊断[J]. 北京航空航天大学学报, 2018, 44(3): 621-628. CHE C C, WANG H W, NI X M, et al. Fault fusion diagnosis of aero-engine based on deep learning[J]. Journal of Beijing University of Aeronautics and Astronautics, 2018, 44(3): 621-628. (in Chinese)

[24]	WEN J, ZHANG B, XU Y, et al. Adaptive weighted nonnegative low-rank representation[J]. Pattern Recognition, 2018, 81: 326-340. DOI:10.1016/j.patcog.2018.04.004

[25]	FANG X Z, TENG S H, LAI Z H, et al. Robust latent subspace learning for image classification[J]. IEEE Transactions on Neural Networks, 2018, 29(6): 2502-2515. DOI:10.1109/TNNLS.2017.2693221

[26]	BAILLY-BAILLIéRE E, BENGIO S, BIMBOT F, et al. The BANCA database and evaluation protocol[C]//International Conference on Audio- and Video-based Biometric Person Authentication. Berlin: Springer, 2003: 625-638.

[27]	GEORGHIADES A S, BELHUMEUR P N, KRIEGMAN D J. From few to many: Illumination cone models for face recognition under variable lighting and pose[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(6): 643-660. DOI:10.1109/34.927464