图 1 相似脸检索示意图Fig. 1 Schematic of similar face retrieval |
图选项 |
首先,通过基于稀疏约束的级联回归模型进行人脸配准,估计人脸姿态[16],进行图像规范化以消除旋转、平移、缩放差异.稀疏约束的级联回归能够筛选鲁棒的特征,高效地压缩模型的存储空间.然后,在对应的人脸姿态子集中进行基于稀疏形状重构的相似脸型检索.同时,提取测试人脸图像的局部纹理特征,并通过稀疏投影进行高效降维.最后,将低维纹理特征在脸型相似的子集中进行基于稀疏纹理重构的相似脸检索.通过级联形状和纹理的检索,检索效率明显提升,且返回的结果在脸型和五官纹理上均具有很强的相似性.图 2展示了基于移动平台的相似脸检索的交互过程,移动端先将人脸形状发送到服务器端,接着对内部的某些关键点提取高维纹理特征,并进行基于 稀疏投影的特征降维,然后将低维纹理特征发送至服务器端.在移动端进行纹理特征提取的时候,服务器端同步完成基于稀疏形状重构的相似脸型检索.服务器端基于稀疏纹理重构的相似脸检索在脸型相似的人脸子集中完成,检索效率较高,最终服务器端向移动端返回相似度最高的5个人脸图像.相似脸检索过程中移动端和服务器端的通信主要有:移动端发送136维人脸形状,500维人脸纹理特征,服务器端返回5幅相似脸图像(稀疏重构支持增量传输,稀疏系数可作为相似度指标).移动端的模型存储主要是稀疏级联回归模型(约1.56MB)和高维纹理特征的稀疏投影矩阵(约3.80MB).移动端的计算主要集中在特征提取、级联回归,纹理特征稀疏投影.整个交互过程在近百万级人脸数据库上进行,硬件条件为三星Note 3,Wifi环境(或者3G),IBM服务器(12核,3.4GHz,128GB内存),相似脸检索的时间大约1.5s.
图 2 基于移动平台的相似脸检索Fig. 2 Similar face retrieval on mobile platform |
图选项 |
1.1 基于稀疏级联回归的人脸配准级联回归模型通过级联简单的回归器不断拟合配准残差完成人脸配准.通过级联T个回归器(R1,R 2,…,RT)不断拟合配准残差:
式中,Ii为人脸图像;N为训练集人脸图像的数目;Xi*为标定的人脸形状;Xit为迭代过程中的人脸形状;Rt 为每步迭代的回归矩阵;Φ(Ii,Xit)为图像Ii在形状Xit位置下的SIFT特征描述,每一步回归的目标都是减少残差,该优化问题可以通过最小二乘求解,存在闭式解.迭代过程中的形状更新按照累加的形式完成:
在实际的应用过程中,迭代步数在4或5次即可收敛.由训练的目标函数可知,迭代过程中的形状实际上是在人脸形状的线性子空间中,由此,引入了隐性的人脸形状约束,这种约束相对于参数化模型灵活性较高,能够适应姿态变化和夸张表情.从迭代过程中的形状增量RtΦ(Ii,Xit) 可知,对于每个关键点迭代过程中位置的变化,都与所有关键点的特征相关,因此,参数维度较高,容易过拟合.可以对回归矩阵 Rt 引入稀疏约束,即假设某个关键点的位置变化仅仅与一部分关键点的特征相关.
式中,ΔXit=Xi*-Xit,该优化问题可由Lasso[17]求解;λ1为正则系数,控制回归矩阵 R t 的稀疏度.通过交叉验证确定λ1=0.1,此时,Rt 每行的非零元素约为300左右,远小于8704(68×128),R t 可以获得5%左右的压缩率,大大缩小了模型的存储空间.同时,稀疏的回归矩阵对应着稀疏的特征选择,相对于最小二乘的求解方法,稀疏约束抑制了过拟合倾向,筛选了鲁棒的特征.基于稀疏级联回归的人脸配准过程如图 3所示,配准过程迭代5次.
图 3 基于稀疏级联回归的人脸配准Fig. 3 Face alignment based on sparse cascade regression |
图选项 |
1.2 人脸特征提取与压缩 基于人脸关键点的准确定位,对人脸图像进行了归一化以消除旋转、平移以及缩放的差异.如图 4所示,基于每幅人脸图像构建5层的图像金字塔(瞳孔距250,100,150,100,50像素),并在一些人脸内部关键点位置(40像素×40像素)提取人脸的局部多尺度特征.采用LBP,HoG和Gabor特征描述子,最终形成高维的人脸纹理特征.
图 4 基于稀疏投影的特征降维Fig. 4 Feature dimension reduction based on sparse projection |
图选项 |
由于移动平台计算和存储能力有限,需要对高维特征 进行压缩.然而,传统的特征降维方法对计 算和存储要求较高.例如,采用主成分分析法将10万维的高维特征降到1000维,每次投影需要1亿次浮点乘法运算,投影矩阵占用存储空间400MB.通过学习稀疏投影矩阵,能够对高维的人脸纹理特征进行高效降维.如图 4所示,X 是高维特征,即每幅人脸图像每个关键点的多尺度联合特征.通过PCA将原始高维特征降维,为了降低计算和存储复杂度,采用稀疏投影矩阵拟合该降维过程.
考虑到子空间对旋转具有不变性,通过在最终的低维特征 Y前引入旋转矩阵R,可以近一步提升投影矩阵 B 的稀疏度.
上述优化问题在给定 R 的情况下,可以通过Lasso[17]求解,并且 B 的每列求解可以并行加速.在给定 BB的情况下,R 存在闭式解,R= UVT,其中UV T来自 YX T B 的SVD分解 U σV T.最终通过迭代求解得到稀疏投影矩阵 B ,在测试过程中,降维过程就是 B T X.1.3 基于分层匹配的相似脸检索 在百万级的人脸数据库上直接进行相似脸检索往往效率较低,可以结合人脸形状和局部纹理进行分层匹配,整个过程如图 1所示.首先,通过人脸关键点估计人脸姿态[16],进行人脸的规范化,人脸侧转的角度用来选择相应的人脸检索库的子集.同时也可以通过性别、年龄、种族等属性对检索库进行分组进一步缩小检索空间.然后,将测试图片的人脸形状向量在样本的形状字典上进行稀疏重构,获取脸型相似的人脸样本.最后,将测试图片的低维纹理向量在样本的纹理字典上进行稀疏重构,获取脸型和五官纹理均相似的人脸图像.
式中,T( X ,β)为将测试的人脸形状 X 与字典中的人脸形状D消除旋转、平移、缩放的相似变换;α为稀疏重构系数.同理进行稀疏纹理重构,差异仅仅在于纹理特征向量不需要进行相似变换. 2 人脸配准的实验结果2.1 实验数据与定位结果评价 采用300-W人脸配准比赛[18]的标注数据进行训练和测试,其中包括AFW(337),iBug(135),XM2VTS(2360),LFPW(811+224),HELEN(2000+330),关键点的定义如图 5所示.LFPW和Helen的测试集用来进行测试,其余图像都用于训练.为了进一步扩充数据集,对训练数据进行镜像操作,对初始化的平均形状进行扰动以产生更多的训练数据,最终获得了112860(5643×2×10)的训练数据.
图 5 关键点的定义Fig. 5 Definition of landmarks |
图选项 |
在人脸关键点定位的精度评价方面,关键点的平均定位误差定义为
式中,M为每幅人脸图像人脸关键点的数目;|pij-gij|2为每幅图像每个关键点预测的位置和标定的位置之间的欧式距离; li-ri 2为每幅人脸图像左右眼角之间的欧式距离.对于每幅测试图像而言,所有关键点的平均误差在0.1以上都表示配准失败.除了给出平均定位误差,同时还给出了累积误差曲线,以便更直观地反应误差的分布情况.在Android平台上(三星Note3),采用JAVA的JNI技术调用C++代码实现的人脸配准,耗时10ms左右(不包括人脸检测的时间). 2.2 LFPW和Helen实验结果LFPW和Helen都是自然场景下的人脸数据库,其中姿态、光照、表情变化比较大,并且存在一定程度的遮挡.作为对比的方法是4层级联回归的SDM[10]模型.测试结果如图 6所示,本文的方法比SDM略好一些,主要是因为稀疏约束可以提取鲁棒的特征,对局部遮挡适应性更强.图 6同时显示了每个关键点的定位误差,每个关键点上圆的半径代表平均定位误差的大小,由图可知,眼睛上的关键点定位比较准确,而人脸外轮廓和眉毛上的关键点定位误差较大.表 1、表 2给出了各种级联回归方法在LFPW和Helen上的平均定位误差,其他方法的平均定位误差来自文献[11].表 3给出了稀疏度与模型大小的关系,图 7给出了Android平台人脸配准示意图.
图 6 LFPW和Helen配准结果Fig. 6 Alignment results on LFPW and Helen |
图选项 |
表 1 LFPW归一化平均误差Table 1 Normalized mean error on LFPW
方法 | ESR[9] | SDM[10] | RCPR[12] | LBF[11] | 本文方法 |
平均定位误差/% | 3.47 | 3.45 | 3.50 | 3.35 | 3.43 |
表选项
表 2 Helen归一化平均误差Table 2 Normalized mean error on Helen
方法 | ESR[9] | SDM[10] | RCPR[12] | LBF[11] | 本文方法 |
平均定位误差/% | 5.7 | 4.27 | 6.5 | 5.41 | 3.94 |
表选项
表 3 稀疏度与模型大小的关系Table 3 Relationship between sparsity and model size
λ1 | 1 | 0.1 | 0.01 | 0.001 |
模型大小的压缩比/% | 0.4 | 5.1 | 19.2 | 25.1 |
表选项
图 7 Android平台人脸配准结果Fig. 7 Results of face alignment on Android platform |
图选项 |
3 相似脸检索的实验结果 3.1 实验数据原始的LFW[15]数据库包含5749个公众人物的13233张人脸图像,通过这5749个人名,在搜索引擎上整理得到617430张人脸图像,每个人对应的人脸图像数目从200到2000不等.同时整理出包含1540人的中国名人列表,并相应地搜索得到186985张人脸图像. 数据库整理时的人脸检测方法来自文献[19],大约10%左右漏检的人脸图像采用手工方式标注人脸框,人脸配准采用稀疏级联回归,姿态估计方法来自文献[16].相似脸检索库的规模大约是75万,每个人的人脸图像集大约包括3%~5%的其他人脸.对库中的人脸按性别(男/女)、种族(黑人/白人/黄种人)、姿态(侧角)进行分组,按树的形式重新整理了数据库. 为了比较基于分层匹配的相似脸检索方法和基于哈希的相似脸检索方法,从每个名人库中抽出5张人脸图像,一共36445(7289×5)张人脸图像.对这些人脸图像进行配准规范化,提取LBP,HoG和Gabor联合特征,通过k-means聚成1000类.然后,通过人工筛选的方式,将每一类中视觉上不相似的人脸图像删除,最终形成相似脸检索测试库. 3.2 高维特征的稀疏投影 在原始的LFW数据库上确定最佳的特征提取方式、关键点数目、图像金字塔层数、特征投影的稀疏度.原始高维人脸特征通过PCA降维到500维,稀疏投影拟合该降维过程,低维特征用来进行基于最近邻的人脸识别.如图 8所示,通过控制变量法逐一调节参数,最终权衡速度与精度,选取LBP特征,关键点的数目为13(不包括人脸外轮廓和眉毛上的关键点),图像金字塔层数为5层,特征投影的稀疏度为99%,在LFW数据库上的识别精度为81.42%.
图 8 关键点数目、金字塔层数、投影矩阵稀疏度对识别精度的影响Fig. 8 Effects of number of landmarks,layer of pyramids and sparsity of projection matrixes on recognition accuracy |
图选项 |
3.3 相似脸检索首先,在相似脸检索测试库上比较基于分层匹配的相似脸检索和基于哈希的相似脸检索.基于哈希的相似脸检索在原始高维人脸特征上进行,哈希编码的方式参考了文献[20].实验结果如表 4所示,基于哈希的相似脸检索方式在速度上有一定的优势,然而,基于分层匹配的方式能够在保证实时的情况下,准确率高出很多.表 4 速度和准确率的比较Table 4 Comparison of speed and accuracy
检索类型 | 时间/ms | 准确率/% |
基于分层匹配的相似脸检索 | 71.2 | 86.72 |
基于哈希的相似脸检索 | 39.4 | 63.85 |
表选项
然后,在扩展的LFW数据库上进行大规模相似脸检索测试.对于用户输入的人脸图像,首先进行快速人脸配准,给出性别、种族信息.当服务器端接收到这些信息的时候,在相应的子库中进行基于稀疏形状重构的相似脸型检索,稀疏重构的正则参数设为0.01.当服务器端完成相似脸型的检索,客户端的人脸低维纹理特征也发送到服务器端,于是服务器端继续完成基于稀疏纹理重构的相似脸检索,稀疏重构的正则参数设为0.1,最后稀疏系数最大的5个人脸图像作为相似度最高的图像返回给客户端.图 9分析了整个算法的效率,通常在1.3~1.5s之间即可返回与输入人脸图像最相似的5个相似脸,图 10展示了检索返回的相似脸.
图 9 基于移动平台的相似脸检索耗时分析Fig. 9 Time consuming analysis of similar face retrieval based on mobile platform |
图选项 |
图 10 级联形状和纹理的相似脸检索结果Fig. 10 Results of similar face retrieval based on cascade shape and appearance |
图选项 |
4 结 论 主要研究了基于移动平台的快速相似脸检索问题,基于精确的人脸配准,建立了级联形状和纹理的相似脸检索模型.1) 在人脸检测的基础上进行基于稀疏约束的级联回归配准,回归器的训练通过引入稀疏约束,增强了模型的鲁棒性,同时可以将模型的大小压缩到原来的5%左右.提出的配准模型在LFPW和Helen等自然场景的人脸数据库上取得了很好的配准结果,具有速度快、精度高、模型小的特点.2) 在人脸配准的基础上,级联人脸形状和局部纹理特征进行基于稀疏重构的高效的相似脸检索,其中局部纹理特征采用稀疏投影的方式压缩高维特征.提出的相似脸检索方法在接近百万级的数据库上能够实时检索相似脸,且脸型结合五官纹理的相似度衡量标准符合人们的视觉感受.3) 目前的配准算法对于夸张表情、严重遮挡等情况的配准精度还有待提高,服务器端的相似脸检索效率也可以继续提升.在今后的工作中,将进一步提高配准精度,融合图像哈希等方法进一步加速检索.
参考文献
[1] | Hua G, Fu Y,Turk M,et al.Introduction to the special issue on mobile vision[J].International Journal of Computer Vision,2012,96(3):277-279. |
Click to display the text | |
[2] | 山世光, 高文,唱轶钲,等.人脸识别中的“误配准灾难”问题研究[J].计算机学报,2005,28(5):783-791. Shan S G,Gao W,Chang Y Z,et al.“Curse of Mis-alignment”problem in face recognition[J].Chinese Journal of Computers, 2005,28(5):783-791(in Chinese). |
Cited By in Cnki (42) | |
[3] | Cootes T F, Taylor C J,Cooper D H,et al.Active shape models-their training and application[J].Computer Vision and Image Understanding,1995,61(1):38-59. |
Click to display the text | |
[4] | Cootes T F, Edwards G J,Taylor C J.Active appearance models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(6):681-685. |
Click to display the text | |
[5] | Cristinacce D, Cootes T.Automatic feature localisation with constrained local models[J].Pattern Recognition,2008,41(10):3054-3067. |
Click to display the text | |
[6] | Zhu X X, Ramanan D.Face detection,pose estimation,and landmark localization in the wild[C]//Proceeding of the Computer Vision and Pattern Recognition.Washington:IEEE Computer Society,2012:2879-2886. |
[7] | Zhou F, Brandt J,Lin Z.Exemplar-based graph matching for robust facial landmark localization[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE,2013:1025-1032. |
[8] | Sun Y, Wang X G,Tang X O.Deep convolutional network cascade for facial point detection[C]//Proceeding of the Computer Vision and Pattern Recognition.Washington:IEEE Computer Society,2013:3476-3483. |
[9] | Cao X D, Wei Y C,Wen F,et al.Face alignment by explicit shape regression[C]//Proceeding of the Computer Vision and Pattern Recognition.Washington:IEEE Computer Society,2012:2887-2894. |
Click to display the text | |
[10] | Xiong X H, De la Torre F.Supervised descent method and its applications to face alignment[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington:IEEE Computer Society,2013:532- 539. |
Click to display the text | |
[11] | Ren S Q, Cao X D,Wei Y C,et al.Face alignment at 3000 FPS via regressing local binary features[C]//Proceeding of the Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2014:1232-1240. |
[12] | Burgos-Artizzu X P,Perona P,Dollar P.Robust face landmark estimation under occlusion[C]//Proceeding of the International Conference on Computer Vision.Piscataway,NJ:IEEE,2013:1513-1520. |
[13] | Chen D, Cao X,Wen F,et al.Blessing of dimensionality:high-dimensional feature and its efficient compression for face verification[C]//Proceeding of the Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2013:3025-3032. |
Click to display the text | |
[14] | Gionis A, Indyk P,Motwani R.Similarity search in high dimensions via hashing[J].VLDB,1999,99(6):518-529. |
[15] | Huang G B, Mattar M,Berg T,et al.Labeled faces in the wild:a database for studying face recognition in unconstrained environments[J].International Journal of Computer Vision,2007,96(3):277-279. |
Click to display the text | |
[16] | Asthana A, Zafeiriou S,Cheng S,et al.Robust discriminative response map fitting with constrained local models[C]//Proceeding of the Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2013:3444-3451. |
[17] | Tibshirani R. Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society,1996,24(3):267-288. |
[18] | Sagonas C, Tzimiropoulos G,Zafeiriou S,et al.300 faces in-the-wild challenge:the first facial landmark localization challenge[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE,2013:397-403. |
[19] | Yan J J, Zhang X C,Lei Z,et al.Structural models for face detection[C]//Proceeding of the Automatic Face and Gesture Recognition.Washington:IEEE Computer Society,2013:1-6. |
[20] | Cheng J, Leng C,Wu J X,et al.Fast and accurate image matching with cascade hashing for 3D reconstruction[C]//Proceeding of the Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2014:1-8. |