无声语音接口中超声图像的混合特征提取

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

图 1 视觉特征提取过程

图选项

2.1 3种混合特征提取方法为了对比不同特征提取方法的效果，所有特征提取方法提取的特征向量的维度统一为30。
1) Wavelet PCA。
离散小波变换(discrete wavelet transform, DWT)是数字图像处理中非常重要的工具。DWT可以通过数字滤波器和下取样器来实现，先分解图像的行，再分解图像的列，具体过程见图 2，其中↓2符号代表 2取1的抽取运算。图像经过一级Haar小波变换后形成4个子带，记为LL和LH、HL和HH，分别对应于低通滤波信号和水平、垂直、对角线3个方向的高通滤波信号。

图 2 超声图像的一级Haar小波变换

图选项

Wavelet PCA混合特征提取方法可用于人脸图像的特征提取^[8-10]。该方法的实现由2步组成：离散小波变换图像，保留子带LL，这不仅能够提取出代表图像主要特征的低频信息，减少高频噪声分量，降低原始图像的冗余信息，同时也可以降低图像的维数，加速后续过程的处理速度；采用PCA提取子带LL特征，提取出更有效的特征。
2) Block DCT-PCA。
DCT和PCA混合特征提取方法可用于提取人脸图像的特征^[11]和唇部图像的特征^[12]。Block DCT-PCA的实现由4个步骤组成：将大小为128×160像素的舌部超声图像分解成80个无重叠的图像块，并按照图 3的顺序标号，每个图像块记为M_i(i=1, 2, …, 80)；使用DCT对M_i进行变换，将得到的系数使用Zigzag扫描方法形成一个向量，记作C_i；选取C_i中前n(n=1, 2, …, 256)个系数，按照图像块的标号顺序将所有的系数连接成一个大小为80×n的向量；使用PCA提取上一步中向量的特征。整个过程如图 3所示。

图 3 Block DCT-PCA方法的特征提取过程

图选项

该混合方法首先使用DCT对超声图像块进行变换，选取包含舌部超声图像大部分信息的低频系数，忽略大部分高频噪声分量；采用PCA对提取出的低频系数降维，提取出更有效的特征。
3) Block WHT-PCA。
Walsh-Hadamard变换(Walsh-Hadamard transform, WHT)是实现图像变换的重要方法之一，可用于人脸的特征提取^[13]。Block WHT-PCA混合特征提取的实现方法类似于block DCT-PCA方法，不同之处是使用WHT对图像块进行变换。WHT是一种便于运算的变换，变换核是值+1或-1的有序序列，能够提高运算速度。
2.2 视觉特征的后期处理1) 归一化。
图像特征提取后获得的特征向量具有不同的尺度，因此需要对获取的特征向量进行归一化操作。在图像的特征提取中，从维度为128×160的图像提取了维度为30的特征，归一化提取到的特征向量，方便后期处理。
2) 获取动态信息。
为了更好地描述图像序列的动态信息，每个特征向量与其一阶差分和二阶差分使用特征融合的策略拼接，形成90维的特征向量来进行后期处理。
3 实验结果与讨论本文采用HMM进行音素识别。在训练阶段，使用视觉特征训练音素级别的HMM，每个HMM包含5个状态，状态从左到右转移，每个状态包含32个Gauss概率密度函数；在识别阶段，采用单词环(word-loop)网络，即在该网络中任何一个词都可以跟在任何一个词之后。实验中使用基于隐Markov模型的语音处理工具箱HTK^[14] (hidden Markov model toolkit)和语音自动标注工具P2FA^[15] (penn phonetics lab forced aligner)。
实验中将870句中文句子分成29组，每组30句，每组轮流作为测试集，其他组作为训练集，统计所有测试集的结果作为最终识别结果。识别率的定义为

$P = \frac{{N - D - S - I}}{N} \times 100\% .$

其中: N表示测试集中所有音素个数，D表示删除错误的音素个数，S表示替代错误的音素个数，I表示插入错误的音素个数。
实验中根据识别率将3种混合特征提取方法与2种传统特征提取方法(PCA和DCT)比较。根据表 1的识别结果，可看出混合特征提取方法比传统的特征提取方法效果更好，其中使用block DCT-PCA方法得到的识别结果最高，相比PCA方法提升了4.29%；Block WHT-PCA方法得到的结果次之，相比PCA方法提升了3.92%；Wavelet PCA方法得到的结果在3种混合特征方法中提升得最少，相比PCA方法提升了2.73%；DCT方法得到的识别率最低，说明根据能量提取的系数不能很好地代表舌部图像的信息。
表 1 不同特征提取方法的识别率

方法	P/%	D	S	I	N
PCA	50.87	9 316	10 215	4 124	48 150
DCT	46.32	10 375	11 152	4 319	48 150
Wavelet PCA	52.26	9 091	10 055	3 841	48 150
Block WHT-PCA	52.86	9 329	9 836	3 535	48 150
Block DCT-PCA	53.05	9 060	9 853	3 694	48 150

表选项

混合特征提取方法block DCT-PCA和block WHT-PCA在选取低频系数时具有相似性，所以对比这2种方法。图 4表示在混合特征提取方法block DCT-PCA和block WHT-PCA中使用不同维度的DCT和WHT系数时得到的识别率。可以看出：当使用适量的系数时，识别率达到最高；当使用少量和更多的系数时，识别率降低，这是因为当使用的系数较少时，能够代表图像的信息较少，因此识别率较低；当使用更多的系数时，会引入高频噪声，导致识别率下降。

图 4 使用不同维度的DCT和WHT系数的识别率

图选项

通过表 1和图 4的识别结果可以看出：3种混合特征方法均能更好地提取舌部超声图像的信息；Wavelet PCA方法中的小波变换在一定程度上能够提取图像的主要信息，减少原始图像的冗余信息；block DCT-PCA方法得到的最高识别率比block WHT-PCA方法高，说明DCT对图像的编码更为有效，变换后的低频信息更集中；相比block DCT-PCA方法，block WHT-PCA方法使用更少的系数达到最高识别率，并且计算量少、更简单；通过Block DCT-PCA和Block WHT-PCA方法中的DCT和WHT系数选取，能够找到适量的系数，使识别率达到最高。
3种混合特征提取方法得到的识别结果的混淆矩阵类似，因此本文仅列出了使用block DCT-PCA特征提取方法得到的识别结果的混淆矩阵(见图 5)，其中大部分音素使用汉语拼音表示，其余部分如[&]表示[en]和[eng]等发音中的[e]，[@]表示[an]、[ai]和[ia]等发音中的[a]，[E]表示[ian]和[uan]等发音中的[a]，[W]表示[üe]等发音中的[ü]，[%]表示跟在声母[zh]、[ch]、[sh]后面的[i]，[＞]表示[uo]等发音中的[o]，[I]表示跟在声母[z]、[c]、[s]后面的[i]。该混淆矩阵除了可以获得分类器正确或错误识别率等指标外，还可以看出容易判断错误的音素。从图 5中可以看出，预测结果集中在对角线上，说明音素的识别结果较好；也可看出易混淆的音素为{[j][q]}、{[ch][zh]}、{[c][z]}、{[s][z]}、{[k][g]}和{[t][d]}等，出现这样的结果是因为对于这些音素，舌部运动相似，因此特征提取的结果也相似，导致容易判断错误，这也是使用舌部超声图像进行语音识别的弊端。

图 5 混淆矩阵

图选项

4 结论本文提出了用于舌部超声图像的3种混合特征提取方法：wavelet PCA、block DCT-PCA和block WHT-PCA。根据识别率比较混合特征提取方法与传统特征提取方法(DCT和PCA)，证明了混合特征提取方法更能够提取舌部超声图像中重要的特征，其中block DCT-PCA方法在所有特征提取方法中得到的识别率最高，相比PCA方法提升了4.29%。该混合特征提取方法实现简单，能够结合不同特征提取的优势，在舌部超声图像上取得显著效果。下一步研究中，将使用混合特征提取方法应用于唇部图像特征提取，为无声语音接口做出贡献。

参考文献

[1]	Denby B, Schultz T, Honda K, et al. Silent speech interfaces[J]. Speech Communication, 2010, 52(4): 270–287. DOI:10.1016/j.specom.2009.08.002
[2]	Denby B, Oussar Y, Dreyfus G, et al. Prospects for a silent speech interface using ultrasound imaging[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ, USA:IEEE Press, 2006:365-368.
[3]	Hueber T, Chollet G, Denby B, et al. Acquisition of ultrasound, video and acoustic speech data for a silent-speech interface application[J]. Proc of ISSP, 2008: 365–369.
[4]	Denby B, Stone M. Speech synthesis from real time ultrasound images of the tongue[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ, USA:IEEE Press, 2004:685-688.
[5]	Hueber T, Aversano G, Chollet G, et al. Eigentongue feature extraction for an ultrasound-based silent speech interface[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ, USA:IEEE Press, 2007:1245-1248.
[6]	Cai J, Denby B, Roussel-Ragot P, et al. Recognition and real time performances of a lightweight ultrasound based silent speech interface employing a language model[C]//INTERSPEECH. Baixas, France:ISCA, 2011:1005-1008.
[7]	Hueber T, Benaroya E L, Chollet G, et al. Development of a silent speech interface driven by ultrasound and optical images of the tongue and lips[J]. Speech Communication, 2010, 52(4): 288–300. DOI:10.1016/j.specom.2009.11.004
[8]	Safari M, Harandi M T, Araabi B N. A SVM-based method for face recognition using a wavelet PCA representation of faces[C]//International Conference on Image Processing. Piscataway, NJ, USA:IEEE Press, 2004:853-856.
[9]	Puyati W, Walairacht A. Efficiency improvement for unconstrained face recognition by weightening probability values of modular PCA and wavelet PCA[C]//International Conference on Advanced Communication. Piscataway, NJ, USA:IEEE Press, 2008:1449-1453.
[10]	Chitaliya N G, Trivedi A I. Feature extraction using Wavelet-PCA and neural network for application of object classification & face recognition[C]//International Conference on Computer Engineering and Applications. Piscataway, NJ, USA:IEEE Press, 2010:510-514.
[11]	Akrouf S, Sehili M A, Chakhchoukh A, et al. Face recognition using PCA and DCT[C]//Proceedings Fifth International Conference on MEMS, Nano, and Smart Systems. Los Alamitos, CA, USA:IEEE Computer Society, 2009:15-19.
[12]	Hong X, Yao H, Wan Y, et al. A PCA based visual DCT feature extraction method for lip-reading[C]//International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Los Alamitos, CA, USA:IEEE Computer Society, 2006:321-326.
[13]	Hassan M, Osman I, Yahia M. Walsh-hadamard transform for facial feature extraction in face recognition[J]. Proceedings of World Academy of Science Engineering & Technolog, 2007, 1(3): 1264–1268.
[14]	Young S J, Jansen J, Odell J J, et al. The HTK Hidden Markov Model Toolkit Book[M]. Cambridge: Entropic Cambridge Research Laboratory, 1995.
[15]	Yuan J, Ryant N, Liberman M, et al. Automatic phonetic segmentation using boundary models[C]//INTERSPEECH. Lyon, France:ISCA, 2013:2306-2310.