1. 天津大学 软件学院, 天津 300350;
2. 天津大学 计算机科学与技术学院, 天津 300350
收稿日期:2017-02-23
基金项目:国家自然科学基金资助项目(61304250);国家重点基础研究发展规划资助项目(2013CB329305)
作者简介:路文焕(1973-), 女, 副教授
通信作者:王建荣, 副教授, E-mail:wrj@tju.edu.cn
摘要:在基于超声的无声语音接口实现中,通常使用主成分分析或离散余弦变换提取舌部超声图像的特征。为了保留图像的关键信息,该文提出3种混合特征提取方法:使用主成分分析从小波系数中提取特征(Wavelet PCA)、分块离散余弦变换主成分分析(block DCT-PCA)和分块Walsh Hadamard变换主成分分析(block WHT-PCA)。根据能量选取适量的离散余弦变换或WHT变换系数,使用主成分分析提取选定系数的特征。实验结果表明:该文提出的混合特征提取方法优于主成分分析或离散余弦变换,其中block DCT-PCA方法最优。
关键词:无声语音接口超声舌部主成分分析离散余弦变换Walsh-Hadamard变换
Hybrid feature extraction from ultrasound images for a silent speech interface
LU Wenhuan1, QU Yuexin1, YANG Yalong1, WANG Jianrong2, DANG Jianwu2
1.School of Computer Software, Tianjin University, Tianjin 300350, China;
2.School of Computer Science and Technology, Tianjin University, Tianjin 300350, China
Abstract: Principal component analysis (PCA) and discrete cosine transform (DCT) are used to extract features from ultrasound images to build an ultrasound based silent speech interface. The critical information in the image is presented by using three hybrid feature extraction methods. The first method uses PCA to extract discrete wavelet transform coefficient features. The second and third methods truncate the DCT or Walsh-Hadamard transform coefficients to the appropriate number according to the energy with the truncated coefficients then used by PCA to extract the features. Tests show that this hybrid feature extraction method outperforms standalone PCA or DCT analyses. The block DCT-PCA method gives the best result among all the methods.
Key words: silent speech interfaceultrasoundtongueprincipal component analysisdiscrete cosine transformWalsh-Hadamard transform
近年来,人们开始研究无声语音接口(silent speech interface, SSI)[1],其基本思想是使用语音产生过程中某个环节的生理数据,理解并分析其中蕴含的语音信息,通过非语音信号进行交流。SSI主要具有3个方面的应用:保护个人的隐私;实现喉头切除术后患者与他人的交流,促进生物医学的发展;防止军事机密泄露。
SSI可以通过舌部的超声图像[2-3]和唇部的光学图像实现。相对于唇部的光学图像,舌部的超声图像能更直接、准确、稳定地反映语音内容,所以超声图像的特征提取是基于超声的SSI的重要部分。目前用来提取舌部超声图像特征的方法包括3种:一是提取超声图像中舌部的轮廓[4],舌部的轮廓能够很好地描述舌部的运动,但是当舌部平面平行于超声束时,很难提取舌部的轮廓;二是使用主成分分析(principal component analysis, PCA)方法提取舌部运动的主要特征[5],这些主要特征包括舌部的位置和其他的组织结构信息,能够获取较好的识别效果;三是使用离散余弦变换(discrete cosine transform, DCT)方法提取低频系数[6],该低频系数能够表示图像的大部分信息,具有较好的代表性。
目前PCA和DCT方法是用于舌部超声图像的主要特征提取方法,为了更好地提取舌部超声图像的特征,本文提出3种混合特征提取方法:wavelet PCA、block DCT-PCA和block WHT-PCA (Walsh-Hadamard transform principal component analysis)。本文系统流程可分为4步:音视频特征提取;音视频对齐,即根据音频的自动标注结果对超声图像标注;根据视觉特征建立音素级别的隐Markov模型[7](hidden Markov model, HMM);将视觉特征作为输入,使用训练好的HMM进行音素识别。
1 数据获取和预处理1.1 数据获取本文采集了包含舌部超声图像和音频的中文普通话数据库,其中舌部超声图像使用Terason t3000超声系统采集,音频信号使用Studio Projects SP CS5采集。在采集舌部超声图像的过程中,固定超声探头,以获取稳定图像,并且使用超声系统自带的降噪算法减少超声图像的噪声。
为取得更好的识别结果,本文建立了音素平衡的标准发音人语料库。该语料库包含870句中文音频(约90 min,44 100 Hz)和约540 000张舌部超声图像。
1.2 数据预处理在超声图像采集过程中,存在帧率波动的现象。为了后期数据处理,将波动的帧率(约90 Hz)插值到100 Hz。
由于超声图像的右侧部分包含较少的信息,将图像的右侧裁剪,即大小为480×640像素的原始图像被裁剪到大小为480×600像素的图像。为了减少特征提取的计算量,使用双三次插值法将裁剪后的图像大小调整为128×160像素。
2 视觉特征提取视觉特征的后期处理包括特征向量归一化和动态信息获取,整体过程如图 1所示。
图 1 视觉特征提取过程 |
图选项 |
2.1 3种混合特征提取方法为了对比不同特征提取方法的效果,所有特征提取方法提取的特征向量的维度统一为30。
1) Wavelet PCA。
离散小波变换(discrete wavelet transform, DWT)是数字图像处理中非常重要的工具。DWT可以通过数字滤波器和下取样器来实现,先分解图像的行,再分解图像的列,具体过程见图 2,其中↓2符号代表 2取1的抽取运算。图像经过一级Haar小波变换后形成4个子带,记为LL和LH、HL和HH,分别对应于低通滤波信号和水平、垂直、对角线3个方向的高通滤波信号。
图 2 超声图像的一级Haar小波变换 |
图选项 |
Wavelet PCA混合特征提取方法可用于人脸图像的特征提取[8-10]。该方法的实现由2步组成:离散小波变换图像,保留子带LL,这不仅能够提取出代表图像主要特征的低频信息,减少高频噪声分量,降低原始图像的冗余信息,同时也可以降低图像的维数,加速后续过程的处理速度;采用PCA提取子带LL特征,提取出更有效的特征。
2) Block DCT-PCA。
DCT和PCA混合特征提取方法可用于提取人脸图像的特征[11]和唇部图像的特征[12]。Block DCT-PCA的实现由4个步骤组成:将大小为128×160像素的舌部超声图像分解成80个无重叠的图像块,并按照图 3的顺序标号,每个图像块记为Mi(i=1, 2, …, 80);使用DCT对Mi进行变换,将得到的系数使用Zigzag扫描方法形成一个向量,记作Ci;选取Ci中前n(n=1, 2, …, 256)个系数,按照图像块的标号顺序将所有的系数连接成一个大小为80×n的向量;使用PCA提取上一步中向量的特征。整个过程如图 3所示。
图 3 Block DCT-PCA方法的特征提取过程 |
图选项 |
该混合方法首先使用DCT对超声图像块进行变换,选取包含舌部超声图像大部分信息的低频系数,忽略大部分高频噪声分量;采用PCA对提取出的低频系数降维,提取出更有效的特征。
3) Block WHT-PCA。
Walsh-Hadamard变换(Walsh-Hadamard transform, WHT)是实现图像变换的重要方法之一,可用于人脸的特征提取[13]。Block WHT-PCA混合特征提取的实现方法类似于block DCT-PCA方法,不同之处是使用WHT对图像块进行变换。WHT是一种便于运算的变换,变换核是值+1或-1的有序序列,能够提高运算速度。
2.2 视觉特征的后期处理1) 归一化。
图像特征提取后获得的特征向量具有不同的尺度,因此需要对获取的特征向量进行归一化操作。在图像的特征提取中,从维度为128×160的图像提取了维度为30的特征,归一化提取到的特征向量,方便后期处理。
2) 获取动态信息。
为了更好地描述图像序列的动态信息,每个特征向量与其一阶差分和二阶差分使用特征融合的策略拼接,形成90维的特征向量来进行后期处理。
3 实验结果与讨论本文采用HMM进行音素识别。在训练阶段,使用视觉特征训练音素级别的HMM,每个HMM包含5个状态,状态从左到右转移,每个状态包含32个Gauss概率密度函数;在识别阶段,采用单词环(word-loop)网络,即在该网络中任何一个词都可以跟在任何一个词之后。实验中使用基于隐Markov模型的语音处理工具箱HTK[14] (hidden Markov model toolkit)和语音自动标注工具P2FA[15] (penn phonetics lab forced aligner)。
实验中将870句中文句子分成29组,每组30句,每组轮流作为测试集,其他组作为训练集,统计所有测试集的结果作为最终识别结果。识别率的定义为
$P = \frac{{N - D - S - I}}{N} \times 100\% .$ |
实验中根据识别率将3种混合特征提取方法与2种传统特征提取方法(PCA和DCT)比较。根据表 1的识别结果,可看出混合特征提取方法比传统的特征提取方法效果更好,其中使用block DCT-PCA方法得到的识别结果最高,相比PCA方法提升了4.29%;Block WHT-PCA方法得到的结果次之,相比PCA方法提升了3.92%;Wavelet PCA方法得到的结果在3种混合特征方法中提升得最少,相比PCA方法提升了2.73%;DCT方法得到的识别率最低,说明根据能量提取的系数不能很好地代表舌部图像的信息。
表 1 不同特征提取方法的识别率
方法 | P/% | D | S | I | N |
PCA | 50.87 | 9 316 | 10 215 | 4 124 | 48 150 |
DCT | 46.32 | 10 375 | 11 152 | 4 319 | 48 150 |
Wavelet PCA | 52.26 | 9 091 | 10 055 | 3 841 | 48 150 |
Block WHT-PCA | 52.86 | 9 329 | 9 836 | 3 535 | 48 150 |
Block DCT-PCA | 53.05 | 9 060 | 9 853 | 3 694 | 48 150 |
表选项
混合特征提取方法block DCT-PCA和block WHT-PCA在选取低频系数时具有相似性,所以对比这2种方法。图 4表示在混合特征提取方法block DCT-PCA和block WHT-PCA中使用不同维度的DCT和WHT系数时得到的识别率。可以看出:当使用适量的系数时,识别率达到最高;当使用少量和更多的系数时,识别率降低,这是因为当使用的系数较少时,能够代表图像的信息较少,因此识别率较低;当使用更多的系数时,会引入高频噪声,导致识别率下降。
图 4 使用不同维度的DCT和WHT系数的识别率 |
图选项 |
通过表 1和图 4的识别结果可以看出:3种混合特征方法均能更好地提取舌部超声图像的信息;Wavelet PCA方法中的小波变换在一定程度上能够提取图像的主要信息,减少原始图像的冗余信息;block DCT-PCA方法得到的最高识别率比block WHT-PCA方法高,说明DCT对图像的编码更为有效,变换后的低频信息更集中;相比block DCT-PCA方法,block WHT-PCA方法使用更少的系数达到最高识别率,并且计算量少、更简单;通过Block DCT-PCA和Block WHT-PCA方法中的DCT和WHT系数选取,能够找到适量的系数,使识别率达到最高。
3种混合特征提取方法得到的识别结果的混淆矩阵类似,因此本文仅列出了使用block DCT-PCA特征提取方法得到的识别结果的混淆矩阵(见图 5),其中大部分音素使用汉语拼音表示,其余部分如[&]表示[en]和[eng]等发音中的[e],[@]表示[an]、[ai]和[ia]等发音中的[a],[E]表示[ian]和[uan]等发音中的[a],[W]表示[üe]等发音中的[ü],[%]表示跟在声母[zh]、[ch]、[sh]后面的[i],[>]表示[uo]等发音中的[o],[I]表示跟在声母[z]、[c]、[s]后面的[i]。该混淆矩阵除了可以获得分类器正确或错误识别率等指标外,还可以看出容易判断错误的音素。从图 5中可以看出,预测结果集中在对角线上,说明音素的识别结果较好;也可看出易混淆的音素为{[j][q]}、{[ch][zh]}、{[c][z]}、{[s][z]}、{[k][g]}和{[t][d]}等,出现这样的结果是因为对于这些音素,舌部运动相似,因此特征提取的结果也相似,导致容易判断错误,这也是使用舌部超声图像进行语音识别的弊端。
图 5 混淆矩阵 |
图选项 |
4 结论本文提出了用于舌部超声图像的3种混合特征提取方法:wavelet PCA、block DCT-PCA和block WHT-PCA。根据识别率比较混合特征提取方法与传统特征提取方法(DCT和PCA),证明了混合特征提取方法更能够提取舌部超声图像中重要的特征,其中block DCT-PCA方法在所有特征提取方法中得到的识别率最高,相比PCA方法提升了4.29%。该混合特征提取方法实现简单,能够结合不同特征提取的优势,在舌部超声图像上取得显著效果。下一步研究中,将使用混合特征提取方法应用于唇部图像特征提取,为无声语音接口做出贡献。
参考文献
[1] | Denby B, Schultz T, Honda K, et al. Silent speech interfaces[J]. Speech Communication, 2010, 52(4): 270–287. DOI:10.1016/j.specom.2009.08.002 |
[2] | Denby B, Oussar Y, Dreyfus G, et al. Prospects for a silent speech interface using ultrasound imaging[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ, USA:IEEE Press, 2006:365-368. |
[3] | Hueber T, Chollet G, Denby B, et al. Acquisition of ultrasound, video and acoustic speech data for a silent-speech interface application[J]. Proc of ISSP, 2008: 365–369. |
[4] | Denby B, Stone M. Speech synthesis from real time ultrasound images of the tongue[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ, USA:IEEE Press, 2004:685-688. |
[5] | Hueber T, Aversano G, Chollet G, et al. Eigentongue feature extraction for an ultrasound-based silent speech interface[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ, USA:IEEE Press, 2007:1245-1248. |
[6] | Cai J, Denby B, Roussel-Ragot P, et al. Recognition and real time performances of a lightweight ultrasound based silent speech interface employing a language model[C]//INTERSPEECH. Baixas, France:ISCA, 2011:1005-1008. |
[7] | Hueber T, Benaroya E L, Chollet G, et al. Development of a silent speech interface driven by ultrasound and optical images of the tongue and lips[J]. Speech Communication, 2010, 52(4): 288–300. DOI:10.1016/j.specom.2009.11.004 |
[8] | Safari M, Harandi M T, Araabi B N. A SVM-based method for face recognition using a wavelet PCA representation of faces[C]//International Conference on Image Processing. Piscataway, NJ, USA:IEEE Press, 2004:853-856. |
[9] | Puyati W, Walairacht A. Efficiency improvement for unconstrained face recognition by weightening probability values of modular PCA and wavelet PCA[C]//International Conference on Advanced Communication. Piscataway, NJ, USA:IEEE Press, 2008:1449-1453. |
[10] | Chitaliya N G, Trivedi A I. Feature extraction using Wavelet-PCA and neural network for application of object classification & face recognition[C]//International Conference on Computer Engineering and Applications. Piscataway, NJ, USA:IEEE Press, 2010:510-514. |
[11] | Akrouf S, Sehili M A, Chakhchoukh A, et al. Face recognition using PCA and DCT[C]//Proceedings Fifth International Conference on MEMS, Nano, and Smart Systems. Los Alamitos, CA, USA:IEEE Computer Society, 2009:15-19. |
[12] | Hong X, Yao H, Wan Y, et al. A PCA based visual DCT feature extraction method for lip-reading[C]//International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Los Alamitos, CA, USA:IEEE Computer Society, 2006:321-326. |
[13] | Hassan M, Osman I, Yahia M. Walsh-hadamard transform for facial feature extraction in face recognition[J]. Proceedings of World Academy of Science Engineering & Technolog, 2007, 1(3): 1264–1268. |
[14] | Young S J, Jansen J, Odell J J, et al. The HTK Hidden Markov Model Toolkit Book[M]. Cambridge: Entropic Cambridge Research Laboratory, 1995. |
[15] | Yuan J, Ryant N, Liberman M, et al. Automatic phonetic segmentation using boundary models[C]//INTERSPEECH. Lyon, France:ISCA, 2013:2306-2310. |