删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

无声语音接口中超声图像的混合特征提取

本站小编 Free考研考试/2020-04-15

<script type="text/x-mathjax-config">MathJax.Hub.Config({tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]}});</script> <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>路文焕 1 , 曲悦欣 1 , 杨亚龙 1 , 王建荣 2 , 党建武 2
1. 天津大学 软件学院, 天津 300350;
2. 天津大学 计算机科学与技术学院, 天津 300350

收稿日期:2017-02-23
基金项目:国家自然科学基金资助项目(61304250);国家重点基础研究发展规划资助项目(2013CB329305)
作者简介:路文焕(1973-), 女, 副教授
通信作者:王建荣, 副教授, E-mail:wrj@tju.edu.cn

摘要:在基于超声的无声语音接口实现中,通常使用主成分分析或离散余弦变换提取舌部超声图像的特征。为了保留图像的关键信息,该文提出3种混合特征提取方法:使用主成分分析从小波系数中提取特征(Wavelet PCA)、分块离散余弦变换主成分分析(block DCT-PCA)和分块Walsh Hadamard变换主成分分析(block WHT-PCA)。根据能量选取适量的离散余弦变换或WHT变换系数,使用主成分分析提取选定系数的特征。实验结果表明:该文提出的混合特征提取方法优于主成分分析或离散余弦变换,其中block DCT-PCA方法最优。
关键词:无声语音接口超声舌部主成分分析离散余弦变换Walsh-Hadamard变换
Hybrid feature extraction from ultrasound images for a silent speech interface
LU Wenhuan1, QU Yuexin1, YANG Yalong1, WANG Jianrong2, DANG Jianwu2
1.School of Computer Software, Tianjin University, Tianjin 300350, China;
2.School of Computer Science and Technology, Tianjin University, Tianjin 300350, China


Abstract: Principal component analysis (PCA) and discrete cosine transform (DCT) are used to extract features from ultrasound images to build an ultrasound based silent speech interface. The critical information in the image is presented by using three hybrid feature extraction methods. The first method uses PCA to extract discrete wavelet transform coefficient features. The second and third methods truncate the DCT or Walsh-Hadamard transform coefficients to the appropriate number according to the energy with the truncated coefficients then used by PCA to extract the features. Tests show that this hybrid feature extraction method outperforms standalone PCA or DCT analyses. The block DCT-PCA method gives the best result among all the methods.
Key words: silent speech interfaceultrasoundtongueprincipal component analysisdiscrete cosine transformWalsh-Hadamard transform
近年来,人们开始研究无声语音接口(silent speech interface, SSI)[1],其基本思想是使用语音产生过程中某个环节的生理数据,理解并分析其中蕴含的语音信息,通过非语音信号进行交流。SSI主要具有3个方面的应用:保护个人的隐私;实现喉头切除术后患者与他人的交流,促进生物医学的发展;防止军事机密泄露。
SSI可以通过舌部的超声图像[2-3]和唇部的光学图像实现。相对于唇部的光学图像,舌部的超声图像能更直接、准确、稳定地反映语音内容,所以超声图像的特征提取是基于超声的SSI的重要部分。目前用来提取舌部超声图像特征的方法包括3种:一是提取超声图像中舌部的轮廓[4],舌部的轮廓能够很好地描述舌部的运动,但是当舌部平面平行于超声束时,很难提取舌部的轮廓;二是使用主成分分析(principal component analysis, PCA)方法提取舌部运动的主要特征[5],这些主要特征包括舌部的位置和其他的组织结构信息,能够获取较好的识别效果;三是使用离散余弦变换(discrete cosine transform, DCT)方法提取低频系数[6],该低频系数能够表示图像的大部分信息,具有较好的代表性。
目前PCA和DCT方法是用于舌部超声图像的主要特征提取方法,为了更好地提取舌部超声图像的特征,本文提出3种混合特征提取方法:wavelet PCA、block DCT-PCA和block WHT-PCA (Walsh-Hadamard transform principal component analysis)。本文系统流程可分为4步:音视频特征提取;音视频对齐,即根据音频的自动标注结果对超声图像标注;根据视觉特征建立音素级别的隐Markov模型[7](hidden Markov model, HMM);将视觉特征作为输入,使用训练好的HMM进行音素识别。
1 数据获取和预处理1.1 数据获取本文采集了包含舌部超声图像和音频的中文普通话数据库,其中舌部超声图像使用Terason t3000超声系统采集,音频信号使用Studio Projects SP CS5采集。在采集舌部超声图像的过程中,固定超声探头,以获取稳定图像,并且使用超声系统自带的降噪算法减少超声图像的噪声。
为取得更好的识别结果,本文建立了音素平衡的标准发音人语料库。该语料库包含870句中文音频(约90 min,44 100 Hz)和约540 000张舌部超声图像。
1.2 数据预处理在超声图像采集过程中,存在帧率波动的现象。为了后期数据处理,将波动的帧率(约90 Hz)插值到100 Hz。
由于超声图像的右侧部分包含较少的信息,将图像的右侧裁剪,即大小为480×640像素的原始图像被裁剪到大小为480×600像素的图像。为了减少特征提取的计算量,使用双三次插值法将裁剪后的图像大小调整为128×160像素。
2 视觉特征提取视觉特征的后期处理包括特征向量归一化和动态信息获取,整体过程如图 1所示。
图 1 视觉特征提取过程
图选项





2.1 3种混合特征提取方法为了对比不同特征提取方法的效果,所有特征提取方法提取的特征向量的维度统一为30。
1) Wavelet PCA。
离散小波变换(discrete wavelet transform, DWT)是数字图像处理中非常重要的工具。DWT可以通过数字滤波器和下取样器来实现,先分解图像的行,再分解图像的列,具体过程见图 2,其中↓2符号代表 2取1的抽取运算。图像经过一级Haar小波变换后形成4个子带,记为LL和LH、HL和HH,分别对应于低通滤波信号和水平、垂直、对角线3个方向的高通滤波信号。
图 2 超声图像的一级Haar小波变换
图选项





Wavelet PCA混合特征提取方法可用于人脸图像的特征提取[8-10]。该方法的实现由2步组成:离散小波变换图像,保留子带LL,这不仅能够提取出代表图像主要特征的低频信息,减少高频噪声分量,降低原始图像的冗余信息,同时也可以降低图像的维数,加速后续过程的处理速度;采用PCA提取子带LL特征,提取出更有效的特征。
2) Block DCT-PCA。
DCT和PCA混合特征提取方法可用于提取人脸图像的特征[11]和唇部图像的特征[12]。Block DCT-PCA的实现由4个步骤组成:将大小为128×160像素的舌部超声图像分解成80个无重叠的图像块,并按照图 3的顺序标号,每个图像块记为Mi(i=1, 2, …, 80);使用DCT对Mi进行变换,将得到的系数使用Zigzag扫描方法形成一个向量,记作Ci;选取Ci中前n(n=1, 2, …, 256)个系数,按照图像块的标号顺序将所有的系数连接成一个大小为80×n的向量;使用PCA提取上一步中向量的特征。整个过程如图 3所示。
图 3 Block DCT-PCA方法的特征提取过程
图选项





该混合方法首先使用DCT对超声图像块进行变换,选取包含舌部超声图像大部分信息的低频系数,忽略大部分高频噪声分量;采用PCA对提取出的低频系数降维,提取出更有效的特征。
3) Block WHT-PCA。
Walsh-Hadamard变换(Walsh-Hadamard transform, WHT)是实现图像变换的重要方法之一,可用于人脸的特征提取[13]。Block WHT-PCA混合特征提取的实现方法类似于block DCT-PCA方法,不同之处是使用WHT对图像块进行变换。WHT是一种便于运算的变换,变换核是值+1或-1的有序序列,能够提高运算速度。
2.2 视觉特征的后期处理1) 归一化。
图像特征提取后获得的特征向量具有不同的尺度,因此需要对获取的特征向量进行归一化操作。在图像的特征提取中,从维度为128×160的图像提取了维度为30的特征,归一化提取到的特征向量,方便后期处理。
2) 获取动态信息。
为了更好地描述图像序列的动态信息,每个特征向量与其一阶差分和二阶差分使用特征融合的策略拼接,形成90维的特征向量来进行后期处理。
3 实验结果与讨论本文采用HMM进行音素识别。在训练阶段,使用视觉特征训练音素级别的HMM,每个HMM包含5个状态,状态从左到右转移,每个状态包含32个Gauss概率密度函数;在识别阶段,采用单词环(word-loop)网络,即在该网络中任何一个词都可以跟在任何一个词之后。实验中使用基于隐Markov模型的语音处理工具箱HTK[14] (hidden Markov model toolkit)和语音自动标注工具P2FA[15] (penn phonetics lab forced aligner)。
实验中将870句中文句子分成29组,每组30句,每组轮流作为测试集,其他组作为训练集,统计所有测试集的结果作为最终识别结果。识别率的定义为
$P = \frac{{N - D - S - I}}{N} \times 100\% .$
其中: N表示测试集中所有音素个数,D表示删除错误的音素个数,S表示替代错误的音素个数,I表示插入错误的音素个数。
实验中根据识别率将3种混合特征提取方法与2种传统特征提取方法(PCA和DCT)比较。根据表 1的识别结果,可看出混合特征提取方法比传统的特征提取方法效果更好,其中使用block DCT-PCA方法得到的识别结果最高,相比PCA方法提升了4.29%;Block WHT-PCA方法得到的结果次之,相比PCA方法提升了3.92%;Wavelet PCA方法得到的结果在3种混合特征方法中提升得最少,相比PCA方法提升了2.73%;DCT方法得到的识别率最低,说明根据能量提取的系数不能很好地代表舌部图像的信息。
表 1 不同特征提取方法的识别率
方法 P/% D S I N
PCA 50.87 9 316 10 215 4 124 48 150
DCT 46.32 10 375 11 152 4 319 48 150
Wavelet PCA 52.26 9 091 10 055 3 841 48 150
Block WHT-PCA 52.86 9 329 9 836 3 535 48 150
Block DCT-PCA 53.05 9 060 9 853 3 694 48 150


表选项






混合特征提取方法block DCT-PCA和block WHT-PCA在选取低频系数时具有相似性,所以对比这2种方法。图 4表示在混合特征提取方法block DCT-PCA和block WHT-PCA中使用不同维度的DCT和WHT系数时得到的识别率。可以看出:当使用适量的系数时,识别率达到最高;当使用少量和更多的系数时,识别率降低,这是因为当使用的系数较少时,能够代表图像的信息较少,因此识别率较低;当使用更多的系数时,会引入高频噪声,导致识别率下降。
图 4 使用不同维度的DCT和WHT系数的识别率
图选项





通过表 1图 4的识别结果可以看出:3种混合特征方法均能更好地提取舌部超声图像的信息;Wavelet PCA方法中的小波变换在一定程度上能够提取图像的主要信息,减少原始图像的冗余信息;block DCT-PCA方法得到的最高识别率比block WHT-PCA方法高,说明DCT对图像的编码更为有效,变换后的低频信息更集中;相比block DCT-PCA方法,block WHT-PCA方法使用更少的系数达到最高识别率,并且计算量少、更简单;通过Block DCT-PCA和Block WHT-PCA方法中的DCT和WHT系数选取,能够找到适量的系数,使识别率达到最高。
3种混合特征提取方法得到的识别结果的混淆矩阵类似,因此本文仅列出了使用block DCT-PCA特征提取方法得到的识别结果的混淆矩阵(见图 5),其中大部分音素使用汉语拼音表示,其余部分如[&]表示[en]和[eng]等发音中的[e],[@]表示[an]、[ai]和[ia]等发音中的[a],[E]表示[ian]和[uan]等发音中的[a],[W]表示[üe]等发音中的[ü],[%]表示跟在声母[zh]、[ch]、[sh]后面的[i],[>]表示[uo]等发音中的[o],[I]表示跟在声母[z]、[c]、[s]后面的[i]。该混淆矩阵除了可以获得分类器正确或错误识别率等指标外,还可以看出容易判断错误的音素。从图 5中可以看出,预测结果集中在对角线上,说明音素的识别结果较好;也可看出易混淆的音素为{[j][q]}、{[ch][zh]}、{[c][z]}、{[s][z]}、{[k][g]}和{[t][d]}等,出现这样的结果是因为对于这些音素,舌部运动相似,因此特征提取的结果也相似,导致容易判断错误,这也是使用舌部超声图像进行语音识别的弊端。
图 5 混淆矩阵
图选项





4 结论本文提出了用于舌部超声图像的3种混合特征提取方法:wavelet PCA、block DCT-PCA和block WHT-PCA。根据识别率比较混合特征提取方法与传统特征提取方法(DCT和PCA),证明了混合特征提取方法更能够提取舌部超声图像中重要的特征,其中block DCT-PCA方法在所有特征提取方法中得到的识别率最高,相比PCA方法提升了4.29%。该混合特征提取方法实现简单,能够结合不同特征提取的优势,在舌部超声图像上取得显著效果。下一步研究中,将使用混合特征提取方法应用于唇部图像特征提取,为无声语音接口做出贡献。

参考文献
[1] Denby B, Schultz T, Honda K, et al. Silent speech interfaces[J]. Speech Communication, 2010, 52(4): 270–287. DOI:10.1016/j.specom.2009.08.002
[2] Denby B, Oussar Y, Dreyfus G, et al. Prospects for a silent speech interface using ultrasound imaging[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ, USA:IEEE Press, 2006:365-368.
[3] Hueber T, Chollet G, Denby B, et al. Acquisition of ultrasound, video and acoustic speech data for a silent-speech interface application[J]. Proc of ISSP, 2008: 365–369.
[4] Denby B, Stone M. Speech synthesis from real time ultrasound images of the tongue[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ, USA:IEEE Press, 2004:685-688.
[5] Hueber T, Aversano G, Chollet G, et al. Eigentongue feature extraction for an ultrasound-based silent speech interface[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ, USA:IEEE Press, 2007:1245-1248.
[6] Cai J, Denby B, Roussel-Ragot P, et al. Recognition and real time performances of a lightweight ultrasound based silent speech interface employing a language model[C]//INTERSPEECH. Baixas, France:ISCA, 2011:1005-1008.
[7] Hueber T, Benaroya E L, Chollet G, et al. Development of a silent speech interface driven by ultrasound and optical images of the tongue and lips[J]. Speech Communication, 2010, 52(4): 288–300. DOI:10.1016/j.specom.2009.11.004
[8] Safari M, Harandi M T, Araabi B N. A SVM-based method for face recognition using a wavelet PCA representation of faces[C]//International Conference on Image Processing. Piscataway, NJ, USA:IEEE Press, 2004:853-856.
[9] Puyati W, Walairacht A. Efficiency improvement for unconstrained face recognition by weightening probability values of modular PCA and wavelet PCA[C]//International Conference on Advanced Communication. Piscataway, NJ, USA:IEEE Press, 2008:1449-1453.
[10] Chitaliya N G, Trivedi A I. Feature extraction using Wavelet-PCA and neural network for application of object classification & face recognition[C]//International Conference on Computer Engineering and Applications. Piscataway, NJ, USA:IEEE Press, 2010:510-514.
[11] Akrouf S, Sehili M A, Chakhchoukh A, et al. Face recognition using PCA and DCT[C]//Proceedings Fifth International Conference on MEMS, Nano, and Smart Systems. Los Alamitos, CA, USA:IEEE Computer Society, 2009:15-19.
[12] Hong X, Yao H, Wan Y, et al. A PCA based visual DCT feature extraction method for lip-reading[C]//International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Los Alamitos, CA, USA:IEEE Computer Society, 2006:321-326.
[13] Hassan M, Osman I, Yahia M. Walsh-hadamard transform for facial feature extraction in face recognition[J]. Proceedings of World Academy of Science Engineering & Technolog, 2007, 1(3): 1264–1268.
[14] Young S J, Jansen J, Odell J J, et al. The HTK Hidden Markov Model Toolkit Book[M]. Cambridge: Entropic Cambridge Research Laboratory, 1995.
[15] Yuan J, Ryant N, Liberman M, et al. Automatic phonetic segmentation using boundary models[C]//INTERSPEECH. Lyon, France:ISCA, 2013:2306-2310.

相关话题/图像 信息

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于宽带信道状态信息的密钥生成策略
    李涛1,2,栾凤宇3,周世东1,21.清华大学电子工程系,微波与数字通信国家重点实验室,北京100084;2.清华大学信息科学与技术国家实验室,北京100084;3.国家电网公司信息通信分公司,北京100761收稿日期:2016-10-31基金项目:国家"八六三"高技术项目(ss2015AA0113 ...
    本站小编 Free考研考试 2020-04-15
  • 基于实验经济学的中介价格信息掌握对二手房议价效率影响
    张红1,2,李林峻1,2,李维娜31.清华大学恒隆房地产研究中心,北京100084;2.清华大学城镇化与产业发展研究中心,北京100084;3.香港恒生管理学院会计系,香港999077收稿日期:2016-02-25基金项目:国家自然科学基金资助项目(71373143);清华大学自主科研计划项目(20 ...
    本站小编 Free考研考试 2020-04-15
  • 二手房市场非居间化对中介信息服务的挑战
    张红1,2,陈嘉伟1,2,李维娜31.清华大学恒隆房地产研究中心,北京100084;2.清华大学城镇化与产业发展研究中心,北京100084;3.香港恒生管理学院会计系,香港999077收稿日期:2016-01-24基金项目:国家自然科学基金资助项目(71373143);清华大学自主科研计划项目(20 ...
    本站小编 Free考研考试 2020-04-15
  • 数字化车间信息模型及其建模与标准化
    张兆坤1,邵珠峰1,王立平1,赵钦志2,张云峰21.清华大学机械工程系,摩擦学国家重点实验室,精密超精密制造装备及控制北京市重点实验室,北京100084;2.国家机床质量监督检验中心,北京100102收稿日期:2016-07-02基金项目:工信部智能制造专项(2015ZXFB02001);国家自然科 ...
    本站小编 Free考研考试 2020-04-15
  • 基于高层信息特征的重叠语音检测
    马勇1,2,鲍长春11.北京工业大学电子信息与控制工程学院,北京100124;2.江苏师范大学物理与电子工程学院,徐州221009收稿日期:2016-06-18基金项目:国家自然科学基金资助项目(61471014)作者简介:马勇(1977-),男,博士研究生通信作者:鲍长春,教授,E-mail:ba ...
    本站小编 Free考研考试 2020-04-15
  • 基于边界扩展的图像显著区域检测
    刘杰1,2,3,王生进1,2,31.清华大学电子工程系,北京100084;2.智能技术与系统国家重点实验室,北京100084;3.清华大学信息技术国家实验室,北京100084收稿日期:2016-06-02基金项目:国家“八六三”高技术项目(2012AA011004);国家科技支撑计划项目(2013B ...
    本站小编 Free考研考试 2020-04-15
  • 基于图像处理的净浆扩展度测量工具开发
    聂鼎,安雪晖清华大学,水沙科学与水利水电工程国家重点实验室,北京100084收稿日期:2016-02-02基金项目:国家“八六三”高技术项目(2012AA06A112);国家自然科学基金重点资助项目(51239006);国家科技支撑计划项目(2015BAB07B07);水沙科学与水利水电工程国家重点 ...
    本站小编 Free考研考试 2020-04-15
  • 基于脸部骨骼位置信息的唇凸度计算方法
    潘晓声1,张梦翰2,LiewWeeChung31.上海师范大学信息与机电工程学院,上海200234,中国;2.复旦大学生命科学学院,上海200438,中国;3.格里菲斯大学信息与通讯技术学院,昆士兰,澳大利亚收稿日期:2016-06-29基金项目:社科基金重大项目(13&ZD132);国家社科青年基 ...
    本站小编 Free考研考试 2020-04-15
  • 融合聚类与排序的图像显著区域检测
    刘杰1,2,3,王生进1,2,31.清华大学电子工程系,北京100084;2.智能技术与系统国家重点实验室,北京100084;3.清华信息科学与技术国家实验室,北京100084收稿日期:2016-04-18基金项目:国家“八六三”高技术项目(2012AA011004);国家科技支撑计划项目(2013 ...
    本站小编 Free考研考试 2020-04-15
  • 基于Riemann核Fisher准则的极化SAR图像人造目标检测
    高伟1,殷君君2,杨健11.清华大学电子工程系,北京100084;2.北京科技大学计算机与通信工程学院,北京100083收稿日期:2016-03-10基金项目:国家自然科学基金重大项目(61490693);航空科学基金项目(20132058003)作者简介:高伟(1987-),男,博士研究生通讯作者 ...
    本站小编 Free考研考试 2020-04-15