基于子空间学习和特征选择融合的语音情感识别

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

图 1 本文提出的语音情感识别框架

图选项

给定情感特征X=[X_s, X_t]∈R^m×n，其中X_s∈R^m×n_l和X_t∈R^m×n_u分别为源数据库和目标数据库的情感特征，n_l和n_u分别为对应的特征样本数量，n=n_l+n_u。假定Y=[Y_s, Y_t]∈R^n×c为类别标签矩阵，其中Y_s=[y₁, y₂, …, y_{n_l}]^T和Y_t=[y_{n_l+1}, y_{n_l+2}, …, y_n]^T∈R^n_u×c分别表示类别已知的源数据库和类别未知的目标数据库的情感类别标签矩阵，c为情感类别数。通过学习，一个投影矩阵U∈R^m×c将不同数据库的情感特征映射到一个公共特征子空间，则目标函数表示如下：

$\arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}, \mathit{\boldsymbol{U}}} \left\| {\mathit{\boldsymbol{Y}}-{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2.$

(1)

经典的子空间学习方法如主成分分析(principal component analysis, PCA)、线性判别分析(linear discriminant analysis, LDA)等^[12]主要是通过寻找投影矩阵来获得低维鲁棒特征，它们在降维的同时并没有进行有效的特征选择，这在一定程度上影响了特征表示的准确性。不同于传统子空间学习方法，本文将子空间学习和特征选择进行联合求解，在提取特征子空间的同时引入l_{2, 1}-范数^[13]进行特征选择，则目标函数变为

(2)

其中λ₁为规整系数。根据文[12], Y可以通过统一的图嵌入框架进行求解，本文采用的子空间方法是经典PCA方法。
上述目标函数并没有考虑不同数据库情感特征分布的差异。类似经典迁移学习方法中特征差异的度量方法，本文引入常用的MMD算法^[6]来描述不同情感数据库的特征分布之间的相似度。

$\begin{array}{l}{\rm{D}}\left( \mathit{\boldsymbol{U}} \right) = {\left\| {\frac{1}{{{n_l}}}\sum\limits_{i = 1}^{{n_l}} {{\mathit{\boldsymbol{y}}_i}}-\frac{1}{{{n_u}}}\sum\limits_{j = 1}^{{n_u}} {{\mathit{\boldsymbol{y}}_j}} } \right\|^2} = \\\;\;\;\;\;\;\;\;\;\;\;{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{XM}}{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right).\end{array}$

(3)

其中：tr(·)表示矩阵的迹，M=[m_ij]∈R^n×n为相似度矩阵。m_ij表示为：

${m_{ij}} = \left\{ {\begin{array}{*{20}{l}}{\frac{1}{{n_l^2}}, }&{{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j} \in {\mathit{\boldsymbol{X}}_{\rm{s}}};}\\{\frac{1}{{n_u^2}}, }&{{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j} \in {\mathit{\boldsymbol{X}}_{\rm{t}}};}\\{-\frac{1}{{{n_l}{n_u}}}, }&{其他.}\end{array}} \right.$

(4)

将式(3)代入式(2)中，则目标函数变为

$\arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}, \mathit{\boldsymbol{U}}} \left\| {\mathit{\boldsymbol{Y}}-{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2 + {\lambda _1}{\left\| \mathit{\boldsymbol{U}} \right\|_{2, 1}} + {\lambda _2}{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{VU}}} \right).$

(5)

其中: V=XMX^T, λ₂为规整系数。
2 优化算法式(5)的目标函数中包含有l_{2, 1}-范数，它非平滑且不能得到一个闭式解^[13]。因此，本文提出了一种迭代方法对其进行求解。给定投影矩阵U，其l_{2, 1}-范数定义为

${\left\| \mathit{\boldsymbol{U}} \right\|_{2, 1}} = \sum\limits_{i = 1}^m {\sqrt {\sum\limits_{j = 1}^n {u_{ij}^2} } = 2{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{QU}}} \right)} .$

(6)

其中: Q=[q_ii]∈R^m×m为一个对角矩阵，$ {q_{ii}} = \frac{1}{{2{{\left\| {{\mathit{\boldsymbol{u}}^i}} \right\|}_2}}}$，uⁱ表示矩阵U的第i个行向量，‖·‖₂表示向量的l_2-范数。需要注意的是2‖uⁱ‖₂可能逼近0，导致结果无法求解，参照文[14]，引入一个极小的常量ε, 则q_ii可以重新定义为

${q_{ii}} = \frac{1}{{2\sqrt {\left\| {{\mathit{\boldsymbol{u}}^i}} \right\|_2^2 + \varepsilon } }}.$

(7)

因此，式(5)的目标函数可以重新表达为

${\cal O}\left\| {\mathit{\boldsymbol{Y}}-{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2 + {\lambda _1}{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{QU}}} \right) + {\lambda _2}{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{VU}}} \right).$

(8)

对上式进行迭代求解。
步骤1??固定Y_t求U。${\cal O} $对U求偏导，可得：

$\begin{array}{l}\;\;\;\;\;\;\;\;\;\;\;\frac{{\partial {\cal O}}}{{\partial \mathit{\boldsymbol{U}}}} = \mathit{\boldsymbol{0}} \Rightarrow \\\left( {\mathit{\boldsymbol{X}}{\mathit{\boldsymbol{X}}^{\rm{T}}}-{\lambda _1}\mathit{\boldsymbol{Q-}}{\lambda _2}\mathit{\boldsymbol{V}}} \right)\mathit{\boldsymbol{U}} = \mathit{\boldsymbol{XY}}\end{array}$

(9)

从式(7)可以发现Q同样未知且依赖于U。因此采用迭代方法对式(9)进行求解。固定U, 根据式(7)可以计算得到Q；接着固定Q，则U=(XX^T-λ₁Q-λ₂V)^-1XY。
步骤2??固定U求Y_t。$ {\cal O}$对Y_t求偏导，可得：

${\cal O} = \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}} \left\| {\left[{{\mathit{\boldsymbol{Y}}_s}, {\mathit{\boldsymbol{Y}}_t}} \right] -{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2.$

(10)

上式等价于

${\cal O} = \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}} \left\| {{\mathit{\boldsymbol{Y}}_t}-\mathit{\boldsymbol{X}}_{\rm{t}}^{\rm{T}}\mathit{\boldsymbol{U}}} \right\|_F^2.$

(11)

可通过经典的二次规划法对上式进行求解，然后将新求得Y_t代入式(8)对U进行重新求解。重复执行步骤1和2，直到收敛。
3 仿真实验3.1 实验数据库为了验证算法的有效性，在EMO-DB^[15]和eNTERFACE^[16]2个公开情感数据库进行实验。其中EMO-DB库是最为流行的经典语音情感数据库之一，它包含生气、烦躁、厌恶、害怕、高兴、伤心和中性7种情感类型，共选择494条语音数据用于实验；eNTERFACE库是一个经典的音视频情感数据库，它包含生气、厌恶、害怕、高兴、伤心和惊讶6类情感，共选择1 287条音频情感数据用于本实验。
3.2 实验设置为了保证跨库语音情感识别的性能，训练数据与测试数据的情感类型应保持一致。实验中选择2个数据库共有的5类情感即生气、厌恶、害怕、高兴和伤心用于测试。
本文采用2种方案对算法的有效性进行评价。在方案1中，采用有情感类别标签的eNTERFACE库进行训练，同时采用无情感类别标签的EMO-DB库进行测试；在方案2中，选择有情感类别标签的EMO-DB库用作训练，同时采用无情感类别标签的eNTERFACE库进行测试。对于语音情感特征，本文采用openSMILE工具箱^[17]进行提取，同时选择INTERSPEECH 2010情感竞赛^[18]的标准特征集进行评价，共包含1 582维特征，它是由34个底层描述子(low level descriptors, LLDs)和对应的一阶差分系数得到的统计特征。
为了评价本文提出算法的有效性，本文对以下几种方法进行了对比实验。
(1) 传统分类方法(traditional)：在源数据库下训练得到的分类器被直接用于目标数据库的情感识别。
(2) 基于迁移稀疏编码的跨库语音情感识别方法(transfer sparse coding, TSC)^[10]。
(3) 基于迁移非负矩阵分解的跨库语音情感识别方法(transfer non-negative matrix factorization, TNMF)^[11]。
(4) 基于子空间迁移学习的跨库语音情感识别方法(transfer subspace learning, TSL)，可以看作本文提出方法的特例(λ₁=0)。
(5) 本文提出的基于子空间学习和特征选择融合的跨库语音情感识别方法(ours)。
实验中，将两个数据库分别均分成5份，每次随机地选择4份用于训练，另外1份用于测试。重复执行10次以尽量覆盖大多数的情况。由于训练数据和测试数据来自不同的数据库，情感特征分布不一致。很难直接采用传统的交叉验证方法对参数进行优化选择，采用搜索策略在区间{10^-3, 10^-2, 10^-1, 1, 10, 10², 10³}中对参数进行选择，最终λ₁和λ₂分别被优化设置为0.1和1。同时选择经典的线性SVM方法用于情感分类。
3.3 实验结果与分析表 1给出了不同方案下的情感识别结果。从表格中可以看出：无论是方案1还是2，提出的方法总能取得最优的识别效果；相比于传统方法，基于迁移学习的语音情感识别方法如TSC、TNMF、TSL和本文提出的方法，都明显提升了识别率，这说明迁移学习方法可以很好地实现跨库条件下的情感特征表示；同时，相比于经典子空间学习方法TSL，本文提出的方法可以取得更好的效果，这说明融入特征选择的必要性，在提取不同情感数据库的特征表示的同时，考虑特征选择可以显著提升跨库条件下的情感识别率。
表 1 方案1和2的情感识别结果

识别方法	平均识别率/%
识别方法	方案1	方案2
traditional	34.62	28.87
TSC	50.61	44.98
TNMF	51.96	43.99
TSL	50.94	40.03
ours	52.27	45.62

表选项

为了进一步验证算法的有效性，图 2和3分别给出了每一类情感在不同方案下的识别率。从图中可以发现：对于每一类情感，基于迁移学习的语音情感识别方法可以取得明显优于传统方法的效果；同时，本文提出的基于子空间学习和特征选择融合的方法能够取得最优的识别结果，这与表 1的实验结果相吻合。

图 2 不同情感在方案1下的情感识别率

图选项

图 3 不同情感在方案2下的情感识别率

图选项

4 结论为了有效实现跨库条件下的语音情感识别，本文提出了一种基于子空间学习和特征选择融合的方法。在进行特征子空间学习的同时，通过引入特征选择的方法，并考虑不同情感数据库特征分布的差异，来提取满足不同数据库的鲁棒情感特征表示。在经典的EMO-DB和eNTERFACE情感数据库上进行实验评价。实验结果表明：相比于传统特征迁移学习方法，本文提出的基于子空间学习和特征选择融合的方法可以显著提高跨库条件下的情感识别率。目前的方法主要基于现有的情感特征进行分类识别，下一步将研究如何提取更有效的情感特征，如何与其他情感特征如语谱图特征、深度特征等进行有效融合，以进一步提升跨库条件下的语音情感识别率。

参考文献

[1]	韩文静, 李海峰, 阮华斌, 等. 语音情感识别研究进展综述[J]. 软件学报, 2014, 25(1): 37–50. HAN W J, LI H F, RUAN H B, et al. Review on speech emotion recognition[J]. Journal of Software, 2014, 25(1): 37–50. (in Chinese)
[2]	HAN K, YU D, TASHEV I. Speech emotion recognition using deep neural network and extreme learning machine[C]//Proceedings of the 15th Annual Conference of the International Speech Communication Association. Singapore: ISCA, 2014: 223-227. https://www.researchgate.net/publication/267213794_Speech_Emotion_Recognition_Using_Deep_Neural_Network_and_Extreme_Learning_Machine
[3]	KINNUNEN T, LI H Z. An overview of text-independent speaker recognition:From features to supervectors[J]. Speech Communication, 2010, 52(1): 12–40. DOI:10.1016/j.specom.2009.08.009
[4]	HU H, XU M X, WU W. GMM supervector based SVM with spectral features for speech emotion recognition[C]//Proceedings of 2007 International Conference on Acoustics, Speech and Signal Processing (ICASSP). Honolulu, USA: IEEE, 2007: 413-416. http://ieeexplore.ieee.org/document/4218125/
[5]	El AYADI M, KAMEL M S, KARRAY F. Survey on speech emotion recognition:Features, classification schemes, and databases[J]. Pattern Recognition, 2011, 44(3): 572–587. DOI:10.1016/j.patcog.2010.09.020
[6]	WEISS K, KHOSHGOFTAAR T M, WANG D D. A survey of transfer learning[J]. Journal of Big Data, 2016, 3(1): 1–40.
[7]	DENG J, ZHANG Z X, EYBEN F, et al. Autoencoder-based unsupervised domain adaptation for speech emotion recognition[J]. IEEE Signal Processing Letters, 2014, 21(9): 1068–1072. DOI:10.1109/LSP.2014.2324759
[8]	ABDELWAHAB M, BUSSO C. Supervised domain adaptation for emotion recognition from speech[C]//Proceedings of 2015 International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brisbane, Australia: IEEE, 2015: 5058-5062. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=7178934
[9]	HASSAN A, DAMPER R, NIRANJAN M. On acoustic emotion recognition:Compensating for covariate shift[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(7): 1458–1468. DOI:10.1109/TASL.2013.2255278
[10]	SONG P, ZHENG W M, LIANG R Y. Speech emotion recognition based on sparse transfer learning method[J]. IEICE Transactions on Information and Systems, 2015, 98(7): 1409–1412.
[11]	SONG P, ZHENG W M, OU S F, et al. Cross-corpus speech emotion recognition based on transfer non-negative matrix factorization[J]. Speech Communication, 2016, 83: 34–41. DOI:10.1016/j.specom.2016.07.010
[12]	YAN S C, XU D, ZHANG B Y, et al. Graph embedding and extensions:A general framework for dimensionality reduction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(1): 40–51. DOI:10.1109/TPAMI.2007.250598
[13]	NIE F P, HUANG H, CAI X, et al. Efficient and robustfeature selection via joint l_{2, 1}-norms minimization[C]//Proceedings of the 24th Annual Conference on Neural Information Processing Systems (NIPS). Vancouver, Canada: NIPS, 2010: 1813-1821. http://dl.acm.org/citation.cfm?id=2997098
[14]	HE R, TAN T N, WANG L, et al. l_{2, 1} regularized correntropy for robust feature selection[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA: IEEE, 2012: 2504-2511. http://dl.acm.org/citation.cfm?id=2354867
[15]	BURKHARDT F, PAESCHKE A, ROLFES M, et al. A database of German emotional speech[C]//Proceedings of INTERSPEECH. Lisbon, Portugal: ISCA, 2005: 1517-1520. http://www.researchgate.net/publication/221491017_A_database_of_German
[16]	MARTIN O, KOTSIA I, MACQ B, et al. The eNTERFACE'05 audio-visual emotion database[C]//Proceedings of the 22nd International Conference on Data Engineering Workshops. Atlanta, USA: IEEE, 2006: 8-8. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1623803
[17]	EYBEN F, W?LLMER M, SCHULLER B. Opensmile: The munich versatile and fast open-source audio feature extractor[C]//Proceedings of the 18th ACM International Conference on Multimedia. Firenze, Italy: ACM, 2010: 1459-1462. http://dl.acm.org/citation.cfm?id=1874246
[18]	SCHULLER B, STEIDL S, BATLINER A, et al. The INTERSPEECH 2010 paralinguistic challenge[C]//Proceeding of the 11th Annual Conference of the International Speech Communication Association. Makuhari, Japan: ISCA, 2010: 2795-2798. https://www.researchgate.net/publication/221481381_The_INTERSPEECH_2010_paralinguistic_challenge