

1. 中国科学院 声学研究所, 语言声学与内容理解重点实验室, 北京 100190, 中国;
2. 亚利桑那州立大学, 信号分析与感知实验室, 坦佩 85281, 美国
收稿日期: 2015-07-10
基金项目: 国家自然科学基金资助项目(11461141004,91120001,61271426);中国科学院战略性先导科技专项(XDA06030100,XDA06030500);国家“八六三”高技术项目(2012AA012503);中科院重点部署项目(KGZD-EW-103-2)
作者简介: 李煦(1990-),男,博士研究生
通信作者: 付强,研究员,E-mail:qfu@hccl.ioa.ac.cn
摘要:近年来,非负矩阵分解(non-negative matrix factorization,NMF)被广泛应用于单通道语音分离问题。然而,标准的NMF算法假设语音的相邻帧之间是相互独立的,不能表征语音信号的时间连续性信息。为此,该文提出了一种基于NMF和因子条件随机场(factorial conditional random field,FCRF)的语音分离算法,首先将NMF和k均值聚类结合对纯净语音的频谱结构以及时间连续性进行建模,然后利用得到的模型训练FCRF模型,进而对混合语音信号进行分离。结果表明:该算法相比没有考虑语音时间连续特性的基于NMF的算法如激活集牛顿算法(active-set Newton algorithm,ASNA),在客观指标上有明显提高。
关键词: 单通道语音分离 因子条件随机场 非负矩阵分解 k均值聚类
Single-channel speech separation with non-negative matrix factorization and factorial conditional random fields
LI Xu1, TU Ming2, WU Chao1, GUO Yanmeng1, NA Yueyue1, FU Qiang1


1.Key Laboratory of Speech Acoustics and Content Understanding, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China;
2.Signal Analysis Representation and Perception Laboratory, Arizona State University, Tempe 85281, USA
Abstract:Non-negative matrix factorization (NMF) has been extensively used for single channel speech separation. However, a typical issue with the standard NMF based methods is that they assume the independency of each time frame of the speech signal and, thus, cannot model the temporal continuity of the speech signal. This paper presents an algorithm for single-channel speech separation based on NMF and the factorial conditional random field (FCRF) method. A model is developed by combining NMF with the k-means clustering method. This model can concurrently describe the spectral structure and the temporal continuity of the speech signal. Then, the model is used to train the FCRF model, which is used to separate the mixed speech signal. Tests show that this algorithm consistently improves the separation performance compared with the active-set Newton algorithm, an NMF based approach that dose not consider the temporal dynamics of the speech signal.
Key words: single-channel speech separationfactorial conditional random field (FCRF)non-negative matrix factorization (NMF)k-means clustering
当前,由于在自动语音识别、音乐转录等领域的广泛应用,单通道语音分离问题正逐渐成为新的研究热点。该问题主要是从1个混合语音信号中分离出至少2个音源的信号。这是一个欠定问题,通常不存在唯一解。
为解决单通道语音分离问题,已提出多种算法包括因子隐Markov模型(factorial hidden Markov model,FHMM)[1]、非负矩阵分解(NMF)[2]算法以及计算听觉场景分析(computational auditory scene analysis,CASA)[3]等。在这些算法中,NMF由于分离效果显著而得到了广泛关注。而且****们为了提高NMF算法的分解效率提出了不同的方法,如乘法迭代准则(multiplicative update rules)[4]和ASNA方法[5-6]等。
然而,标准的NMF算法存在一个显著的问题,即该算法假设语音信号的相邻帧之间是相互独立的,因此不能对语音信号的时间连续特性进行建模,从而不能更好地表征语音信号。****们做了大量的工作来解决这个问题。例如,一些算法致力于通过对NMF的权重信息加以限制来表征语音信号的时间连续性[7-9]。Mysore[10]结合NMF和隐Markov模型(hidden Markov model,HMM)提出了非负隐Markov模型(non-negative hidden Markov model,NHMM),对语音时间连续性进行建模,同时提出了非负因子隐Markov模型(non-negative factorial hidden Markov model,NFHMM)来对2个说话人的混合信号建模,进行语音分离。
本文提出了一种基于NMF和因子条件随机场(FCRF)[11]的单通道语音分离算法同时描述语音信号的频谱结构和时间连续性。在训练阶段,将NMF和k均值聚类结合训练得到1个时间状态序列和多个较小的字典来分别表征对应说话人的时间连续特性和频谱结构信息,然后通过训练FCRF模型来对混合训练信号中2个说话人的状态连续信息联合建模。在分离阶段,训练得到的FCRF模型用来计算测试信号中每一帧语音对应的2个说话人状态的联合概率,然后利用得到的每一对状态的概率分布以及该状态对应的字典和NMF算法来恢复2个说话人的语音信号。结果表明: 该算法的分离结果在客观评价指标上优于没有考虑语音时间连续特性的基于NMF的算法如ASNA方法[6]。
1 通过NMF和k均值聚类进行语音建模本节利用NMF和k均值聚类对语音信号进行建模。该模型可以同时描述语音信号的频谱结构信息以及时间连续信息,具有2个优点: 第一,将一个音源的每帧信号幅度谱近似为一个固定字典的线性组合并不是那么合理,该模型采用不同的相对较小的字典来描述一个音源不同帧信号的频谱,这样可以表征音源频谱结构的变化特性。第二,该模型通过对纯净的训练语音进行聚类得到音源的状态转移序列,从而能够描述其时间连续特性。
1.1 采用NMF进行语音信号分析设x为语音信号的一帧幅度谱,则x可以表示为一个字典中向量wn的线性组合:
$x\approx \sum\limits_{n=1}^{N}{{{w}_{n}}{{h}_{n}},s.t.{{h}_{n}}\ge 0},\text{ }\forall n.$ | (1) |
$x\approx Wh,s.t.~h\ge 0.~$ | (2) |
1.2 语音建模本节通过NMF和k均值聚类算法对语音信号的频谱结构信息和时间连续性建模。设X=[x1,x2,…,xT] 为一个特定说话人纯净的训练语音信号幅度谱,共有T帧,其中每帧信号为F维向量。为了去除语音能量对聚类的影响,首先对幅度谱X进行归一化处理以使每个列向量xt中元素的和为1。 然后采用k均值聚类算法对X聚类得到聚类中心向量μn(n=1,2,…,M)。 文[12]表明,在度量音频信号两帧幅度谱之间的差异时,广义Kullback-Leibler(KL)散度[7]比Euclid距离更加合适,因此在k均值聚类中采用KL散度计算训练语音的幅度谱向量和聚类中心向量之间的距离。算法迭代过程如下:
1) 从归一化的幅度谱矩阵X中随机抽取M个向量来初始化聚类中心向量μ1,μ2,…,μM。
2) 对于训练数据中每帧幅度谱xt(t=1,2,…,T),计算xt与M个聚类中心的KL散度,从而得到聚类中心(省略与聚类中心无关的变量):
${{c}_{t}}=\arg {{\min }_{j}}\left\{ -1b\left( \mu _{j}^{T} \right){{x}_{t}}+\sum\limits_{i=1}^{F}{\mu _{j}^{\left( i \right)}} \right\}.$ | (3) |
3) 重新估计聚类中心
${{\mu }_{j}}=\frac{\sum\limits_{t=1}^{T}{f\{{{c}_{t}}=j\}{{x}_{t}}}}{\sum\limits_{t=1}^{T}{f\{{{c}_{t}}=j\}}},j=1,2,\ldots ,M.$ | (4) |
首先运行步骤1,然后步骤2—3迭代运行200次或直到k均值聚类算法收敛。聚类完成之后,X中属于同一聚类中心的幅度谱向量被用来获得和该聚类中心对应的一个较小的字典。聚类中心标记为状态,而X对应聚类中心的最终索引序列记作状态序列。
设Xj为X中属于第j个状态的幅度谱的集合。对Xj采用NMF算法进行分解:
${{X}_{j}}=W{{H}_{j}}.$ | (5) |
$a_{j}^{\left( n \right)}\ge c\underset{n}{\mathop{\max }}\,\left\{ a_{j}^{\left( n \right)} \right\},$ | (6) |
在本文系统中,上述提出的模型通过对训练数据建模来得到状态序列以及状态序列对应的较小的字典矩阵。这些状态序列和字典矩阵用来描述语音信号的时间连续特性和频谱变化特性,同时被用来训练FCRF模型。
2 采用FCRF进行语音分离2.1 FCRF描述文[11]首先提出了FCRF模型,并且证明了在自然语音理解中当同时预测名词短语和词性标注时,FCRF的准确性比CRF的更高。简单来讲,FCRF是CRF模型的一种特定形式,在给定观测时,FCRF具有线性链式结构的标记,其结构如图 1所示。
![]() |
图 1 FCRF图模型 |
图选项 |
x=[x1,x2,…,xT]表示观测值,y1=[y1,1,y1,2,…,y1,T]和y2=[y2,1,y2,2,…,y2,T]为2条线性链,表示不同的状态序列。每个观测xk同时对应了2个标记 y1,k和y2,k。 FCRF不仅能对观测和标记之间的关系进行建模,而且能对来自于不同线性链的标记之间的关系进行建模。 假设链的数目为L,在给定观测x后2个标记序列{y1,y2}的条件分布为
$\begin{align} & p(\{{{y}_{1}},{{y}_{2}}\}|x)\text{ }= \\ & \frac{1}{Z\left( x \right)}\left( \underset{t=1}{\overset{T-1}{\mathop{\Pi }}}\,\underset{l=1}{\overset{L}{\mathop{\prod }}}\, \right){{\Phi }_{l}}({{y}_{l,t}},{{y}_{l.t+1}},x,t)\cdot \\ & \left( \underset{t=1}{\overset{T-1}{\mathop{\Pi }}}\,\underset{l=1}{\overset{L-1}{\mathop{\prod }}}\, \right){{\Psi }_{l}}({{y}_{l,t}},{{y}_{l+1,t}},x,t). \\ \end{align}$ | (7) |
$\begin{align} & p\left( \left\{ {{y}_{1}},{{y}_{2}} \right\}x \right)= \\ & \frac{1}{Z\left( x \right)}\exp \left( \sum\limits_{l}{\sum\limits_{t}{\sum\limits_{{{k}_{v}}}{{{\lambda }_{k}}_{v}{{f}_{k}}_{v}({{y}_{l,t}},x,t)}}} \right)\cdot \\ & \exp \left( \sum\limits_{\left( m,n \right)\in E}{\sum\limits_{{{k}_{e}}}{{{\lambda }_{k}}_{e}{{f}_{k}}_{e}({{y}_{m}},{{y}_{n}})}} \right). \\ \end{align}$ | (8) |
FCRF的模型推断需要解决2个核心的问题: 第一个是对于所有的yt,c计算p(yt,c|x)。 该分布被用于参数估计,以及在分离过程中重建语音信号; 第2个问题是对于测试数据通过viterbi解码来获得标记序列。具体地,LBP (loopy belief propagation)这种近似推断算法被用来做FCRF模型推断,而另一种算法L-BFGS (limited-memory Broyden Fletcher Goldfarb Shanno)则被用来做FCRF模型的参数估计。这2种算法可以参考文[13]。
2.2 语音分离系统本文提出的语音分离系统如图 2所示。
![]() |
图 2 语音分离系统框图 |
图选项 |
在训练阶段,根据节2.1描述的模型对2个说话人的纯净训练语音进行建模,[y1,1,y1,2,…,y1,T]和[y2,1,y2,2,…,y2,T]为得到的2个说话人的状态序列。将2个说话人的训练语音混合作为FCRF模型的观测信号。并记录2种观测值作为FCRF的输入,第1种为混合训练信号的幅度谱和功率谱,第2种为对混合训练信号做NMF分解得到的权重矩阵。其中,NMF分解所用到的字典矩阵来自于将对2个说话人建模得到的较小的字典堆积在一起所得到的字典,权重通过ASNA算法得到。这样在式(8)中状态特征函数为fkv(yl,t,x,t)=[vt,vt2,ht],其中vt为混合训练信号中第t帧幅度谱,vt2为对应的功率谱,ht为权重矩阵中对应的系数向量。边际特征函数是二值的,满足特定的状态转移则为1,否则为0。给定以上设置,可以训练得到FCRF模型。
在测试阶段,将用于分离的测试信号送入已训练好的FCRF模型中。为了提高分离效果,不同于文[13]提到的采用viterbi解码来获得最优状态序列,本文采用2个标记的联合后验概率p(ym,t,yn,t|x)作为2个说话人对应的不同状态组合的分布。p(ym,t,yn,t|x)近似为2个边缘分布p(ym,t|x)和p(yn,t|x)的乘积,而且这2个边缘分布可以通过推断过程中的LBP算法来得到。
在分离阶段,采用下述2个公式来重建2个说话人第t帧的幅度谱:
$s_{t}^{1}=\underset{m}{\mathop{\sum }}\,\underset{n}{\mathop{\sum }}\,p({{y}_{m,t}},{{y}_{n,t}}|x){{W}_{m,t}}{{h}_{m,t}},$ | (9) |
$s_{t}^{2}=\underset{m}{\mathop{\sum }}\,\underset{n}{\mathop{\sum }}\,p({{y}_{m,t}},{{y}_{n,t}}|x){{W}_{n,t}}{{h}_{n,t}}.$ | (10) |
${{v}_{t}}=[{{W}_{m,t}}~{{W}_{n,t}}]\left[ \begin{array}{*{35}{l}} {{h}_{m,t}} \\ {{h}_{n,t}} \\\end{array} \right].$ | (11) |
3 实验和结果分析本节通过语音分离实验来评估本文提出的算法。
本文主要采用SAR (signal to artifact ratio)、 SIR (signal to interference ratio)、 SDR (signal to distortion ratio)[14]作为分离算法评价指标。 SDR综合衡量算法分离效果,SIR用来度量对其他音源的抑制能力,SAR度量算法引入的干扰如音乐噪声。算法目的是在最大化SIR的同时保持SAR尽量高。
实验数据采用GRID[15]数据集。该数据集包含34个说话人的语音,每个说话人包含 1 000 个短句,信号的采样频率为25 kHz。 本实验中测试语音共包含100条语句,每条语句都是2个说话人语句的混合,用于混合的语音是从随机选取的2个说话人中对应的语料里随机抽取5条短句叠接在一起。混合后的测试语音的信噪比为0 dB。 对于每个说话人,从其对应的语料库中随机抽取30条短句作为训练数据,训练语句和测试语句不重复。
实验时所有的信号被降采样到16 kHz,然后进行帧长为32 ms、 帧移为16 ms的短时Fourier变换(STFT),分析窗为Hanning窗。 STFT输出的绝对值作为语音信号的幅度谱。
本文评估在字典W维度分别为50,70,100,150,200,300,400时算法的性能,作为比较同时实验了ASNA算法,ASNA算法的测试和训练数据和上述一样。
权重参数c和聚类中心数目N被经验地设定为0.025和10,在本文算法和ASNA算法中都将稀疏参数设为1,以获得较好的分离效果,同时便于比较2个算法的性能。在不同的字典大小时,语音分离评价指标SDR、 SIR和SAR的结果如表 1所示。
表 1 平均的SDR、 SIR和SAR结果
W维度 | SDR | SIR | SAR | |||
本文 算法 | ASNA | 本文 算法 | ASNA | 本文 算法 | ASNA | |
50 | 4.36 | 3.63 | 17.99 | 12.7 | 6.56 | 6.13 |
70 | 4.77 | 3.99 | 20.63 | 14.4 | 6.96 | 6.61 |
100 | 5.05 | 4.27 | 22.82 | 15.65 | 7.26 | 6.96 |
150 | 5.34 | 4.79 | 25.04 | 17.68 | 7.53 | 7.65 |
200 | 5.52 | 4.96 | 25.93 | 18.57 | 7.72 | 7.83 |
300 | 5.54 | 5.23 | 27.20 | 19.68 | 7.64 | 8.23 |
400 | 5.65 | 5.43 | 28.06 | 20.90 | 7.90 | 8.81 |
表选项
从表 1来看,对于所有的情况而言,本文算法的分离效果要比ASNA有所提高,特别是在字典维度较小时提高非常明显。具体来看,对于所有的字典维度情况,本文算法的SIR比ASNA的有明显提高; 但是随着字典的增大,本文算法的SAR比ASNA的有下降。结果很容易解释,即本文模型能够同时对语音的频谱结构信息和时间连续信息进行建模,这样能够较好地抑制其他音源信号,因此SIR显著提高; 但是在描述某一帧语音时只是采用较小的字典,不能较好地描述音源信号,因此相比ASNA会导致干扰增加,SAR下降。
4 结 论本文提出了一种基于NMF和FCRF单通道语音分离算法。首先通过NMF和k均值聚类算法对纯净语音建模,该模型通过若干较小的字典以及对应的状态序列来表征语音信号的频谱结构信息和时间连续信息,然后将该模型和FCRF模型结合解决单通道语音分离问题。结果显示,该算法的分离结果优于没有考虑语音时间连续特性的基于NMF的算法如ASNA的。
参考文献
[1] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Roweis S T. One microphone source separation[C]//NIPS. Vancouver, Canada:MIT Press, 2010:793-799. |
[2] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Lee D D, Seung H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999, 401(6755): 788–791. DOI:10.1038/44565 |
[3] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Brown G J, Cooke M. Computational auditory scene analysis[J]. Computer Speech & Language, 1994, 8(4): 297–336. |
[4] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Lee D D, Seung H S. Algorithms for non-negative matrix factorization[J]. Advances in Neural Information Processing Systems, 2015, 13(6): 556–562. |
[5] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Virtanen T, Gemmeke J F, Raj B. Active-set Newton algorithm for overcomplete non-negative representations of audio[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(11): 2277–2289. DOI:10.1109/TASL.2013.2263144 |
[6] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Virtanen T, Raj B, Gemmeke J F, et al. Active-set Newton algorithm for non-negative sparse coding of audio[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Florence, Italy:IEEE Press, 2014:3092-3096. |
[7] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Virtanen T. Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(3): 1066–1074. DOI:10.1109/TASL.2006.885253 |
[8] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Wilson K W, Raj B, Smaragdis P. Regularized non-negative matrix factorization with temporal dependencies for speech denoising[C]//Interspeech. Brisbane, Australia:ISCA, 2008:411-414. |
[9] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Mohammadiha N, Smaragdis P, Leijon A. Prediction based filtering and smoothing to exploit temporal dependencies in NMF[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada:IEEE. Press, 2013:873-877. |
[10] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Mysore G J, Smaragdis P, Raj B. Non-negative hidden Markov modeling of audio with application to source separation[C]//International Conference on Latent Variable Analysis and Signal Separation. Malo, France:Springer, 2010:140-148. |
[11] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Sutton C, McCallum A, Rohanimanesh K. Dynamic conditional random fields:Factorized probabilistic models for labeling and segmenting sequence data[C]//ICML. Alberta, Canada:ACM, 2004:693-723. |
[12] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Carabias-Orti J J, Rodriguez-Serrano F J, Vera-Candeas P, et al. Constrained non-negative sparse coding using learnt instrument templates for realtime music transcription[J]. Engineering Applications of Artifical Intelligence, 2013, 26(7): 1671–1680. DOI:10.1016/j.engappai.2013.03.010 |
[13] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Yeung Y T, Lee T, Leung Cheung-Chi. Using dynamic conditional random field on single-microphone speech separation[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada:IEEE Press, 2013:146-150. |
[14] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Vincent E, Fevotte C, Gribonval R. Performance measurement in blind audio source separation[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(4): 1462–1469. DOI:10.1109/TSA.2005.858005 |
[15] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Cooke M, Barker J, Cunningham S, et al. An audio-visual corpus for speech perception and automatic speech recognition[J]. The Journal of the Acoustical Society of America, 2006, 120(5): 2421–2424. DOI:10.1121/1.2229005 |