抑制多方向语音噪声的人工耳蜗语音增强算法

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

图 1 双麦克风与声源位置示意图

图选项

因此，将混合信号m₁(n)分帧、加窗后再时频变换可得

$ M_{1}(k, l)=S(k, l)+N_{1}(k, l)+N_{2}(k, l). $

(1)

其中：k和l分别是时间窗和频率点的序号, 对应着不同的时频单元。由于空间方位的差异, mic₂采集到的信号相对于mic₁的会有一定延迟，根据几何关系可以推出混合信号m₁(n)的时频表达式为

$ \begin{aligned}M_{2}(k, l) &=\mathrm{e}^{-{\rm i} δ_{1} l \frac{2 {\rm{ \mathsf{ π} }}}{N}} S(k, l)+\\\mathrm{e}^{-\mathrm{i} δ_{2} l \frac{2 {\rm{ \mathsf{ π} }}}{N}} N_{1}(k, l) &+\mathrm{e}^{-{\rm i} \delta_{3} l \frac{2 {\rm{ \mathsf{ π} }}}{N}} N_{2}(k, l).\end{aligned} $

(2)

其中：N为Fourier变换点数；δ_j是2路信号在频域的相对延迟，且有δ_j=(d/c)×cosθ_j×f_s(j=1, 2, 3)，d为双麦克风之间的距离，c为声速，f_s为采样频率。如果在混合信号的一个时频单元内，目标声源的能量占据了主导，即在这个时频单元内，|S(k, l)|?|N₁(k, l)|并且|S(k, l)|?|N₂(k, l)|，则混合信号与目标信号的频域关系可以近似表示为

$ \left\{\begin{array}{l}{M_{1}(k, l) \approx S(k, l)}, \\{M_{2}(k, l) \approx \mathrm{e}^{-{\rm i} \delta_{1} l \frac{2 \pi}{N}} S(k, l)}.\end{array}\right. $

(3)

通过式(3)和Euler公式，可以推导出

$ \delta_{1} \approx\left(-\frac{N}{2 {\rm{ \mathsf{ π} }} l}\right) \times \arctan \left(\frac{\operatorname{Im}\left(M_{2}(k, l) / M_{1}(k, l)\right)}{\operatorname{Re}\left(M_{2}(k, l) / M_{1}(k, l)\right)}\right). $

(4)

其中：Re和Im分别代表复数的实部和虚部。本文定义式(4)中约等号右侧的部分为时频单元的延迟参数，记做τ(k, l)。根据式(4)，当τ(k, l)越接近δ₁，那么在混合信号的时频域M₁(k, l)和M₂(k, l)中，目标信号的能量就越可能占主导，则可将该时频单元的能量予以保留，归入到目标信号中用于恢复重建。为了较好地平衡干扰噪声的引入和目标信号的能量损失，当τ(k, l)与δ₁相差较大时，需要根据判断准则来确定具体的保留程度。本文选取标准汉语句子库(Mandarin speech perception, MSP)^[13]中的语料进行统计分析，来确定判断准则的参数取值。首先在数据库中随机选取10段语料，在测试时，目标声源只有1个，干扰噪声源有2个，因此这10段语料可以构成A₁₀³=720种组合。可以设置θ₁为0°，θ₂和θ₃范围均为40°~180°(选取40°、50°、…、180°，均为10的倍数的角度)，这样一共出现了A₁₅²=210种方位组合。将720种声源组合和210种方位组合的所有情况纳入考虑范围，分别进行短时Fourier变换，统计τ(k, l)在一定数值范围内的个数a，以及这些时频单元块中满足|S(k, l)|> |N₁(k, l)|并且同时满足|S(k, l)|>|N₂(k, l)|的个数b，目标声源占主导的比例记为b/a。表 1展示了τ(k, l)分别位于相应的数值范围内，上述比例的统计平均结果。
表 1 b/a随τ(k, l)变化的情况

τ(k, l)/δ₁	(0.9, 1.0)	(0.7, 0.9)	(0.5, 0.7)	(0.3, 0.5)	(0.1, 0.3)	(0, 0.1)
b/a	0.84	0.73	0.61	0.51	0.36	0.11

表选项

根据表 1，当τ(k, l)在0.9δ₁~1.0δ₁的范围内时，目标信号占主导的可能性超过80%，对这一部分的时频单元能量予以全部保留；当τ(k, l)在0.5δ₁~0.9δ₁的范围内时，目标信号占主导作用的可能性略有减小，对于这一部分的时频单元的能量进行部分保留；当τ(k, l)在0.5δ₁以下时，目标信号占主导的可能性不足一半，如果对其中的能量进行保留，反而会使引入更多的干扰噪声能量造成语音失真，因此对于这部分能量予以舍弃。最终设计了一个掩蔽矩阵B，矩阵元素B(k, l)的确定准则为

$ B(k, l)=\left\{\begin{array}{l}{1}, &\tau(k, l) / \delta_{1} \in(0.9, 1.0) ;\\{\lg \left(\max \left(\frac{10\left(\tau(k, l)-0.5(d / c) \times f_{\rm s}\right)}{0.4(d / c) \times f_{\rm s}}, 1\right)\right)}, &\tau(k, l) / \delta_{1} \in(0.5, 0.9); \\{0}, & 其他.\end{array}\right. $

(5)

因此重建信号的时频表达式为

$\hat{S}(k, l)=M_{1}(k, l) B(k, l).$

(6)

算法整体处理流程如图 2所示。

图 2 算法流程图

图选项

2 算法工程实现2.1 硬件结构与设计参考CI产品的大小与尺寸，本文设计了一套算法调试平台。硬件平台包括采集系统和信号处理系统两大部分，其中采集系统使用2个全向型的微型麦克风，型号为SPU0410HR5H，采集声音并转换为模拟电信号，双麦克风的距离设置为17 mm。采集系统参考文[14]中的前置调理电路，将模拟信号进行工频滤波和多级放大，使得采集系统的性能指标与目前CI的近距离双麦克风等效。信号处理系统的核心处理器是型号为C6748的数字信号处理器(digital signal processor, DSP)，音频编解码器采用的是TLV320AIC3106(以下简称AIC3106)芯片。C6748是TI公司生产的一款32位的浮点DSP，共有144个功能复用的输入输出引脚，可以同时配置多声道音频串口(multichannel audio serial port，McASP)、串行外设接口(serial peripheral interface，SPI)等众多外设模块，方便调试平台后续的功能扩展和算法的整合。AIC3106芯片的采样率范围为8~96 kHz，支持LINE-IN和MIC-IN两种输入方式。整体的硬件结构图如图 3所示。

图 3 系统的硬件结构图

图选项

双麦克风采集到的信号通过音频线以左右声道的形式传输到AIC3106的模数转换器(analog-to-digital converter, ADC)，C6748通过集成电路总线(inter-integrated circuit, IIC)控制与AIC3106的数据交换，C6748处理后的结果传输到AIC3106内部的数模转换器(digital-to-analog converter, DAC)模块进行数模转换，最终由LINE-OUT口输出处理过的音频信号。为了方便调试和存储数据，系统还增加了外部存储器DDR2 (double data rate SDRAM)，并通过JTAG (joint test action group)接口与计算机保持通信。
2.2 软件处理流程首先，为了实现3106芯片与C6748之间的数据传输，需要利用StarterWare驱动接口对C6748进行系统配置：使用IIC作为控制总线，C6748为主设备，AIC3106为从设备；配置McASP传输数据，音频传输协议为IIS (inter-IC sound)协议，一个采样周期内同时传输左右声道的数据。为了维护实时的数据传输和处理，还需要额外配置McASP为EDMA(enhanced direct memory access)方式，传输一维或多维数据。因此，可以配置EDMA3通道控制器(EDMA3CC)的参数RAM(PaRAM)为连接传输，完成音频信号的分帧和PING-PONG缓存的操作。
如图 4所示，DSP的数据处理具体参数配置描述如下：设置系统的采样频率为16 kHz，IIS传输数据长度为16 b。EDMA的传输类型为A同步传输，每次传输的采样数据为左右声道各256点，DSP实际处理的数据由上次采集数据和本次采集数据拼接而成，因此音频处理的帧移为16 ms，帧长为32 ms。再使用上节介绍的算法进行语音增强，最后利用重叠相加法完成数据的叠接，得到最终的输出结果。

图 4 基于DSP的算法处理流程图

图选项

3 实验与分析3.1 DSP实现结果验证在工程实现中，首先需要将MATLAB程序改写成C程序。为了验证其准确性，需要将DSP运行的结果与MATLAB仿真的结果进行比较。可以直接将音频信号通过LINE-IN连线接入DSP目标板，音频信号的采样率为16 kHz，根据MSP语音库的特点，每次DSP采集的语音时长为3 s。通过设置CCS集成开发环境的数据存储和仿真器的传输，可以获得AIC3106芯片模数转换后的结果。将实际的采样幅值作为DSP运行和MATLAB仿真的共同输入，按照算法进行分帧加窗等操作，截取第50帧起的连续5帧数据，计算每帧经过处理后结果的短时平均幅度，对比结果如表 2所示；以第50帧为例，经过DSP和MATLAB处理的结果对比如图 5所示(每单位的量化电平为9.155 μV)。
表 2 连续5帧数据的DSP和MATLAB结果对比

输入数据	$\frac{{\rm DSP结果}}{{10^3}}$	$\frac{{\rm MATLAB结果}}{{10^3}}$	$\frac{{相对误差}}{{\%}}$
第50帧	174.692	173.270	0.81
第51帧	180.745	180.840	-0.01
第52帧	86.939	87.194	-0.29
第53帧	35.930	36.255	-0.90
第54帧	8.372	8.343	0.34

表选项

图 5 (网络版彩图)第50帧数据的DSP和MATLAB结果对比

图选项

由表 2和图 5可知，DSP实现算法结果与MATLAB仿真结果相符，单帧数据短时平均幅度的相对误差基本稳定在1%之内。
3.2 算法实时性分析在进行DSP算法调试过程中，需要确定单帧数据计算的时间不超过PING-PONG传输的最长时延(本文为16 ms)，否则会出现数据处理衔接不上的情况。因为C6478属于C64架构的DSP，这里可以利用时间戳函数读取核心寄存器中计数器TSCL和TSCH的值，测量代码执行时钟周期数，然后根据DSP主频(本文中为150 MHz)换算成实际时间。
在单帧的数据处理中，经过语音增强的CI前端语音信号还需要使用言语编码策略得到每个电极对应的刺激脉冲，本文以常用的高级组合编码(advanced combined encoder, ACE)言语编码策略为例，描述CI单帧语音数据的处理流程：首先利用本文算法进行语音增强，然后对去噪后的语音做频域变换，带通滤波，能量求和，通道选择和对数压缩，最后得到刺激脉冲编码。为了方便比较和分析，本文测试了单帧计算中实现特定功能的代码段的执行周期数，并换算成实际的执行时间，优化前结果如表 3所示。虽然本算法的DSP单帧仿真运算时间可以控制在14 ms以内，满足实时输出刺激脉冲的要求，但是如果将刺激编码用声码器调制后实时输出，则会出现声音断断续续的现象。同时，也注意到分帧、加窗等常规功能代码段用时较长，如快速Fourier变换(FFT)的执行时间约占总体执行时间的20%，因此有必要对算法的工程实现进行软件优化。优化手段包括如下几点：1)在CCS集成开发环境中执行“—opt_level=2”，即打开软件流水线，执行循环优化，将循环中数组的应用转化为递增指针的形式。2)调用优化算法函数库mathlib和dsplib中的函数，如DSPF_sp_fftSPxSP函数和sqrtsp函数等。由于这些函数库的算法函数都是基于线性汇编或者汇编语言的形式编写的，可以充分利用DSP的架构优势，合理分配硬件资源。3)牺牲部分存储空间，采用查表法实现一些固定的计算，如FFT和IFFT中使用的蝶形因子及分帧加窗时使用的窗函数系数均可直接索引对应数组。
表 3 代码执行周期数统计

函数功能	优化前		优化后		缩减周期数比例/%
函数功能	执行周期数/10⁴	仿真时间/ms	执行周期数/10⁴	仿真时间/ms	缩减周期数比例/%
分帧	2.102	0.140	0.107	0.007	94.9
加窗，预加重	22.990	1.533	11.477	0.765	50.1
FFT	41.023	2.735	1.046	0.069	97.5
本文算法	77.990	5.199	21.640	1.443	72.3
ACE编码	48.896	3.260	3.683	0.246	92.5
对数压缩	3.754	0.251	0.687	0.046	81.7
共计	196.754	13.117	38.640	2.576	80.4

表选项

由表 3可知，使用查表法和优化算法的函数库可以大幅缩减代码执行周期数。另外经过测试，如果只进行优化手段2和3，整体代码的执行周期数为6.306×10⁵，因此在集成开发环境中开启优化选项可以缩短周期约38.7%。
3.3 算法性能的评价在进行算法处理效果分析时，算法的实测环境为5 m×4 m×3.5 m的静音室，其T₆₀(声强衰减60 dB所需时间)约为100 ms。图 3所示的调试平台位于静音室正中央。测试时，以调试平台为圆心，在半径约为1 m的半圆周按照预先设定的角度放置音箱，与图 1的示意图一致，目标声源位于正方向，而干扰声源1和2位于其他方向，模拟实际的说话场景。通过调节电路板的支撑铜柱高度使音箱与双麦克风等高。音箱播放的测试语料来自MSP数据库中剩余的90段语音，随机取3段语音作为测试语料，其中目标声源使用其中任意一段，θ₁设置在0°附近(包括0°、5°、10°和15°)，剩余2段语料分别作为干扰噪声源1和2，θ₂和θ₃设置为60°、90°、120°、150°和180°中的任意角度。考虑以上的所有情况，可以得到6种语料组合和100种方位组合。利用调试平台可实现所有情况下的信号采集和算法实时处理工作，同时通过DDR2可以将实时的处理结果暂存起来，留作后续的分析。
为了验证不同情况下算法的性能，本文选取分段信噪比(segmental signal-to-noise ratio，SSNR)的提升ΔSSNR和感知语音质量评估(perceptual evaluation of speech quality, PESQ)作为评价指标。SSNR可以反映语音的局部失真水平，ΔSSNR越高代表算法的噪声消除水平越高；而PESQ与主观评价的相关度高，PESQ越高代表语音的可懂度越高^[15]。图 6是所有语料组合经过DSP处理后得到的指标均值。

图 6 算法的鲁棒性分析

图选项

由图 6可以看出，当噪声源分别位于60°和90°方位角时，ΔSSNR和PESQ最高，算法效果最好；在所有的测试条件下，这2项指标均处于较高的提升水平；并且当噪声源的位置固定不变时，随着目标声源在0°附近的变化，ΔSSNR的变化均小于0.1 dB，这体现了算法处理效果的一致性；而对于所有测试条件，算法的PESQ值均高于1.42，并且当目标声源变化时，图中相同方位的干扰声源各点的PESQ变化均小于1%。综合以上可以得到：算法的鲁棒性好，测试时选取的语料、干扰噪声源静止的方位和目标声源较正方向的轻微偏差等因素均不会对算法的效果产生本质的影响。
为了让本算法能够更好地应用于CI中，需要探讨本算法与CI言语编码策略的匹配融合情况。结合前面的性能分析，算法对不同的方位和语料均有较好的鲁棒性，这里只作举例分析，声源特点如表 4所示。在静音室内对声源按照表 4的设置，结合22选16通道的ACE言语编码策略，DSP可以得到原始目标信号、混合语音信号和算法处理后信号的电极刺激脉冲的编码(本文的电刺激动态范围通道的阈值和最大舒适刺激值分别设置为80和200)。
表 4 举例分析时的声源参数

声源分类	语料内容	声源方位/(°)
目标源	“今晚要去弹钢琴”	0
噪声源1	“玩具小熊在这里”	90
噪声源2	“比赛已经快完了”	180

表选项

将实时刺激脉冲编码可视化为灰度图如图 7a—7c所示。从灰度图可以看出，混合语音噪声对于CI言语编码策略造成了较大的影响，容易出现刺激通道错选的情况，而本文算法可以很好抑制噪声源，并恢复原始目标信号的刺激编码。在图中实线方框区域中目标信号编码刺激值很小或者基本不刺激，但是由于干扰噪声的引入，言语编码策略对该区域对应的通道电极进行了刺激编码，而经过算法增强后，本区域的错编码情况得到明显改善；对于图中虚线方框所示的区域，增强语音不受干扰噪声源的影响，编码刺激强度和通道选择均与正弦载波的信道声码器对脉冲编码进行调制，得到目标语音的编码情况几乎完全一致。为了进一步展示算法与言语编码策略的融合效果，可以使用同步正弦载波的信道声码器对脉冲编码进行调制，得到仿真的音频信号，计算其功率谱密度(power spectral density, PSD)，得到图 7d—7f。由信号的功率谱图可知，目标信号编码后的仿真语音信号最大功率谱密度出现在第2个刺激通道(通道的中心频率为329 Hz)，但是混合语音的编码仿真信号的最大功率谱密度出现在第1个刺激通道(通道的中心频率为204 Hz)，如图 7f所示，引入本文算法后，增强语音信号恢复了与目标声源的能量特点。经计算，本场景中混合信号与目标信号的各刺激通道的功率谱谱峰序列的相关度为0.688，而经过声码器编码调制以后，增强信号与目标信号谱峰序列相关度提升为0.996。因此，本文算法可以很好地与常用的言语编码策略匹配融合。

图 7 语音信号的刺激编码灰度图和功率谱图

图选项

4 讨论根据空间采样定理，麦克风阵列的距离受到信号波长的限制，如果系统的采样频率为f_s，那么能采集到的信号最短波长λ_min=c/(f_s/2)，为了避免相位混叠，双麦克风阵列的间距应满足d < λ_min/2，在本文中c=340 m/s，f_s=16 kHz。因此针对于本文算法，双麦克风的距离不宜设置过大，需要保证在21 mm以内。此外，较强的混响干扰会降低本文算法的性能，根据仿真实验的结果，在T₆₀=540 ms的混响条件下^[16]，本文算法对表 4声源的ΔSSNR的提升由原来的9.872 dB降低到了2.739 dB，但是语音可懂度变化不大，PESQ由原来的1.419变为1.399。
5 结论本文提出了一种CI语音增强算法，通过提取采集信号各时频单元延迟参数，对不同方位的声源进行区分，进而达到抑制多方向竞争性语音的目的；利用TI公司的通用浮点DSP搭建了一套调试平台，将算法进行工程实时实现。实验结果表明：该算法对于竞争性语音的方位组合以及语音内容变化有较强的适应能力。同时，算法的复杂度适中，可以方便地与CI主流言语编码(如ACE算法)结合。为了在工程上充分发挥DSP的计算性能，本文还对算法进行了软件优化，使得算法完全满足CI的实时计算需求。

参考文献

[1]	ZENG F G, REBSCHER S, HARRISON W, et al. Cochlear implants:System design, integration, and evaluation[J]. IEEE Reviews in Biomedical Engineering, 2008, 1: 115-142. DOI:10.1109/RBME.2008.2008250
[2]	BUECHNER A, DYBALLA K H, HEHRMANN P, et al. Advanced beamformers for cochlear implant users:Acute measurement of speech perception in challenging listening conditions[J]. PLoS One, 2014, 9(4): e95542. DOI:10.1371/journal.pone.0095542
[3]	HU Y, LOIZOU P C. Environment-specific noise suppression for improved speech intelligibility by cochlear implant users[J]. The Journal of the Acoustical Society of America, 2010, 127(6): 3689-3695. DOI:10.1121/1.3365256
[4]	MENG Q L, ZHENG N H, Li X. Mandarin speech-in-noise and tone recognition using vocoder simulations of the temporal limits encoder for cochlear implants[J]. The Journal of the Acoustical Society of America, 2016, 139(1): 301-310. DOI:10.1121/1.4939707
[5]	GOEHRING T, BOLNER F, MONAGHAN J J M, et al. Speech enhancement based on neural networks improves speech intelligibility in noise for cochlear implant users[J]. Hearing Research, 2017, 344: 183-194. DOI:10.1016/j.heares.2016.11.012
[6]	CHEN Y S, GONG Q. Real-time spectrum estimation-based dual-channel speech-enhancement algorithm for cochlear implant[J]. Biomedical Engineering Online, 2012, 11: 74. DOI:10.1186/1475-925X-11-74
[7]	KONING R, MADHU N, WOUTERS J. Ideal time-frequency masking algorithms lead to different speech intelligibility and quality in normal-hearing and cochlear implant listeners[J]. IEEE Transactions on Biomedical Engineering, 2015, 62(1): 331-341. DOI:10.1109/TBME.2014.2351854
[8]	KOKKINAKIS K, RUNGE C, TAHMINA Q, et al. Evaluation of a spectral subtraction strategy to suppress reverberant energy in cochlear implant devices[J]. The Journal of the Acoustical Society of America, 2015, 138(1): 115-124. DOI:10.1121/1.4922331
[9]	SPRIET A, VAN DEUN L, EFTAXIADIS K, et al. Speech understanding in background noise with the two-microphone adaptive beamformer BEAM^TM in the Nucleus Freedom^TM cochlear implant system[J]. Ear and Hearing, 2007, 28(1): 62-72.
[10]	宫琴, 郑硕. 基于波束形成与最大似然估计的近距离双麦克风语音增强算法[J]. 清华大学学报(自然科学版), 2018, 58(6): 603-608. GONG Q, ZHENG S. Beamforming and maximum likelihood estimationfor speech enhancement usingdual closely-spaced microphones[J]. Journal of Tsinghua University (Science and Technology), 2018, 58(6): 603-608. (in Chinese)
[11]	YOUSEFIAN N, LOIZOU P C. A dual-microphone speech enhancement algorithm based on the coherence function[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(2): 599-609.
[12]	AISSA-EL-BEY A, LINH-TRUNG N, ABED-MERAIM K, et al. Underdetermined blind separation of nondisjoint sources in the time-frequency domain[J]. IEEE Transactions on Signal Processing, 2007, 55(3): 897-907. DOI:10.1109/TSP.2006.888877
[13]	FU Q J, ZHU M, WANG X S. Development and validation of the Mandarin speech perception test[J]. The Journal of the Acoustical Society of America, 2011, 129(6): EL267-EL273. DOI:10.1121/1.3590739
[14]	陈又圣, 宫琴. 基于双TP型麦克风的电子耳蜗前端指向性语音增强系统的研制[J]. 仪器仪表学报, 2010, 31(9): 1952-1958. CHEN Y S, GONG Q. Study on dual TP microphone-based directional speech enhancement system for cochlear implant[J]. Chinese Journal of Scientific Instrument, 2010, 31(9): 1952-1958. (in Chinese)
[15]	LOIZOU P C. Speech enhancement:Theory and practice[M]. Boca Raton, USA: CRC press, 2007.
[16]	GOLDSWORTHY R L. Two-microphone spatial filtering improves speech reception for cochlear-implant users in reverberant conditions with multiple noise sources[J]. Trends in Hearing, 2014, 18: 2331216514555489.