2. 清华大学 深圳研究生院, 生物医学研究中心, 深圳 518055
2. Research Center of Biomedical Engineering, Graduate School at Shenzhen, Tsinghua University, Shenzhen 518055, China
基于麦克风阵列的语音增强算法,利用空间方位的信息[1]达到去噪效果, 相比传统的单麦克风处理方法,如谱减法[2]、Wiener滤波法[3]等,适于抑制非平稳的干扰噪声。
在基于麦克风阵列的波束形成法中,如延迟相加波束形成法[4]、最小方差无畸变法[5]、广义旁瓣相消法[6]等,往往要求阵列中包含较多数量的麦克风。而电子耳蜗、助听器等小型电子设备,由于功耗体积的要求,一般用近距离双麦克风完成语音增强,例如一阶差分麦克风[7]及自适应零陷波束形成法[8]。在基于近距离双麦克风的波束形成应用中,存在2方面的问题:一方面,将波束形成法直接用于宽带语音信号,会出现低频滚降[9];另一方面,双麦克风阵列构成的波束形成图在0°~180°的范围内存在单一零点,当多方向的竞争性噪声同时存在时,处理效果不佳。针对低频滚降的问题,文[10]采用一阶差分低通滤波器进行调整,但该方法精度不高;文[11]通过宽带波束形成器进行补偿,但计算量较大,难以适应实时处理的需求;文[12]提出了归一化低频滚降补偿算法,并与电子耳蜗的言语编码策略结合,但引入过补偿。针对系统难以对多方向竞争性语音噪声进行抑制的问题,相干函数法[13]通过混合信号的相干性估计当前帧的信噪比,进而设置各时频单元的掩蔽值,实时抑制噪声,但此方法造成了目标信号较大的能量损失;文[14]以欠定盲分离问题为模型,采用稀疏成分分析方法进行目标源分离的研究,但该方法复杂度高,且盲分离模型主要抑制竞争性语音噪声,并未有效去除本底噪声。
为了更好地解决低频滚降及单一零点的问题,本文首先通过2个极点相对的波束形成系统的输出幅度比值,来确定各时频单元的初步掩蔽值,该掩蔽矩阵的设置不依赖于频率,在避免低频滚降的情况下去除本底噪声;再通过建立合适的统计模型,利用简化的最大似然法抑制竞争性语音噪声,进一步分离出更为纯净的目标信号源。
1 算法介绍 1.1 初步掩蔽的原理分析图 1为声源传播示意图。双麦克风的间距为d,声速为c,若声源信号为x(t),到达麦克风的传播路径与麦克风连线的夹角为θ。
由图 1可知,若前、后向麦克风采集到的信号分别为mic1(t)和mic2(t),则两路麦克风信号与声源信号的时域关系为:
$ \begin{array}{*{20}{c}} {{\rm{mi}}{{\rm{c}}_1}\left( t \right) = x\left( t \right),}\\ {{\rm{mi}}{{\rm{c}}_2}\left( t \right) = x\left( {t - d/c \times \cos \theta } \right).} \end{array} $ | (1) |
两路信号在时频域的表达式为:
$ \begin{array}{*{20}{c}} {{\rm{MI}}{{\rm{C}}_1}\left( {l,k} \right) = X\left( {l,k} \right),}\\ {{\rm{MI}}{{\rm{C}}_1}\left( {l,k} \right) = X\left( {l,k} \right)\exp \left( { - {\rm{i}}l{\omega _0} \times d/c \times \cos \theta \times {f_{\rm{s}}}} \right).} \end{array} $ | (2) |
其中:i为复数的虚单位,l和k分别是离散的频率点和时间窗的序号,ω0是离散化的圆周频率单位,值为2π/L, L为Fourier变换的点数,fs是采样频率。
接下来构造2个波束形成系统,其对应的零点分别在0°和180°方向上,幅频响应分别为:
$ \begin{array}{*{20}{c}} {{H_1}\left( {l,k} \right) = \exp \left( { - {\rm{i}}l{\omega _0} \times d/c \times {f_{\rm{s}}}} \right) - }\\ {\exp \left( { - {\rm{i}}l{\omega _0} \times d/c \times {f_{\rm{s}}} \times \cos \theta } \right),}\\ {{H_2}\left( {l,k} \right) = 1 - \exp \left( { - {\rm{i}}l{\omega _0} \times d/c \times \cos \theta \times {f_{\rm{s}}} - } \right.}\\ {\left. {{\rm{i}}l{\omega _0} \times d/c \times {f_{\rm{s}}}} \right).} \end{array} $ | (3) |
系统2相对于系统1的幅频响应比值ratio为:
$ {\rm{ratio}}\left( {l,k} \right) = \frac{{\left| {\sin \left( {l{\omega _0} \times d/c \times {f_{\rm{s}}} \times \left( {1 + \cos \theta } \right)/2} \right)} \right|}}{{\left| {\sin \left( {l{\omega _0} \times d/c \times {f_{\rm{s}}} \times \left( {1 - \cos \theta } \right)/2} \right)} \right|}}, $ | (4) |
$ \lg \left( {{\rm{ratio}}} \right) \approx \lg \left( {\left( {1 + \cos \theta } \right)/\left( {1 - \cos \theta } \right)} \right). $ | (5) |
根据文[12],在拥有8个刺激通道的电子耳蜗中,各个通道的中心频率分别是394、687.5、1 059.25、1 528.25、2 109、2 834.25、3 739.75、4 871 Hz。图 2显示了在上述刺激频率范围中,2个波束形成系统输出幅度的比值与声源来波方向的关系。在图 2中,纵轴为以10为底的对数坐标系,频率f=l/L×fs,其中:选定横坐标所显示的角度θ,当f的取值在394~4 871 Hz的范围内变动,d按近距离双麦克风的常用取值选为15 mm时,可以得到的最大值用正方形标号表示;可以取得的最小值用菱形标号表示;(1+cosθ)/(1-cosθ)的值用加号表示。
由图 2可知,在式(4)中,当θ固定,f在本文所关注的范围内变化时,lg(ratio(l, k))的变化范围很小,且与lg((1+cosθ)/(1-cosθ))的数值接近。因此,在电子耳蜗的刺激频率范围内、在双麦克风的距离选为15 mm的条件下,式(4)取以10为底的对数后可近似成式(5),该近似在小型双麦克风电子设备应用于5 kHz以下的声信号时均可满足。
接下来,本文根据各时频单元的ratio值,确定初步掩蔽矩阵M1。首先,从总体趋势上分析,由ratio与主导声源来波方向的关系可知,M1(l, k)随着ratio的增加,在0~1范围内呈现递增的变化趋势。其次,从函数分段点上分析,当ratio的值偏小时,也就是主导声源来波方向在大角度范围内时,时频单元内的能量极可能来自于噪声,这些能量应尽可能被抑制掉,所以此时M1(l, k)应尽可能靠近0,也就是M1(l, k)应设置成关于ratio的凸函数;相反地,当ratio的值偏大时,M1(l, k)应尽可能靠近1直到进入恒为1的常量区,M1(l, k)应设置成关于ratio的凹函数。考虑实际应用及处理的简便程度,本文将ratio=1,M1(l, k)=0.5 (主导来波方向为90°,保留时频单元50%的能量)设定为函数凹凸性的变化点,将ratio=2,M1(l, k)=1(主导来波方向为70°,保留时频单元全部的能量)设定为函数由递增区进入恒量区的变化点。从变化速率上分析,过慢的变化速率,如线性变化,会导致侧方或后方的噪声不能被有效地掩蔽,而过快的变化速率,如三阶或更高阶,会使初步掩蔽后输出结果的时频域内出现连续的静音区,导致最终合成时出现音乐噪声,因此本文将M1(l, k)与ratio的关系定为二次函数关系。综合上述分析,M1(l, k)和ratio的函数关系如下:
$ {M_1}\left( {l,k} \right) = \left\{ \begin{array}{l} 0.5 \times {\rm{rati}}{{\rm{o}}^2},\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\rm{ratio}} \le 1;\\ 1 - 0.5 \times {\left( {{\rm{ratio}} - 2} \right)^2},\;\;\;\;\;\;\;1 < {\rm{ratio}} \le 2;\\ 1,\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\rm{ratio}} > 2. \end{array} \right. $ | (6) |
假定系统输入的能量全部来自单一方向,图 3a为通过两路信号确定掩蔽值后,前向麦克风经过掩蔽处理后的幅频响应图,此响应作为系统初步掩蔽后的响应。图 3b为零点在180°的固定波束形成系统的幅频响应极性图,图中的角度即声源来波方向,频率均包含了8通道电子耳蜗的中心频率。
由图 3a可见,系统初步掩蔽后的幅频响应在120°~180°的范围内,接近于0;在70°~120°的范围内,在0~1之间过渡;在0°~70°的范围内,接近于1。且在图 3a中,当频率变化时,系统的幅频响应变化较小,几乎可以忽略不计;而在图 3b中,当频率较低时,固定波束形成系统的幅频响应出现衰减。经对比可知,本文系统在无需滤波或宽带补偿的情况下,可以避免低频滚降现象的发生。
1.2 二次掩蔽的原理在实际应用场景中,混合信号经过了本文算法的初步掩蔽后,仍可能混有来自多方向的竞争性语音噪声,这就需要对初步处理后的两个通道的输出继续进行语音增强。前、后向麦克风经初步增强后的输出分别为MIC1m(l, k)和MIC2m(l, k),目标源S0位于正方向(θ0=0),且同时在θ1, θ2, …, θn等方位上存在与目标声源能量相近的干扰噪声S1, S2, …, Sn,可建立统计模型,每个时频单元内的能量由主导声源和Gauss白噪声构成,表示如下:
$ \left\{ \begin{array}{l} {\rm{MI}}{{\rm{C}}_{1m}}\left( {l,k} \right) = {{\tilde S}_j}\left( {l,k} \right) + {\gamma _1}\left( {l,k} \right),\\ {\rm{MI}}{{\rm{C}}_{2m}}\left( {l,k} \right) = \exp \left( { - {\rm{i}}l{\omega _0}{\delta _i}} \right){{\tilde S}_j}\left( {l,k} \right) + {\gamma _2}\left( {l,k} \right). \end{array} \right. $ | (7) |
其中:j=0, 1, …, n;
$ \begin{array}{*{20}{c}} {{\rm{L}}{{\rm{H}}_j}\left( {l,k} \right) = - \left| {\exp \left( { - {\rm{i}}{\delta _j}l{\omega _0}} \right){\rm{MI}}{{\rm{C}}_{1m}}\left( {l,k} \right) - } \right.}\\ {{{\left. {{\rm{MI}}{{\rm{C}}_{2m}}\left( {l,k} \right)} \right|}^2}.} \end{array} $ | (8) |
目标源占主导的集合
$ \begin{array}{*{20}{c}} {{{\tilde \Lambda }_0} = \left\{ {\left( {l,k} \right):\mathop {\arg }\limits_{\left( {l,k} \right)} {\rm{L}}{{\rm{H}}_0}\left( {l,k} \right) = } \right.}\\ {\left. {\mathop {\max }\limits_{j = 0,1, \cdots ,n} {\rm{L}}{{\rm{H}}_j}\left( {l,k} \right)} \right\}.} \end{array} $ | (9) |
分离目标源所用的掩蔽矩阵可以表示为:
$ {\mathit{\boldsymbol{M}}_2} = \left\{ \begin{array}{l} 1,\;\;\;\;\left( {l,k} \right) \in {{\tilde \Lambda }_0};\\ 0,\;\;\;\;其他. \end{array} \right. $ | (10) |
由于竞争性噪声的个数及方位往往是未知的,需要采用聚类方法估计,因此算法复杂度较高。考虑到受房间混响、声源发声特点的影响,声源在角度变化较小时延迟值的变化不明显,采取简化的处理方法,直接令θ1=60°, θ2=120°,再通过式(8)—(10)确定进一步语音增强所用的掩蔽矩阵。
1.3 算法实现流程完整的算法流程如图 4所示。
步骤1 对采集到的两路时域信号通过加权交叠相加(weighted overlap-add,WOLA)分析滤波器组[15]进行时频变换,Fourier变换点数设为256,降采样因子K为128,Hamming窗窗长为1 024。
步骤2 对一路信号添加延迟单元,与另一路信号相减,得到零点分别在0°和180°的波束形成输出,并求得幅频响应的比值,根据式(6)确定初步掩蔽矩阵M1,并得到初步掩蔽后的输出。
步骤3 令δ0=d/c×fs, δ1=δ0×cos(π/3), δ2=δ0×cos(2π/3),根据式(8)得到LH0、LH1、LH2,进而可得掩蔽矩阵M2及此步骤的输出MIC1o。
步骤4 将输出的信号通过WOLA综合滤波器组[15]进行逆变换,得到处理结果的时域信号。
2 实验结果 2.1 实验基本设置根据助听器和电子耳蜗体外机的实际尺寸,双麦克风距离设置为15 mm。实验在5 m×4 m×3.5 m的办公室进行,房间混响参数T60≈0.1 s。声源由音箱播放,麦克风采样频率16 kHz。
实验场景1 只有目标语音和本底噪声。位于150°方向上存在工厂机器轰鸣声,该噪声来自Noise92x数据库[16],近似代替本底噪声。目标语音位于正方向,所用语料来自TIMIT数据库[14],采样频率为16 kHz。此场景中,信噪比为-12.6 dB。
实验场景2 目标语音、本底噪声及竞争性噪声源同时存在。目标源位于正方向,在75°及110°方向上均存在着与目标源能量相近的语音源,来自TIMIT数据库。本底噪声来自于测试环境。信噪比低于-10 dB, 其中目标源相对于本底噪声的信噪比为-4.2 dB。
在实验分析中,所采取的评价指标主要包括所选择的刺激通道内功率谱密度的相对误差、信噪比或信号干扰比的提升、目标信号保留的能量、主观语音质量评估(perceptual evaluation of speech quality, PESQ)以及离线运行时间。
2.2 实验场景1结果与分析图 5展示了本文方法对场景1的处理效果,并将其与零点对准150°方向的固定波束形成法[10]的处理效果进行对比。
从图中可看出,本底噪声使混合信号相比于原始信号,在时域包络及不同频段的能量分布上均发生了明显变化。本文的方法及固定波束形成法均能起到抑制本底噪声、增强目标语音的效果; 通过时域信号的对比发现,本文方法得到的目标语音能量损失小,且较好地还原了原始目标信号的静音段;通过频域信号的对比发现,本文方法使信号在200 ~1 500 Hz的范围内有较多的能量分布,而2 kHz以上的高频段能量较少,但是经固定波束形成法处理得到的信号在上述2个频率范围内的能量相近,与原始信号的频率分布情况差别较大。另一方面,经本文方法处理后,信噪比的提升是19.7 dB,目标信号保留的能量是80.4%,PESQ是3.149。经零点在150°方向上的固定波束形成法处理后,信噪比的提升是12.2 dB,目标信号保留的能量是56.2%,PESQ是2.882。以8通道电子耳蜗的中心频率为参考,将原始信号、通过本文方法处理的信号和通过固定波束形成法处理后的信号按照连续交替采样(continuous interleave sampling, CIS)策略[12]进行调制,并对上述3种信号进行能量对齐操作。各个刺激通道的功率谱密度如表 1所示。由表 1可知,经本文方法处理的混合信号,其主要能量集中于中低频段,高频段能量较少,与原始信号的能量分布基本一致。而经固定波束形成法处理的混合信号,在低频段与高频段的能量分布差异较小,与原始信号相比,其低频段的能量有明显的衰减。表 1的数据进一步证明了本文的方法避免了低频滚降现象的发生。
频率/Hz | 原始信号 | 本文方法 | 固定波束形成 | ||||
绝对值 | 绝对值 | 误差/% | 绝对值 | 误差/% | |||
394 | 98.8 | 126.8 | 28.3 | 45.2 | -54.1 | ||
687.5 | 103.8 | 94.6 | -8.9 | 45.7 | -56.0 | ||
1 059.25 | 66.9 | 57.0 | -14.8 | 50.5 | -24.5 | ||
1 528.25 | 32.0 | 27.9 | 12.8 | 39.5 | 23.4 | ||
2 109 | 25.1 | 20.2 | 19.5 | 49.6 | 97.6 | ||
2 834.25 | 44.0 | 41.6 | -5.4 | 102.3 | 132.5 | ||
3 739.75 | 24.6 | 25.3 | 2.8 | 60.2 | 144.7 | ||
4 871 | 13.0 | 11.5 | -11.5 | 23.4 | 91.5 |
2.3 实验场景2的结果与分析
图 6展示了本文方法的处理效果。
从图中可以看出,由于多方向竞争性语音噪声的混入,混合信号的语谱能量分布与原始信号相比发生了明显的变化。由于本底噪声较强,混合信号的语谱图还呈现了能量集中区域不清晰的特点。经本文所提出的两步法的处理后,重建信号恢复了原始信号的能量分布特点,同时能量集中区域较为清晰。例如,在方框1所指示的时间段、1~2 kHz的频域区内,目标信号有较强的能量,而在混合信号中这一部分的能量被掩蔽了,本文算法恢复了此部分的能量;在方框2所指示的时间段、1.5 kHz附近的频域区内,目标信号能量较弱,而由于竞争性语音噪声的存在,混合信号在这一部分有较强的能量,本文算法可以掩蔽此部分噪声的能量。相似的,在方框3~6的时间段内,均进行对比分析,本文提出的算法较好地还原了目标信号的能量分布特点。
表 2显示了原始信号与经本文方法处理后的信号在所选择的刺激通道的功率谱密度的对比情况。
f/Hz | 原始信号 | 本文方法 | ||
绝对值 | 绝对值 | 误差% | ||
394 | 36.4 | 32.7 | -10.2 | |
687.5 | 35.0 | 40.2 | 14.8 | |
1 059.25 | 24.1 | 23.5 | -2.5 | |
1 528.25 | 13.6 | 8.6 | -36.8 | |
2 109 | 9.3 | 6.4 | -31.2 | |
2 834.25 | 20.4 | 22.3 | 9.3 | |
3 739.75 | 8.7 | 10.4 | 19.5 | |
4 871 | 4.7 | 3.8 | -19.1 |
与表 1类似,表 2的数据反映了本文的处理方法避免了低频滚降现象的发生,不需要进行滤波或宽带补偿处理。
此外,将本文方法与适于抑制多方向竞争性噪声的相干函数法[13]、稀疏成分分析法[14]等进行比较,如表 3所示。由表 3可知,本文方法能带来更多的信噪比的提升、保留较多的能量,PESQ得分较高,且运行时间较短。
方法 | 信噪比的提升/dB | 目标信号保留% | PESQ分值 | 算法运行时间/s |
本文方法 | 6.8 | 22.0 | 3.601 | 0.16 |
相干函数法 | 5.4 | 5.1 | 1.823 | 0.22 |
稀疏成分分析法 | 3.1 | 17.4 | 3.398 | 3.37 |
3 讨论
在算法进行第2步的掩蔽时,在计算似然函数时用到了各声源传播至后向麦克风相对于前向麦克风的时间差δ。如果用lmax表示能取到的最大离散频率点的序号,δmax表示最大传播时间差,那么这种估计方法能够成立的条件是lmaxω0δmaxfs<π,又因为lmaxω0=π, δmax=d/c, 从而上述条件可以等效变换为d<c/fs。在本文中,所选取的测试语料的采样频率为16 kHz,因此双麦克风之间的距离应该不大于21.5 mm。在实验测试中,麦克风的距离为15 mm,满足了通过所提出的算法进行最大似然估计的需求。此外,在进行第2步掩蔽时,预设了2个角度,作为和正方向进行似然函数比较的参照。在进行角度的设定时,比较了多个方案。方案1,角度值分别为60°和120°;方案2,角度值分别为60°、90°和120°;方案3,角度值分别为60°、75°、90°、105°和120°。测试比较时,所选取的语料来自TIMIT数据库,说话人及所处的方位分别为(75°、110°)、(70°、100°、130°)、(40°、80°、105°、120°)和(60°、75°、95°、115°、130°)。经算法处理可知,在所测的情况下,采用3种方案后得到的掩蔽矩阵是一致的,而方案1由于选取的比较值较少,耗时最少。因此,最终选定60°和120°作为和正方向进行似然函数比较的参考角度。
4 结论本文针对电子耳蜗或助听器中近距离双麦克风使用传统波束形成法容易造成低频滚降的现象及仅存在单一方向零点抑制的问题,设计了可以同时突破上述2个限制的算法。该算法的主体中,包含了2次噪声掩蔽处理,即分别通过2个波束形成系统的输出幅度比值来设置初次掩蔽,通过统计模型的建立和简化的最大似然估计法进一步掩蔽竞争性语音噪声。通过实验,证明了该算法可以同时抑制本底噪声和多方向的竞争性语音噪声,并避免低频滚降现象的发生。此外,该算法比相干函数法能保留更多的来自目标信号的能量,相对于稀疏成分分析法,有更低的算法复杂度。
[1] | NOH J, JO H, PARK Y, et al. Acoustic-focusing headphone based on delay-and-sum beamforming[C]//Proceedings of 2010 International Conference on Control, Automation and Systems. Gyeonggi-do, Korea: IEEE Press, 2010: 2061-2064. |
[2] | KOKKINAKIS K, RUNGE C, TAHMINA Q, et al. Evaluation of a spectral subtraction strategy to suppress reverberant energy in cochlear implant devices[J]. Journal of the Acoustical Society of America, 2015, 138(1): 115–124. DOI:10.1121/1.4922331 |
[3] | SALEEM N. Single channel noise reduction system in low SNR[J]. International Journal of Speech Technology, 2017, 20(1): 89–98. DOI:10.1007/s10772-016-9391-z |
[4] | MAHIEUX Y, LE TOURNEUR G, SALIOU A. A microphone array for multimedia workstations[J]. Journal of the Audio Engineering Society, 1996, 44(5): 365–372. |
[5] | BRANDSTEIN M S, WARD E D B. Microphone arrays:Signal processing techniques and applications[M]. Berlin: Springer, 2001. |
[6] | GRIFFITHS L J, JIM C W. An alternative approach to linearly constrained adaptive beamforming[J]. IEEE Transactions on Antenaas Propagation, 1982, 30(1): 27–34. DOI:10.1109/TAP.1982.1142739 |
[7] | GONG Q, CHEN Y S. Parameter selection methods of delay and beamforming for cochlear implant speech enhancement[J]. Acoustic Physics, 2011, 57(4): 542–550. DOI:10.1134/S106377101104018X |
[8] | MAJ J, WOUTERS J, MOONEN M. A two-stage adaptive beamformer for noise reduction in hearing aids[C]//Proceedings of 2001 Workshop on Acoustic Echo and Noise Control. Darmstadt, Germany: IEEE Press, 2001: 171-174. |
[9] | LAI C C, NORDHOLM S, LEUNG Y H. Design of steerable spherical broadband beamformers with flexible sensor configurations[J]. IEEE Transactions on Audio, Speech and Language Processing, 2013, 21(2): 427–438. DOI:10.1109/TASL.2012.2219527 |
[10] | LUO F L, YANG J, PAVLOVIC C. Adaptive null-forming scheme in digital hearing aids[J]. IEEE Transactions on Signal Processing, 2002, 50(7): 1583–1590. DOI:10.1109/TSP.2002.1011199 |
[11] | JACEK D, JACOB B, SOFIENE A. Direction of arrival estimation using the parameterized spatial correlation matrix[J]. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(4): 1327–1339. DOI:10.1109/TASL.2006.889795 |
[12] | CHEN Y S, GONG Q. Broadband beamforming compensation algorithm in CI front-end acquisition[J/OL]. [2017-10-01]. https://biomedical-engineering-online.biomedcentral.com/articles/10.1186/1475-925x-12-18. |
[13] | YOUSEFIAN N, LOIZOU P C. A dual-microphone speech enhancement algorithm based on the coherence function[J]. IEEE Transactions on Audio Speech and Language Processing, 2012, 20(2): 599–609. |
[14] | AISSA-EL-BEY A, LINH-TRUNG N, ABED-MERAIM K, et al. Underdetermined blind separation of nondisjoint sources in the time-frequency domain[J]. IEEE Transactions on Signal Processing, 2007, 55(3): 897–907. DOI:10.1109/TSP.2006.888877 |
[15] |
崔杰, 肖灵, 王玥, 等.
一种用于数字助听器的WOLA滤波器组的设计准则[J]. 应用声学, 2010, 29(1): 36–42.
CUI J, XIAO L, WANG Y, et al. A kind of design criterion for WOLA filterbanks used in digital hearing aids[J]. Applied Acoustics, 2010, 29(1): 36–42. DOI:10.11684/j.issn.1000-310X.2010.01.007 (in Chinese) |
[16] | VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition:Ⅱ. Noisex92:A database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication, 1993, 12(3): 247–251. DOI:10.1016/0167-6393(93)90095-3 |