基于双耳相干函数的鲁棒时延差估计与混响抑制算法
方义 1 , 陈友元 2 , 牟宏宇 2 , 冯海泓 2     
1. 中国科学院大学 声学研究所, 北京 100190;
2. 中科院声学研究所 东海研究站, 上海 200815
摘要:传统的基于相关峰的广义互相关算法在混响环境下性能急剧下降,尽管一些优先效应模型被提出以改善其性能,但是这些模型计算复杂且对阈值选取很敏感。该文首先通过协方差矩阵的特征值来分别更新语音的相干函数和噪声的相干函数,随后将语音的相干函数与理想相干函数匹配,用于时延差估计。估计出的时延差和噪声的相干函数用于相干与散射信号能量比值(coherent-to-diffuse power ratio,CDR)的估计,最后利用实时估计出来的CDR值进行混响抑制。实验结果表明:该方法的定位误差明显低于传统方法,且混响抑制后的主观语音质量评估(perceptual evaluation of speech quality,PESQ)分数高于对比算法。
关键词优先效应模型    时延差估计    混响抑制    相干函数    
A robust time-delay estimation and dereverberation algorithm based on the coherence function
FANG Yi1, CHEN Youyuan2, MOU Hongyu2, FENG Haihong2     
1. The Institute of Acoustics, University of Chinese Academy of Sciences, Beijing 100190, China;
2. Shanghai Acoustics Laboratory, Chinese Academy of Sciences, Shanghai 200815, China
Abstract: The performance of traditional cross-correlation based time-delay estimation methods is sharply degraded in reverberation environments. Precedence effect models have been proposed with cross-correlation functions, but these models are quite parameter-sensitive and the front-end processes are very complex. This paper describes a method that first updates a function of the speech and noise based on the eigenvalues of the covariance matrix. Then, a coherence function of the speech is matched to the ideal coherence function for the time-delay estimate. Then, the estimated time delay and the noise coherence function are applied to the coherent-to-diffuse power ratio (CDR) estimator for reverberation suppression. Tests show that this scheme has higher localization accuracy than traditional methods and achieves higher PESQ (perceptual evaluation of speech quality) scores than other CDR estimators.
Key words: precedence effect     time-delay estimation     dereverberation     coherence function    

对于双耳佩戴听力设备的实验者而言,混响的存在影响到语音的可懂度和声源定位能力。以小型机器人为对象进行自动语音识别和定位实验可知,混响严重影响了其定位的准确率和语音识别的正确率。

基于相干函数的混响抑制方法在过去几个世纪中已经被广泛地研究[1-3]。这种方法的主要思想是直达声信号在2个麦克风之间相关性较高,而由墙壁等物体反射叠加后的晚期混响信号则被认为是非相干性的散射噪声(diffuse noise)。近期,一种名为CDR(coherent-to-diffuse power ratio)的概念被提出。Jeub等[4]在假设2个麦克风之间没有时延差的情况下提出一种双通道CDR估计函数,随后又在假设已经知道时延差的情况下,在频域乘以一个与时延差有关的相移因子来获得有时延差时的CDR估计函数。Schwarz等[5]汇总了前人的结果并提出一系列的CDR无偏估计函数,包括依赖方位信息和不依赖方位信息的估计函数。Zheng等[6]考虑到头部的阴影效应,提出一种双耳的混响抑制估计函数。但是这些方法有着以下的不足:一方面,大部分的估计函数是在假设时延差已知的前提下进行的,而在混响环境下的时延差估计本身也是一个难点;另一方面,这些函数利用了一个理想的散射噪声的相干函数,是一个固定的模型,而实际上噪声的相干函数是时变的。

典型的时延差估计方法是求取广义互相关的峰值[7-10],这类方法在没有混响和噪声的安静环境下有着很好的表现,但是现有的语音设备往往是在存在背景噪声和混响的房间内使用,在这种环境下,传统的方法定位误差急剧增加。为了提高混响环境下的定位准确率,一些“优先效应模型”被提出。优先效应指的是人耳在混响环境下能够通过首先到达人耳的直达声进行声源定位而忽略后续混响声的干扰[11]。Huang等[12]提出了一种经典的回波分离模型,在该模型中利用房间的冲击响应函数去构建一个直达声与混响声的比值,只利用比值较高的时频段进行时延估计。但是该模型高度依赖房间的冲击响应函数,而每个房间的冲击响应函数又不同,这限制了该算法的鲁棒性。Martin等[13]提出另外一种模型,在该模型中,首先将信号分解到不同的频带,然后通过Meddis细胞发放模型[14],最后在直达声起始点处产生一个抑制信号,最后将该抑制信号乘上广义互相关函数来进行时延估计。该模型中的前端信号处理过程计算量很大,且噪声环境下的起始点检测也是一个难点。Faller和Merimaa等[15]提出一种新的基于频域相关性的优先效应模型,该模型在每个子带计算一个互相关函数,利用互相关函数最大值处的幅度值大小来判断该频段的有效性,最后只利用相关性大的子带进行时延估计。近期的一些心理声学实验中也表明了耳间相关性与声源定位存在着密切的联系[16-17]。尽管这些模型提供了一系列的方法用于在混响环境中提取有用信号,但是这些模型的前端信号处理过程复杂,且存在阈值难以选取的问题。

本文提出一种基于相关性的双耳线索选择算法,用于时延估计和混响抑制,首先介绍了一种简单鲁棒的基于高相关性线索的时延估计算法,然后将低相关线索的噪声相干函数和估计的时延差构建CDR估计函数,最后CDR估计值用于混响抑制。

1 系统描述

图 1描述了本文算法的信号处理模型,基本CDR的估计算法将在节2.1介绍,其中实时的噪声相干函数和时延差估计将在节2.2介绍。

图 1 本文算法系统框图

1.1 频域相干函数的定义

定义左右2个麦克风接收到的时域信号为

$ {x_i}\left( t \right) = {s_i}\left( t \right) + {n_i}\left( t \right),\;\;\;\;i = {\rm{l}},{\rm{r}}. $ (1)

其中:t表示采样点,si(t)和ni(t)分别代表目标语音和干扰噪声。变换到频域后:

$ {X_i}\left( {\lambda ,\mu } \right) = {S_i}\left( {\lambda ,\mu } \right) + {N_i}\left( {\lambda ,\mu } \right),\;\;\;\;i = {\rm{l}},{\rm{r}}. $ (2)

其中λμ分别代表帧数和频点。两通道间的频域相干函数定义为

$ {\mathit{\Gamma }_{{X_{\rm{l}}}{X_{\rm{r}}}}}\left( {\lambda ,\mu } \right) = \frac{{{P_{{X_{\rm{l}}}{X_{\rm{r}}}}}\left( {\lambda ,\mu } \right)}}{{\sqrt {{P_{{X_{\rm{l}}}{X_{\rm{r}}}}}\left( {\lambda ,\mu } \right){P_{{X_{\rm{r}}}{X_{\rm{r}}}}}\left( {\lambda ,\mu } \right)} }}. $ (3)

其中PXlXl(λμ)和PXrXr(λμ)分别为Xl(λμ)和Xr(λμ)的自功率谱,而PXlXr(λμ)为Xl(λμ)和Xr(λμ)间的互功率谱。计算公式为

$ \begin{array}{*{20}{c}} {{P_{{X_i}{X_i}}}\left( {\lambda ,\mu } \right) = \alpha {P_{{X_i}{X_i}}}\left( {\lambda ,\mu } \right) + }\\ {\left( {1 - \alpha } \right){{\left| {{X_i}\left( {\lambda ,\mu } \right)} \right|}^2},\;\;\;i = {\rm{l}},{\rm{r}};} \end{array} $ (4)
$ \begin{array}{*{20}{c}} {{P_{{X_{\rm{l}}}{X_{\rm{r}}}}}\left( {\lambda ,\mu } \right) = \alpha {P_{{X_{\rm{l}}}{X_{\rm{r}}}}}\left( {\lambda ,\mu } \right) + }\\ {\left( {1 - \alpha } \right){X_{\rm{l}}}\left( {\lambda ,\mu } \right)X_{\rm{r}}^ * \left( {\lambda ,\mu } \right).} \end{array} $ (5)

其中α为相邻帧之间的平滑因子。

2 算法介绍 2.1 基于相干函数的CDR估计算法

假设一个声源信号在2个麦克风之间没有时延差,且语音和噪声不相关,此时有:

$ {P_{{{\rm{s}}_{\rm{l}}}{{\rm{s}}_{\rm{l}}}}}\left( {\lambda ,\mu } \right) = {P_{{{\rm{s}}_{\rm{r}}}{{\rm{s}}_{\rm{r}}}}}\left( {\lambda ,\mu } \right) = {P_{\rm{s}}}\left( {\lambda ,\mu } \right), $ (6)
$ {P_{{{\rm{n}}_{\rm{l}}}{{\rm{n}}_{\rm{l}}}}}\left( {\lambda ,\mu } \right) = {P_{{{\rm{n}}_{\rm{r}}}{{\rm{n}}_{\rm{r}}}}}\left( {\lambda ,\mu } \right) = {P_{\rm{n}}}\left( {\lambda ,\mu } \right), $ (7)
$ {P_{{{\rm{x}}_{\rm{l}}}{{\rm{x}}_{\rm{l}}}}}\left( {\lambda ,\mu } \right) = {P_{{{\rm{x}}_{\rm{r}}}{{\rm{x}}_{\rm{r}}}}}\left( {\lambda ,\mu } \right) = {P_{\rm{x}}}\left( {\lambda ,\mu } \right), $ (8)
$ {P_{\rm{x}}}\left( {\lambda ,\mu } \right) = {P_{\rm{s}}}\left( {\lambda ,\mu } \right) + {P_{\rm{n}}}\left( {\lambda ,\mu } \right). $ (9)

其中Ps(λ, μ)和Pn(λ, μ)分别代表信号和散射噪声的自功率谱,然后CDR定义为

$ {\rm{CDR}} = \frac{{{P_{\rm{s}}}\left( {\lambda ,\mu } \right)}}{{{P_{\rm{n}}}\left( {\lambda ,\mu } \right)}}. $ (10)

又有:

$ {\mathit{\Gamma }_{\rm{s}}}\left( {\lambda ,\mu } \right) = \frac{{{P_{{{\rm{s}}_{\rm{l}}}{{\rm{s}}_{\rm{r}}}}}\left( {\lambda ,\mu } \right)}}{{{P_{\rm{s}}}\left( {\lambda ,\mu } \right)}}, $ (11)
$ {\mathit{\Gamma }_{\rm{n}}}\left( {\lambda ,\mu } \right) = \frac{{{P_{{{\rm{n}}_{\rm{l}}}{{\rm{n}}_{\rm{r}}}}}\left( {\lambda ,\mu } \right)}}{{{P_{\rm{n}}}\left( {\lambda ,\mu } \right)}}. $ (12)

其中Γs(λ, μ)和Γn(λ, μ)分别为语音和噪声的相干函数,最后的CDR定义式为

$ {\rm{CDR}} = \frac{{{\mathit{\Gamma }_{\rm{n}}}\left( {\lambda ,\mu } \right) - {\mathit{\Gamma }_{\rm{x}}}\left( {\lambda ,\mu } \right)}}{{{\mathit{\Gamma }_{\rm{x}}}\left( {\lambda ,\mu } \right) - {\mathit{\Gamma }_{\rm{s}}}\left( {\lambda ,\mu } \right)}}. $ (13)

当2个麦克风之间存在时延差时,Jeub等[4]提出在频域乘以一个相移因子,以补齐2个麦克风之间时延差的形式来获得此时的CDR估计函数:

$ {\rm{CD}}{{\rm{R}}_{{\rm{jeub}}}} = \frac{{{\mathit{\Gamma }_{\rm{n}}} - {\mathop{\rm Re}\nolimits} \left\{ {{{\rm{e}}^{ - {\rm{j}}\omega \Delta t}}{\mathit{\Gamma }_{{{\rm{x}}_1}{{\rm{x}}_2}}}} \right\}}}{{{\mathop{\rm Re}\nolimits} \left\{ {{{\rm{e}}^{ - {\rm{j}}\omega \Delta t}}{\mathit{\Gamma }_{{{\rm{x}}_1}{{\rm{x}}_2}}}} \right\} - 1}}. $ (14)

Schwarz等[5]在前人基础上提出一系列的CDR无偏估计函数,包括依赖时延差信息和不依赖时延差信息的估计函数:

$ {\rm{CD}}{{\rm{R}}_{{\rm{doa}} - {\rm{dependent}}}} = \frac{{{\mathop{\rm Re}\nolimits} \left\{ {{{\rm{e}}^{ - {\rm{j}}\omega \Delta t}}{\mathit{\Gamma }_{\rm{n}}} - {{\rm{e}}^{ - {\rm{j}}\omega \Delta t}}{\mathit{\Gamma }_{{{\rm{x}}_1}{{\rm{x}}_2}}}} \right\} - 1}}{{{\mathop{\rm Re}\nolimits} \left\{ {{{\rm{e}}^{ - {\rm{j}}\omega \Delta t}}{\mathit{\Gamma }_{{{\rm{x}}_1}{{\rm{x}}_2}}}} \right\} - 1}}, $ (15)
$ {\rm{CD}}{{\rm{R}}_{{\rm{doa}} - {\rm{independent}}}} = {\mathop{\rm Re}\nolimits} \left\{ {\frac{{{\mathit{\Gamma }_{\rm{n}}} - {\mathit{\Gamma }_{{{\rm{x}}_1}{{\rm{x}}_2}}}}}{{{\mathit{\Gamma }_{{{\rm{x}}_1}{{\rm{x}}_2}}} - \exp \left( {j\angle {\mathit{\Gamma }_{{{\rm{x}}_1}{{\rm{x}}_2}}}} \right)}}} \right\}. $ (16)

尽管这些学者提出了一系列CDR的无偏估计,但是这些算法一方面需要预先知道噪声的相干函数,在以上估计函数中大多采用理想的噪声相干函数模型:

$ {\mathit{\Gamma }_{\rm{n}}}\left( f \right) = \frac{{\sin \left( {2{\rm{ \mathit{ π} }}fd/c} \right)}}{{2{\rm{ \mathit{ π} }}fd/c}}. $ (17)

而实际情况下噪声的相干函数是随不同环境不同时间不断变化的。另一方面,这些算法大都需要预先知道2个麦克风之间的时延差,而混响环境下的时延估计本身也是一个难点。为此本文在节2.2提出一种实时的噪声相干函数与时延差估计算法。

2.2 噪声的相干函数估计与时延差估计

根据子空间语音增强理论,可以通过求解信号功率谱的协方差矩阵的特征值来进行语音和噪声的分离。为此,本文将信号划分为若干子带,在每个子带构建一个关于左右通道功率谱的协方差矩阵R(f):

$ \mathit{\boldsymbol{R}}\left( f \right) = \left[ {\begin{array}{*{20}{c}} {{P_{{{\rm{x}}_{\rm{l}}}{{\rm{x}}_{\rm{l}}}}}\left( f \right)}&{{P_{{{\rm{x}}_{\rm{l}}}{{\rm{x}}_{\rm{r}}}}}\left( f \right)}\\ {{P_{{{\rm{x}}_{\rm{l}}}{{\rm{x}}_{\rm{r}}}}}\left( f \right)}&{{P_{{{\rm{x}}_{\rm{r}}}{{\rm{x}}_{\rm{r}}}}}\left( f \right)} \end{array}} \right]. $ (18)

其中Pxixi(f)=E(Xi(fXi(f)), i=l,r,为当前子带f的功率谱的期望。求出每个子带R的特征值λ1(f)和λ2(f) (假设λ1>λ2):

$ \varphi \left( f \right) = \frac{{{\lambda _1}\left( f \right)}}{{{\lambda _2}\left( f \right)}}. $ (19)

参考文[18],可以得出子带的2个特征值的比值近似等于子带的信噪比,由此设定一个阈值来区分高相关性的直达声信号H1和低相关性的混响声信号H0

$ \left\{ \begin{array}{l} \varphi \left( f \right) \ge T:\left( {{H_1}} \right),\\ \varphi \left( f \right) < T:\left( {{H_0}} \right). \end{array} \right. $ (20)

其中T为阈值。则相应的噪声的相关函数更新公式为

$ {\mathit{\Gamma }_{\rm{n}}}\left( {\lambda ,\mu } \right) = \left\{ \begin{array}{l} {\mathit{\Gamma }_{\rm{n}}}\left( {\lambda - 1,\mu } \right):\left( {{H_1}} \right),\\ \beta {\mathit{\Gamma }_{\rm{n}}}\left( {\lambda - 1,\mu } \right) + \left( {1 - \beta } \right)\left| {{\mathit{\Gamma }_{\rm{x}}}\left( {\lambda ,\mu } \right)} \right|:\left( {{H_0}} \right). \end{array} \right. $ (21)

其中β为平滑因子。图 2所示为一个含有混响和背景噪声的房间内的噪声的相干函数在300 Hz处的实际值和估计值,而理想相干模型式(17)由于采用了固定的公式,在不同的时刻某个频点始终为固定数值。从图中明显可以看出,采用实时估计的相干函数更加符合真实值。

图 2 噪声的相干函数真实值与估计值

同样可以构建一个高相关性信号的相干函数更新公式:

$ {\mathit{\Gamma }_{\rm{s}}}\left( {\lambda ,\mu } \right) = \left\{ \begin{array}{l} \alpha {\mathit{\Gamma }_{\rm{s}}}\left( {\lambda - 1,\mu } \right) + \left( {1 - \alpha } \right)\left| {{\mathit{\Gamma }_{\rm{x}}}\left( {\lambda ,\mu } \right)} \right|:\left( {{H_1}} \right),\\ {\mathit{\Gamma }_{\rm{s}}}\left( {\lambda - 1,\mu } \right):\left( {{H_0}} \right). \end{array} \right. $ (22)

式中α选取0.65。接下来,将利用这个公式进行时延估计。根据节1.1定义的频域相干函数可知,理想情况下单个声源的相干函数为

$ {{\rm{e}}^{{\rm{j}}\omega {f_{\rm{s}}}\Delta t}}. $ (23)

其中:ω为角频率,fs为采样率,Δt为2个麦克风之间的时延差。当采样频率和角频率固定时,理想的相干函数仅与时延差有关,而麦克风距离固定时,时延差也可以确定。因此,本文提出了一种基于频域相干函数匹配的方法来进行时延估计。算法步骤如下:首先,建立理想相干函数库,当麦克风距离固定时,最大的时延是已知的,根据不同时延,建立理想情况下的相干函数库。其次,在线预测阶段,根据式(22)实时更新高相关性的相干函数,并利用Pearson相关系数与不同时延下的理想相干函数匹配。Pearson相关系数是描述2个变量相关程度的一个公式。相关系数越接近于1,相关度越强;相关系数越接近于0,相关度越弱。找出相关系数最大值即为最后的时延差,图 3描述了实时在线时延估计过程。最后,利用实时估计出来的噪声的相干函数与时延差,代入到CDR估计函数中,用于混响抑制。

图 3 时延差估计框图

3 实验设置 3.1 时延差估计实验

在本实验中,信号采样频率为16 kHz,FFT点数为512,前后帧之间重叠率为75%。为了评估算法在不同混响时间下的性能,用Image模型[19]产生一个4 m×5 m×3 m的房间。麦克风放置于房间中心位置,麦克风间距为0.255 m。声源与麦克风中心距离为1 m。混响时间T60为0.1~1 s (每0.1 s为1间隔)。首先在IEEE语料库[20]中选择纯净的语音信号,然后与Image模型产生的房间冲击响应函数卷积,加入一定信噪比的白噪声后,获得最后的麦克风接收信号。对比算法为PHAT加权的广义互相关函数算法(GCC-PHAT)[7],该加权算法是应用最广泛的一种时延估计方法,为了证明更新后的高相关性信号的相干函数的作用式(22),还将未更新的相干函数直接与理想相干函数匹配的结果进行了对比(直接匹配法)。

图 45分别描述了单个声源和3个声源的每一帧的时延差估计结果,图中的虚线代表的是真实的时延差。从图 45明显可以看出,本文算法相较于对比算法有更少的野点,定位的结果更加准确。利用时延差估计的均方根误差来对结果进行客观评价。混响时间从0.6 s到1 s,时延差分别为12、10、6、0个采样点。表 1为最后结果,其中黑色加粗的数字为每种条件下的最小值。从表 1中可以明显看出,本文的时延差估计算法的均方根误差明显低于对比算法,一定程度上说明了本文算法相较于对比算法的优越性。

图 4 单声源定位结果

图 5 三声源定位结果

表 1 时延估计算法的均方根误差(RMS error)
T60 算法
(SNR=30 dB)
时延差/(fs-1·s)
12 (0°) 10 (30°) 6 (60°) 0 (90°)
600 ms GCC-PHAT 6.96 5.62 4.70 1.22
直接匹配法 6.34 4.79 3.36 1.07
本文算法 3.72 2.35 1.55 0.63
700 ms GCC-PHAT 7.67 6.35 5.40 1.10
直接匹配法 6.58 5.40 3.77 1.13
本文算法 4.37 3.15 1.57 1.07
800 ms GCC-PHAT 8.21 6.75 5.24 1.26
直接匹配法 6.89 6.01 4.27 1.10
本文算法 4.24 4.05 2.53 1.08
900 ms GCC-PHAT 8.37 7.09 5.38 1.34
直接匹配法 7.64 6.56 4.37 1.43
本文算法 6.08 5.44 2.80 1.09
1 s GCC-PHAT 8.45 7.57 5.32 1.38
直接匹配法 7.66 7.07 4.64 1.35
本文算法 6.38 6.12 2.91 1.11

3.2 混响抑制实验

在节2.1中已经介绍了CDR估计算法的基础内容,将实时估计的噪声相干函数和时延差代入到式(15)中就获得了最后的CDR估计值,将CDR估计值构建一个Wiener滤波器,就可以用做混响抑制的增益函数:

$ G\left( {\lambda ,\mu } \right) = \sqrt {\frac{{{\rm{CDR}}\left( {\lambda ,\mu } \right)}}{{{\rm{CDR}}\left( {\lambda ,\mu } \right) + 1}}} . $ (24)

图 6所示为利用本文算法进行混响抑制的一个时域图,其中最上面图为纯净语音,中间为纯净语音卷积了一个来自180°的HRTF(head related transfer function)的混响信号,最下面为处理后的语音信号。从时域图可以明显看出本文算法很好地还原了原始时候的波形,为了对语音质量做进一步的客观评价,本文利用PESQ[21]分数以及分段信噪比Segmental SNR (segSNR)来评估不同的CDR估计函数的表现。PESQ是一种广泛使用的语音质量感知评价模型,PESQ分数越高,说明语音质量越高。双耳的混响数据选自AIR (aachen impulse response)库[22],该数据库包含了一组不同距离(1 m、2 m、3 m)、不同角度(-90°~90°)下的双耳头相关传递函数(HRTF)。纯净语音信号选自IEEE语料库,之后卷积上不同的HRTF,获得最后的双耳信号。

图 6 混响抑制算法处理前后图

本文的对比算法分别为:Schwarz等[5]提出的不依赖DOA信息的CDR估计函数(Nodoa),其中噪声使用式(17)的固定模型;利用GCC-PHAT实时估计的时延差,噪声相干函数使用式(17)的固定模型(GCC);利用本文提出算法实时估计时延差,但是噪声相干函数模型使用的也是式(17)的固定模型(Coherence)。最后是本文提出的同时在线实时估计时延差和噪声相干函数的方法(Proposed)。从语料库中随机挑选100条语句,计算不同条件下的PESQ分数和segSNR,最后求每种条件下的统计平均值。图 79分别描述了在1、2、3 m时不同角度下的各种算法的平均PESQ分数。不同距离时,所有角度的PESQ分数平均值列于表 2,所有角度的segSNR平均值列于表 3。从图 79表 2可以看出,本文算法相较于对比算法,有着明显的PESQ分数优势。同时,从表 3明显看出本文算法提高的信噪比明显高于对比算法。这在一定程度上说明本文提出的在线实时估计模型能够有效提高混响抑制后的语音质量。

图 7 1 m时的不同角度的平均PESQ分数

图 8 2 m时的不同角度的平均PESQ分数

图 9 3 m时的不同角度的平均PESQ分数

表 2 不同距离下的平均PESQ分数
距离/m 未处理前 Non-DOA GCC Coherence Proposed
1 1.93 2.43 2.48 2.5 2.61
2 1.53 1.87 1.9 1.95 2.08
3 1.51 1.71 1.67 1.78 1.88

表 3 不同距离下的平均segSNR
距离/m 未处理前 Non-DOA GCC Coherence Proposed
1 -0.33 -0.29 -0.28 -0.28 -0.20
2 -0.36 -0.27 -0.25 -0.25 -0.19
3 -0.37 -0.27 -0.25 -0.24 -0.18

4 结论

本文提出一种利用协方差矩阵特征值进行在线实时估计时延差和噪声相干函数的算法,首先对时延估计的准确性进行了仿真实验,随后利用时延差和噪声相干函数构建一个实时的CDR估计函数用于混响抑制,实验结果表明:本文的时延差估计方法比传统的求广义互相关峰值的方法准确率更高,CDR估计公式比对比算法有着更高的PESQ分数。

参考文献
[1] ALLEN J B, BERKLEY D A, BLAUERT J. Multimicrophone signal-processing technique to remove room reverberation from speech signals[J]. Journal of the Acoustical Society of America, 1977, 62(4): 912–915. DOI:10.1121/1.381621
[2] ZELINSKI R. A microphone array with adaptive post-filtering for noise reduction in reverberant rooms[C]//1998 International Conference on Acoustics, Speech, and Signal Processing. Atlanta, GA, USA: IEEE, 1988: 2578-2581.
[3] LEBART K, BOUCHER J M, DENBIGH P N. A binaural system for the suppression of late reverberation[C]//Proceedings of the 2nd European Signal Processing Conference (EUSIPCO). Rhodes, Greece: EURASIP, 1998: 97-100
[4] JEUB M, FER M, ESCH T, et al. Model-based dereverberation preserving binaural cues[J]. IEEE Transactions on Audio Speech & Language Processing, 2010, 18(7): 1732–1745.
[5] SCHWARZ A, KELLERMANN W. Coherent-to-diffuse power ratio estimation for dereverberation[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2015, 23(6): 1006–1018.
[6] ZHENG C, SCHWARZ A, KELLERMANN W, et al. Binaural coherent-to-diffuse-ratio estimation for dereverberation using an ITD model[C]//Proceedings of the 23rd European Signal Processing Conference. Nice, French: EURASIP, 2015: 1048-1052.
[7] KNAPP C, CARTER G. The generalized correlation method for estimation of time delay[J]. IEEE Transactions on Acoustics Speech & Signal Processing, 2003, 24(4): 320–327.
[8] LIU C, WHEELER B C, JR W D O, et al. Localization of multiple sound sources with two microphones[J]. Journal of the Acoustical Society of America, 2000, 108(4): 1888–1905. DOI:10.1121/1.1290516
[9] JR R M S, COLBURN H S. Theory of binaural interaction based on auditory-nerve data. Ⅳ. A model for subjective lateral position[J]. Journal of the Acoustical Society of America, 1978, 64(1): 127–140. DOI:10.1121/1.381978
[10] LINDEMANN W. Extension of a binaural cross-correlation model by contralateral inhibition. Ⅰ. Simulation of lateralization for stationary signals[J]. Journal of the Acoustical Society of America, 1986, 80(6): 1608–1622. DOI:10.1121/1.394325
[11] LITOVSKY R Y, COLBURN H S, YOST W A, et al. The precedence effect[J]. Journal of the Acoustical Society of America, 1999, 106(4): 1633–1654. DOI:10.1121/1.427914
[12] HUANG J, OHNISHI N, SUGIE N. Sound localization in reverberant environment based on the model of the precedence effect[J]. IEEE Transactions on Instrumentation & Measurement, 1997, 46(4): 842–846.
[13] MARTIN K D. Echo suppression in a computational model of the precedence effect[C]//1997 IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics. New Paltz, NY, USA: IEEE, 1997: 4.
[14] MEDDIS R, HEWITT M J, SHACKLETON T M. Implementation details of a computation model of the inner hair-cell auditory-nerve synapse[J]. Journal of the Acoustical Society of America, 1990, 87(87): 1813–1816.
[15] FALLER C, MERIMAA J. Source localization in complex listening situations:Selection of binaural cues based on interaural coherence[J]. Journal of the Acoustical Society of America, 2004, 116(5): 3075–3089. DOI:10.1121/1.1791872
[16] LAVANDIER M, CULLING J F. Speech segregation in rooms:Importance of the interferer interaural coherence[J]. Journal of the Acoustical Society of America, 2008, 123(5): 2977–2977.
[17] RAKERD B, HARTMANN W M. Localization of sound in rooms. Ⅴ. Binaural coherence and human sensitivity to interaural time differences in noise[J]. Journal of the Acoustical Society of America, 2010, 128(5): 3052–3063. DOI:10.1121/1.3493447
[18] JI Y, PARK Y C, KIM D W, et al. Robust noise PSD estimation for binaural hearing aids in time-varying diffuse noise field[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada: IEEE, 2013: 7264-7268.
[19] ALLEN J B, BERKLEY D A. Image method for efficiently simulating small room acoustics[J]. Journal of the Acoustical Society of America, 1979, 65(4): 943–950. DOI:10.1121/1.382599
[20] ROTHAUSER E H, CHAPMAN W D, GUTTMAN N, et al. IEEE recommended practice for speech quality measurements[J]. IEEE Transactions on Audio and Electroacoust, 1969, 17(3): 225–246. DOI:10.1109/TAU.1969.1162058
[21] RIX A W, BEERENDS J G, HOLLIER M P, et al. Perceptual evaluation of speech quality (PESQ)-A new method for speech quality assessment of telephone networks and codecs[C]//IEEE International Conference on Acoustics, Speech, and Signal Processing. Salt Lake City, UT, USA: IEEE, 2001: 749-752.
[22] JEUB M, FER M, VARY P. A binaural room impulse response database for the evaluation of dereverberation algorithms[C]//Proceedings of the 16th International Conference on Digital Signal Processing. Santorini, Greece: IEEE, 2009: 1-5.