2. 国家计算机网络应急技术处理协调中心, 北京 100029;
3. 科大讯飞股份有限公司, 合肥 230088
2. National Computer Network Emergency Response Technical Team Coordination Center of China, Beijing 100029, China;
3. IFLYTEK Corporation, Hefei 230088, China
Reynolds等[1]提出的Gauss混合模型—通用背景模型 (Gaussian mixture model-universal background model,GMM-UBM) 技术是说话人识别方法发展的基础系统。近年来,一个主要的技术突破是联合因子分析[2](joint factor analysis,JFA),该方法通过对说话人空间和信道空间进行建模来去除信道差异性,获得了明显的性能提升。在此基础上,文[3]提出采用基于因子分析载荷矩阵投影获得的低维因子i-vector来进行说话人识别,即全差异空间的方法,获得了巨大的成功,文[3]中采用余弦得分对i-vector进行得分计算。近年来,由于概率线性区分性分析 (probabilistic linear discriminant analysis, PLDA) 在图像识别中的成功应用[4],研究者将其成功引入到说话人识别中[5-8],取得明显优于余弦得分计算的性能,在说话人识别研究中成为主流算法。
支持向量机 (support vector machine,SVM) 作为一种区分性的模式识别算法在说话人识别领域也获得了研究者的认可[9-10]。最初的研究者提出Gauss均值超矢量[11](GMM super vector,GSV) 作为GMM-UBM似然度得分计算的一种有益补充,获得了与GMM-UBM相当的识别结果。为了解决信道不匹配的问题,Solomonoff等[12]提出了扰动属性投影技术 (nuisance attribute projection,NAP),并成功地改善了支持向量机的性能。
本文的系统与以往的基于支持向量机的说话人确认系统有以下几个不同:1) 考虑到全变量空间在训练过程中已经通过数据的匹配对信道差异补偿,在特征域和模型域将不采用任何去除信道影响的算法,即直接采用i-vector因子作为输入特征向量,不进行NAP、线性鉴别分析 (linear discriminant analysis,LDA) 和类内协方差规整 (within class covariance normalization,WCCN) 等信道补偿;2) 由于i-vector维度较低,为了提高区分性,采用余弦函数作为SVM的核函数;3) 进一步研究发现,SVM系统和PLDA系统具有很强的互补性,并且将两者得分融合后,在单系统的基础上性能有很大的提升。
1 全变量系统全变量系统类似于联合因子分析系统,不同点在于:在全变量系统中,仅仅含有一个全变量空间,而不再区分说话人空间和信道空间。研究表明:在信道空间中也包含有说话人的个性化信息,这部分说话人信息也能用来进行说话人识别[3]。
在全变量系统中,某个说话人的一段语料可由一个均值超矢量M表示
M=m+Tw.
其中:m是混合Gauss数为C、声学特征维数为F的UBM均值超矢量,T表示全变量空间,w是满足Gauss分布N(0, I) 的随机矢量,称之为全变量因子i-vector。在这里,m的维数是CF×1, T的维数是CF×RT(RT是说话人因子数), w的维数是RT×1。本文描述的系统中,取RT=400。T在数学上是因子分析的载荷矩阵,一般通过大量训练数据驱动,用期望最大化算法 (expectation maximization,EM) 获得。在获得T之后,对于说话人识别中的每句语音文件,通过最大后验概率 (maximum a posterior,MAP) 的算法获得每句话对应的全变量因子w应用于后面的说话人确认。
2 基于支持向量机的说话人确认支持向量机作为模式识别领域的一项区分性分类技术,如何将其成功地应用到说话人确认中一直是国内外相关研究者研究的热点。本文将全变量分析系统的i-vector作为输入特征向量,并通过选择合适的核函数来实现与目前主流技术相当的性能。
2.1 支持向量机系统概述SVM的基本模型是工作在高维特征空间的基于分离超平面的二类分类器,这个高维特征空间是从低维输入空间非线性映射得到。给定训练集合x∈X和核函数K,那么SVM决策函数可表示为
$ f\left( x \right) = \sum\limits_{i = 1}^N {{a_i}{y_i}K\left( {x, {\boldsymbol{x}_i}} \right) + b.} $ |
其中:xi、yi以及αi(αi > 0) 都是训练得到;xi是支持向量;yi是类别标记,+1代表正例,-1代表负例;K(x, y)=φ(x)φ(y) 表示核函数,φ:
选择全变量分析系统的i-vector作为输入特征向量。相比其他特征向量如传统的Gauss均值超矢量,i-vector有明显的优势:1) 由于i-vector是从载荷矩阵投影得到,载荷矩阵在训练过程中数据是平衡的,因此在投影时语音声学特征中的信道影响被抑制,具有更高的信道鲁棒性;2) 由于i-vector维度较低,得到每句话对应的i-vector时,对声学参数的数据量要求较少,因此在实际中更有应用价值。
正是由于i-vector的低维特性,也决定了其在线性空间上区分性不是很强。在基于GSV的说话人确认系统中,采用的是基于KL (Kullback-Leibler) 距离的一种核函数,可以近似认为是一种线性核,这是因为均值超矢量一般是几万维的特征,只需要选择线性核函数就具有很高的区分能力。对于2个GSV矢量xi和xj,线性核函数如下:
$ K\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}} \right) = \mathit{\boldsymbol{x}}_i^{\rm{T}}{\mathit{\boldsymbol{x}}_j}. $ |
然而,对于低维的i-vector,一般矢量的维度是400~800,考虑全世界有几十亿人,说话人空间是一个非常大的空间,简单的线性核相对而言区分能力不够。在基于i-vector的快速运算中,得分计算采用的是余弦核函数,本文也选择余弦函数作为SVM的核函数如下:
$ K\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}} \right) = \frac{{\mathit{\boldsymbol{x}}_i^{\rm{T}}{\mathit{\boldsymbol{x}}_j}}}{{\sqrt {\mathit{\boldsymbol{x}}_i^{\rm{T}}{\mathit{\boldsymbol{x}}_i}} \sqrt {\mathit{\boldsymbol{x}}_j^{\rm{T}}{\mathit{\boldsymbol{x}}_j}} }}, $ |
从而避免线性核对于低维空间区分性不强的问题。
3 得分规整及多系统融合在说话人识别系统测试过程中,由于每次测试的得分差异性很大,因此门限的稳定性非常难以确定。通过得分规整,可以达到减小同一说话人的不一致性、扩大不同说话人的不一致性的目的。更重要的是可以方便地划分门限,对于测试得分s,经过规整后,冒认者的得分分布是一个标准正态分布。
本文中采用零规整 (zero normalization, znorm) 技术将原始得分s进行规整得到snorm,
$ {s_{{\text{norm}}}} = \frac{{s - \mu }}{\sigma }. $ |
其中μ,σ是每个特定说话人由大量冒认测试得分获得的均值和标准差。
另外,有互补作用的系统通过得分融合可以有效地提高识别率。SVM是一种区分性的模型,PLDA是一种产生性的模型,这2种模型之间具有非常强的互补作用。因此,本文中将2种不同的系统得分通过线性回归的方法进行融合,从而实现更高的识别率。由于仅仅是证明SVM和PLDA之间的互补性,因此给予SVM系统和PLDA系统的得分各0.5的权重进行加权平均,并根据此得分进行最终的评测。
$ {s_{new}} = \frac{1}{2}{s_{{\text{svm}}}} + \frac{1}{2}{s_{{\text{plda}}}}. $ |
其中:ssvm表示SVM系统的得分,splda表示PLDA系统的得分,snew表示两者加权平均的得分。
4 实验配置和结果 4.1 数据库及评测方法本文采用NIST 2012年的核心测试集中的女声部分情境一和三作为实验测试集,这部分测试语音的长度从20 s到5 min不等且伴有噪声,同时对话双方的语音夹杂在一个信道中,很难进行分离,因此被认为是NIST 2012核心测试集中难度最大的一部分。这个测试集中总计有1 155个目标说话人,有2万多句话作为测试语句,去除无效的测试外,总计有231万多次测试。
UBM训练数据包含NIST 2004—2010年电话语音数据的18 000多句语音,全差异空间的训练挑选了NIST 2004—2010年的所有长度超过3 min的电话、面试 (interview) 和麦克风 (microphone) 数据。
4.2 特征参数提取本文采用的是39维的PLP参数,语音信号先去直流,预加重 (因子为0.97),经过帧宽20 ms、帧移10 ms的Hamming窗。在抽取PLP特征参数的同时,采用基于能量的活动语音检测 (voice activity detection,VAD) 算法去除静音帧。抽取0~12维PLP参数,通过一阶差分、二阶差分总计构成39维,最后特征通过短时Gauss化以提高识别率。
4.3 系统描述首先采用EM算法训练一个1 024个Gauss混合度的UBM模型,然后训练一个400维的全差异空间,对所有的语音抽取400维的i-vector。
在SVM模型训练中,对于每个特定说话人,属于这个人的所有语音作为正例,其余所有语音作为负例。在测试中,对得分采用znorm进行规整。考虑到NIST 2012以前的语音长度都是3 min以上,与NIST 2012语音的时长不匹配,因此选择2012年测试集中的所有测试语句当作冒认语句来进行znorm规整。
在PLDA模型训练中,根据经验选择200个说话人因子和5个信道因子,采用Gauss先验分布的PLDA系统即GPLDA (Gaussian probabilistic linear discriminant analysis,GPLDA)。GPLDA中说话人空间以及信道空间的训练数据的选择与SVM模型训练相同。最后通过znorm规整技术将GPLDA得分进行规整,规整的冒认语句的选择也与SVM系统的相同。
4.4 实验结果采用NIST定义的等错误率 (equal error rate,EER) 和最小检测代价函数 (minimum detection cost function,MinDCF) 来衡量系统的性能。
表 1列出了不同输入特征矢量的对比。采用i-vector作为输入特征矢量的系统性能远优于采用GSV的,这是由于语音时长不定,导致均值超矢量分布不均匀 (其中Con表示通用评测情境)。
SVM系统 | 特征矢量 | EER/% | MinDCF | |||
Con-1 | Con-3 | Con-1 | Con-3 | |||
线性核 | GSV | 11.60 | 6.38 | 0.773 | 0.605 | |
线性核 | i-vector | 5.35 | 4.20 | 0.409 | 0.411 |
表 2列出了在不同情况下SVM系统的性能对比,其中得分均没有经过规整处理。采用余弦核的支持向量机系统性能大大优于采用线性核和Gauss核的,能够取得4%左右的EER,这与目前的主流算法性能相当。本文也列出了说话人识别在SVM领域常用的NAP信道补偿算法的性能,在加入NAP算法之后,性能反而有下降,这是因为NAP要求特征向量线性可分,而低维的i-vector显然是不满足的。后面的实验结果中,只采用原始的i-vector作为特征矢量,核函数选择余弦函数。
SVM系统 | EER/% | MinDCF | |||
Con-1 | Con-3 | Con-1 | Con-3 | ||
线性核 | 5.35 | 4.20 | 0.409 | 0.411 | |
Gauss核 | 9.93 | 9.45 | 0.985 | 0.809 | |
余弦核 | 4.38 | 3.67 | 0.316 | 0.328 | |
余弦核+NAP | 5.48 | 4.69 | 0.379 | 0.378 |
表 3列出了不同规整方法对识别性能的影响,本实验对比了znorm、测试规整 (test normalization) tnorm、结合零规整和测试规整 (ztnorm) 这3种规整方法,可以看出,znorm相对最稳定,尤其表现在MinDCF上。
规整方法 | EER/% | MinDCF | |||
Con-1 | Con-3 | Con-1 | Con-3 | ||
znorm | 4.41 | 3.60 | 0.334 | 0.259 | |
tnorm | 4.14 | 3.97 | 0.715 | 0.753 | |
ztnorm | 4.47 | 3.73 | 0.776 | 0.695 |
表 4是GPLDA系统与SVM系统在得分域进行融合后的实验结果,可以看出,融合之后取得了接近3%的EER,而且minDCF相对最好的单系统分别下降了25.1%和25.2%。
系统 | EER/% | MinDCF | |||
Con-1 | Con-3 | Con-1 | Con-3 | ||
SVM | 4.41 | 3.60 | 0.334 | 0.259 | |
GPLDA | 3.44 | 3.05 | 0.358 | 0.246 | |
SVM+GPLDA | 3.14 | 3.02 | 0.250 | 0.184 |
5 结论
本文采用低维的i-vector描述说话人的信息,与GSV矢量或者JFA说话人因子不同,不需要通过NAP等算法进行信道补偿,既减少了运算量,也提升了系统的稳定性。这很可能是在全变量空间训练过程中,由于数据信道的多样性,通过EM迭代过程把语音中的信道影响中和了,这在PLDA的实验中也得到了验证,本文的PLDA中信道因子为5时性能最好。本文提出的系统的性能要优于目前的主流说话人识别系统的。
[1] | Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1): 19–41. |
[2] | Kenny P, Boulianne G, Ouellet P, et al. Joint factor analysis versus eigenchannels in speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1435–1447. DOI:10.1109/TASL.2006.881693 |
[3] | Dehak N, Kenny P J, Dehak R, et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 788–798. DOI:10.1109/TASL.2010.2064307 |
[4] | Prince S J D, Elder J H. Probabilistic linear discriminant analysis for inferences about identity[C]//2007 IEEE 11th International Conference on Computer Vision. Rio de Janeiro, Brazil:IEEE Press, 2007:1-8. |
[5] | Burget L, Plchot O, Cumani S, et al. Discriminatively trained probabilistic linear discriminant analysis for speaker verification[C]//2011 IEEE international conference on acoustics, speech and signal processing (ICASSP). Prague, Czech Republic:IEEE Press, 2011:4832-4835. |
[6] | Jiang Y, Kong A L, Wang L. PLDA in the i-supervector space for text-independent speaker verification[J]. Eurasip Journal on Audio Speech and Music Processing, 2014, 2014(1): 1–13. DOI:10.1186/1687-4722-2014-1 |
[7] | Kenny P, Stafylakis T, Ouellet P, et al. PLDA for speaker verification with utterances of arbitrary duration[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Brisbane, Australia:IEEE Press, 2013:7649-7653. |
[8] | Li N, Mak M W. SNR-invariant PLDA modeling in nonparametric subspace for robust speaker verification[J]. IEEE/ACM Transactions on Audio Speech and Language Processing, 2015, 23(10): 1648–1659. DOI:10.1109/TASLP.2015.2442757 |
[9] | Bourouba H, Korba C A, Djemili R. Novel approach in speaker identification using SVM and GMM[J]. Control Engineering & Applied Informatics, 2013, 15(3): 87–95. |
[10] | Ding I J, Yen C T, Ou D C. A method to integrate GMM, SVM and DTW for speaker recognition[J]. International Journal of Engineering and Technology Innovation, 2014, 4(1): 38–47. |
[11] | Campbell W M, Sturim D E, Reynolds D A, et al. SVM based speaker verification using a GMM supervector kernel and NAP variability compensation[C]//2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings. Brisbane, Australia:IEEE Press, 2006, 1:Ⅰ-Ⅰ. |
[12] | Solomonoff A, Quillen C, Campbell W M. Channel compensation for SVM speaker recognition[C]//ICASSP 2005, Acoustics, Speech, and Signal Processing Proceedings. Philadelphia, PA, USA:IEEE Press, 2010:629-632. |