应用于短时语音语种识别的时长扩展方法
苗晓晓 1,2 , 张健 1,2 , 索宏彬 1,2 , 周若华 1,2 , 颜永红 1,2,3     
1. 中国科学院 声学研究所, 语言声学与内容理解重点实验室, 北京 100190;
2. 中国科学院大学, 北京 100190;
3. 中国科学院 新疆理化技术研究所, 新疆民族语音语言信息处理实验室, 新疆 830011
摘要:为解决待识别语音时长小于10 s时,语种识别性能急剧下降的问题,该文提出应用语音时域伸缩(time-scale modification,TSM)技术改变语音的长度(从而改变了语速),并保持其他频域信息不变。首先,对一段待识别语音,应用TSM技术转换为多条时域压缩和时域拉伸后的语音;其次,将这些不同语速的语音与原语音拼接起来,生成一个时长较长的语音;最后,送入语种识别系统进行识别。实验结果表明:所提出的语音时长扩展算法可以显著提升短时语音的语种识别性能。
关键词语种识别    短时    时域伸缩    语速    
Expanding the length of short utterances for short-duration language recognition
MIAO Xiaoxiao1,2, ZHANG Jian1,2, SUO Hongbin1,2, ZHOU Ruohua1,2, YAN Yonghong1,2,3     
1. Key Laboratory of Speech Acoustics and Content Understanding, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China;
2. University of Chinese Academy of Sciences, Beijing 100190, China;
3. Xinjiang Laboratory of Minority Speech and Language Information Processing, Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Xinjiang 830011, China
Abstract: The language recognition (LR) accuracy is often significantly reduced when the test utterance duration is as short as 10 s or less. This paper describes a method to extend the utterance length using time-scale modification (TSM) which changes the speech rate without changing the spectral information. The algorithm first converts an utterance to several time-stretched or time-compressed versions using TSM. These modified versions with different speech rates are concatenated together with the original one to form a long-duration signal, which is subsequently fed into the LR system. Tests demonstrate that this duration modification method dramatically improves the performance for short utterances.
Key words: language recognition     short-duration     time-scale modification     speech rate    

语种识别是指计算机自动判定一段语音所属的语言种类的技术。该技术主要用在多语言语音处理系统的前端,使用计算机对语音进行自动分类,然后再送到相应语种的子系统处理[1]。主流的语种识别系统主要有Gauss混合模型-全局背景模型(Gaussian mixture model-universal background model,GMM-UBM)[2]、总变化量因子分析(total variability factor analysis,TV)[3]和Gauss超向量-支持向量机(GMM super vector-support vector machines,GSV-SVM)[4]等。近几年,深度神经网络模型(deep nerural networks,DNN)[5]在语种识别任务上得到迅速应用:一方面从特征层面,利用其强大的特征抽取能力,提取深度瓶颈特征(deep bottleneck feature,DBF)[6];另一方面从模型域出发, 提出了基于DNN的TV建模策略[7]。此外,2014年Google的研究人员将特征提取、特征变换和分类器融于一个神经网络模型中,提出了端到端的语种识别系统[8]。2016年基于注意力信号机制被引入到语种识别系统中[9]

目前为解决短时语音语种识别性能急剧下降的问题,常用深度神经网络模型,这种方法虽然能提升性能,但是提高了系统复杂度,增加了资源消耗。本文提出应用变声技术来处理待识别语音,从一条语音生成多条不同发音的语音,再将这些语音拼接起来,以丰富特征中提取的语种信息,避免了上述问题,最终提高短时语音语种识别系统的性能。

1 语音时域伸缩技术

语音时域伸缩技术主要改变了语音的时长,从而改变了语速,本节分析了语速对语音处理系统的影响,介绍了语音变速算法频谱图实时迭代反变换(real-time iterative spectrogram inversion,RTISI)的理论基础及其实现方式。

1.1 语速对语音处理系统的影响

语速通常指发音速度。在连续语音识别中,待识别语音的语速偏离正常语速过大往往会造成识别错误,影响了识别性能[10-12]。在说话人识别中,注册语音和测试语音语速的差异也会降低识别系统的识别性能[13]。总之,语速是语音信号中的重要组成部分[14-15],在声学层特征中会不可避免的被提取。在语音识别和说话人识别系统中,语速的差异是有害的,需要被抑制或消除。然而在本文的研究中会证明,语速在语种识别任务中可以被有效的利用起来,进而提升语种识别系统性能。

1.2 RTISI语音变速算法

TSM的主要功能为改变语音的语速,而保持其他特性,如基频、谐波结构等不变。近年来,已有大量的TSM算法被提出[16-19]。本文采用RTISI算法[20-21], 如图 1所示,分为3步。

图 1 RTISI算法图示

1) 将语音以帧长L、帧移Sa加窗分帧进行分解,并利用短时Fourier变换,将每帧信号变换到频域。设输入信号为x,则有:

$ \mathit{X}\left( {\mathit{\lambda }{\rm{, }}\mathit{k}} \right){\rm{ = }}\sum\limits_{\mathit{n} = 0}^{\mathit{N}{\rm{ - 1}}} {\mathit{x}{\rm{(}}\mathit{\lambda }{\mathit{S}_{\rm{a}}}{\rm{ + }}\mathit{n}{\rm{)}}\mathit{h}\left( \mathit{n} \right){{\rm{e}}^{{\rm{ - j(2 \mathit{ π} /}}\mathit{N}{\rm{)}}\mathit{kn}}}} {\rm{.}} $ (1)

其中:h为窗函数,λ为帧的序列号,k表示频率。

2) 计算每帧信号时频域的幅度(short-time Fourier transform magnitude,STFTM)|X(λ, k)|:

$ \left| {\mathit{X}\left( {\mathit{\lambda }{\rm{, }}\mathit{k}} \right)} \right|{\rm{ = }}\sum\limits_{\mathit{n} = 0}^{\mathit{N}{\rm{ - 1}}} {\mathit{x}{\rm{(}}\mathit{\lambda }{\mathit{S}_{\rm{a}}}{\rm{ + }}\mathit{n}{\rm{)}}\mathit{h}\left( \mathit{n} \right){{\rm{e}}^{{\rm{ - j(2 \mathit{ π} /}}\mathit{N}{\rm{)}}\mathit{kn}}}} {\rm{.}} $ (2)

3) 以帧长L、帧移Ss将时频域信号|X(λ, k)|用叠接相加的方法反变换回时域。

在RTISI算法中,帧长L在分解和合成步骤中是相等的,在实验中取为L=20 ms。RTISI算法的核心为帧移在分解和合成的时候是不相等的,因此本文将合成时候的帧移Ss固定。如果分解帧移Sa小于合成帧移Ss,则合成后的语音语速比原语音慢,语音时长也比原语音长;如果分解帧移Sa大于合成帧移Ss,则合成后的语音语速比原语音快,语音时长也比原语音短。

图 1可以看出,分解帧移Sa的取值不能是任意的,需要满足0<SaL,如果SaL则相邻的两帧之间没有重叠部分了。RTISI算法中每一帧的合成只会用到以前的信号(与当前帧重叠部分的相位信息),而不需要后面的信号,这就保证了该算法在结构上是实时的,且较为容易实现。

根据分解和合成时候的帧移,可以定义语速变化率α

$ \mathit{\alpha }{\rm{ = }}\frac{{{\mathit{S}_{\rm{a}}}}}{{{\mathit{S}_{\rm{s}}}}}{\rm{.}} $ (3)

经过TSM变换后语音$ \mathit{\tilde x}$的时长与原语音x时长的关系为

$ {\rm{length}}\left( {\mathit{\tilde x}} \right){\rm{ = }}\frac{{{\rm{length}}\left( \mathit{x} \right)}}{\mathit{\alpha }}. $ (4)

图 2为一条语音应用RTISI算法实现TSM的例子。原始语音波形图如图 2a所示,其时长为2.67 s。图 2b为时域拉伸后语音波形图,其中分解帧移Sa=8 ms,合成帧移Ss=10 ms,α=0.8,拉伸后语音的时长为3.34 s。图 2c为时域压缩后的波形图,分解帧移Sa=12 ms,合成帧移Ss=10 ms,α=1.2,时域压缩后语音的时长为2.23 s。3条语音的频谱图如图 3所示。从图中横轴对应的时间可以看出,3条语音的时长不同,但将它们的频谱图忽略时长差异并对齐后发现,同一条语音经过时域伸缩变化后,其对应的频域并没有太多改变,这对保持语音不失真非常重要。

图 2 RTISI算法处理示例语音波形图

图 3 RTISI算法处理示例语音频谱图

2 短时语音时长扩展

待识别语音时长过短,是说话人识别和语种识别等研究领域共同的难题。Sarkar等[22]研究i-vector技术在短时情况下的说话人识别,提出了用不同长度的语音来训练多个模型,综合多个模型的得分来提高性能。Wang等[23]提出首先为短时语音建立一个样本空间,该空间中的样本通过对不同语音长度的i-vector聚类得到。识别阶段将短时语音与样本空间中的所有样本作比较,再将这些比较的信息,如余弦相似度作为特征送入后端识别。Cumani等[24]应用了说话人中常用的概率线性判别分析(probabilistic linear discriminant analysis,PLDA)技术来提升i-vector在语种识别中的应用。Lozano-Diez等[25]提出使用卷积神经网络(convolutional neural networks,CNN)来建模。

现有的针对短时语音语种识别的研究有2个问题:1)为了处理短时语音,极大地提高了系统的复杂性,增大了资源消耗;2)对系统的修改都是在模型部分,这就导致长时语音也必须经过同样复杂的处理。实际上有些系统在偏向处理短时语音的时候,长时语音的识别性能反而会下降。

为此,本文提出应用TSM技术来直接扩展待识别语音的时长,丰富原始语音的语种信息,并充分利用语种识别任务的特点,以解决短时语音的语种识别问题。对每一条待识别语音,在生成不同语速的多段语音后,将它们与原始的语音拼接起来,组成一条更长的语音。设原始语音信号为x,经TSM算法处理后的输出语音为$\mathit{\tilde x}$,共生成n条不同语速的语音,则拼接后的语音y

$ \mathit{y}{\rm{ = [}}\mathit{x}\;\;{{\mathit{\tilde x}}_{\rm{1}}}\;\;{{\mathit{\tilde x}}_{\rm{2}}}\;\; \cdots \;\;{{\mathit{\tilde x}}_\mathit{n}}{\rm{]}}{\rm{。}} $ (5)

通过将不同语速的语音拼接在一起,不仅丰富了语种信息,又减轻了说话人的影响。本文所提出的时长扩展方法,只处理待识别语音,并不修改训练集中的语音,因此模型也不需要改动。而且,可以对输入语音做时长判断,只有在语音时长过短的情况下才应用该算法,这保证了系统几乎不会增加更多的负担,对实用的声学层系统非常重要。

本文所提出的语音时长扩展算法,主要应用于语种识别任务,有3个重要的因素保证了TSM算法在该应用上的有效性。

1) TSM算法的语音失真较低。适当改变语速不会引入太多的失真,合成后的语音仍然比较自然,但与原始的语音由于语速的差异而不同,但又属于同一语种,因此提供的补充性语种信息是可靠的。实际上,RTISI算法还可以实现基频变换(pitch modification,PM)而保持语音时长不变,但频率信息的改变对语音的音质影响很大,无法用到语种识别中。

2) 语种识别任务的训练数据充足。相比于说话人识别中收集每个用户的语音,语种识别任务收集同一个语种的语音数据容易得多。每个语种的训练数据通常较为充足,因此,可以认为包含了各种语速的语音数据,即不同语速的测试语音都可以在训练语音中找到匹配项。

3) 语种识别中的特征时长较长。语言信息不但存在于语音信号的频域,也同时存在于时域。由于目前语种识别特征的局限性,一个特征向量只能获得有限的、部分的语种信息。语种识别系统最常用的特征为滑动差分倒谱(shifted delta cepstrum,SDC)[26]。典型的一个SDC特征向量包含了约220 ms语音信息,不同语速下一个特征向量所含有的语种信息大为不同。通过将不同语速的特征向量拼接起来,就可以提取同样内容的语音在不同观察角度(语速)下的语种信息,而拼接就是将这些有差异的部分信息综合起来分析。

3 实验 3.1 实验设置

测试集:实验采用美国国家标准技术局(National Institute of Standards and Technology,NIST)在2007年闭集条件下的语种识别评测(language recognition evaluation,LRE)数据集[27]。这个测试集包含14个语种:阿拉伯语、孟加拉语、英语、波斯语、俄语、德语、印地语、日语、韩语、中文、西班牙语、泰米尔语、泰国语和越南语。其中中文包括普通话、闽南语、吴方言和粤语,英语包括美国英语和印度英语,印地语包括北印度语和乌尔都语。测试数据按照时长分为30、10和3 s,每种包括2 158条14个语种的语音。

训练集:训练语料主要使用CallFriend数据库[20]。该数据库包含12个语种:阿拉伯语、英语、波斯语、法语、德语、印地语、日语、韩语、中文普通话、西班牙语、泰米尔语和越南语。NIST07的测试数据还有几个CallFriend数据库不包含的语种、方言,因此,训练数据在CallFriend数据库的基础上添加了NIST为该测试提供补充训练数据:孟加拉语、俄语、泰国语、闽南语、吴方言、粤语、阿拉伯语和乌尔都语[28]

语种识别的测试标准主要采用NIST经典的2个测试标准:等错误率(equal error rate,EER)和最小检测代价(minimum detection cost function,minDCF)评价。这2个指标反映了系统识别所有测试集中所有目标语种可以达到的最优性能,它们的值都是越小越好。

语种识别系统使用基于SDC特征的GSV-SVM系统。在这个系统中,首先从每个语种的训练数据中随机挑选若干语句,训练一个语种无关的全局背景模型(universal background model,UBM)。应用最大后验概率估计得到每条语句的GSV,再以一对一与一对多融合的方式训练SVM模型[29]。最后以线性判别分析(linear discriminant analysis,LDA)后接单Gauss建模的方法作为分数端的处理。这个分数端处理方法首先将得分向量进行LDA变换,再用共用协方差矩阵的单Gauss对每个语种的得分向量建模,最后输出判决结果。

3.2 实验结果

为了验证本文所提算法的有效性,下面以语速作为唯一变量进行多个实验。首先计算经过TSM变换后语音的语种识别性能。合成帧移Ss固定为10 ms,分解帧移Sa取6~14 ms,间隔为1 ms,所对应的语速变化率α为0.6~1.4。当α为1时,语速并不会改变,其性能将作为本实验中的基线。不同语速语音的语种识别性能结果如表 1所示,表中列出了不同时长测试语音的评价指标minDCF和EER的值随语速变化率α的变化而变化的情况。具体为语速变化率α为0.8、0.9和1.1时,其性能与原语音相当。但如果语速改变太大,如α为0.6和1.4的情况,则性能下降较为严重。这是由于语速过快或者过慢,会造成失真, 而训练数据集中也没有类似语速语音,导致了训练集与测试数据的失配。

表 1 原语音和经过TSM变换后语音的识别性能对比(%)
语速变化率α 30 s 10 s 3 s
minDCF EER minDCF EER minDCF EER
0.6 16.00 14.50 24.88 22.47 35.70 31.88
0.7 8.88 8.06 18.50 16.54 32.99 29.11
0.8 5.67 5.43 14.69 13.29 30.54 26.60
0.9 4.48 4.59 12.66 11.31 29.43 25.39
1 4.45 4.77 12.54 11.26 29.82 25.31
1.1 4.86 5.20 13.82 12.42 30.76 26.18
1.2 6.01 6.35 16.30 14.74 32.53 27.71
1.3 8.38 8.11 19.70 17.66 34.82 29.80
1.4 11.34 10.66 24.08 21.36 37.73 31.84

表 2是将TSM变换后的语音与原语音进行拼接后的性能结果。从表中可以看出与原语音进行拼接之后,性能有了明显的提升。其中α为0.9和0.8时,性能提升最明显。

表 2 原语音和经过TSM变换后语音拼接的识别性能(%)
语速变化率α 30 s 10 s 3 s
minDCF EER minDCF EER minDCF EER
0.6 5.51 5.42 12.72 11.96 27.34 24.69
0.7 4.54 4.67 11.12 10.61 25.85 23.31
0.8 3.96 4.26 10.98 10.33 25.84 23.08
0.9 3.99 4.49 10.95 10.10 26.84 23.69
1 4.31 4.87 11.46 10.57 27.24 23.96
1.1 4.37 4.96 11.47 10.65 27.18 23.96
1.2 4.38 5.00 11.43 10.67 27.11 23.73
1.3 4.49 5.29 12.19 11.44 27.22 24.05
1.4 4.82 5.29 12.64 11.77 28.06 24.61

表 3可以看出,经过再一次拼接之后,性能又有了显著提升。而且,性能最好的是α为0.7与1.3和0.8与1.2的组合,并非0.9与1.1。这说明性能的提升源自不同语速的语种信息的互补性,而不是几条语音简单的性能融合。接着拼接更多的语音,结果如表 4表 5所示。对10 s测试集来说,最好的拼接方式是α为0.7~1.3,而对3 s测试集来说,最好的拼接方式是α为0.6~1.4,但性能差得不多。拼接更多就意味着更多的计算耗时,所以选择以α为0.7~1.3作为最终的拼接方式。可以看出,以不同语速拼接的方式取得了显著的性能提升。尽管自身拼接也能提升性能,但是远低于不同语速的影响。尤其对于30 s语音来说,自身拼接并没有取得太多性能提升,而不同语速的作用仍然显著。

表 3 拼接一条慢速语音和一条快速语音的性能(%)
语速变化率α 30 s 10 s 3 s
minDCF EER minDCF EER minDCF EER
0.6, 1.4 4.69 4.76 11.34 10.60 25.83 23.54
0.7, 1.3 3.89 4.26 10.03 9.73 24.14 22.02
0.8, 1.2 3.70 4.12 9.63 9.41 24.12 21.83
0.9, 1.1 3.97 4.59 10.37 9.92 25.12 22.75
1, 1 4.27 4.91 11.23 10.60 26.24 23.49

表 4 拼接4条不同语速语音的性能(%)
语速变化率α 30 s 10 s 3 s
minDCF EER minDCF EER minDCF EER
0.6, 0.8, 1.2, 1.4 3.88 4.35 9.83 9.59 23.41 21.91
0.7, 0.8, 1.2, 1.3 3.61 4.21 9.56 9.64 23.07 21.50
0.8, 0.9, 1.1, 1.2 3.78 4.36 9.66 9.54 23.50 21.92
1×4 4.27 4.91 10.92 10.52 25.37 23.17

表 5 拼接6条和8条不同语速语音的性能(%)
语速变化率α 30 s 10 s 3 s
minDCF EER minDCF EER minDCF EER
0.6, 0.7, 0.8, 1.2, 1.3, 1.4 3.96 4.39 10.10 10.05 23.18 31.83
0.7~1.3 3.57 4.26 9.41 9.58 22.37 21.18
0.6~1.4 3.69 4.22 9.54 9.68 22.34 21.22
1×6 4.21 4.87 10.90 10.56 24.75 22.89
1×8 4.17 4.87 10.87 10.57 24.68 22.76

4 结论

现今多数系统在测试语音时长较短时,性能会大打折扣,严重制约了语种识别技术在实际中的应用。本文提出通过应用语音时域伸缩技术来解决这个问题。

首先,每一条待识别语音通过TSM变换,生成时域拉伸和时域压缩后的多条语音。然后,将这些不同语速的语音与原始的语音进行拼接,得到一条时长较长的语音。其中,时域伸缩变换后的语音并不需要最终合成出来,而是在中间阶段就提取特征,进一步避免了语音的失真。实验证明将多条语速不同的语音进行拼接,可以提供更多的语种信息,减轻说话人的影响,并有效提高短时语音的语种识别性能。

参考文献
[1] LI H, MA B, LEE K. Spoken language recognition:From fundamentals to practice[J]. Proceedings of the IEEE, 2013, 101(5): 1136–1159. DOI:10.1109/JPROC.2012.2237151
[2] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Process, 2000, 10(1-3): 19–23.
[3] DEHAK N, TORRES-CARRASQUILLO P A, REYNOLDS D A, et al. Language recognition via i-vectors and dimensionality reduction[C]//Proceedings of the 12th Annual Conference of the International Speech Communication Association. Florence, Italy: International Speech and Communication Association, 2011: 857-860.
[4] CAMPBELL W M, STURIM D E, REYNOLDS D A. Support vector machines using GMM supervectors for speakers verification[J]. IEEE Signal Process Letters, 2006, 13(5): 308–311. DOI:10.1109/LSP.2006.870086
[5] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. DOI:10.1126/science.1127647
[6] YU D, SELTZER M L. Improved bottleneck features using pretrained deep neural networks[C]//Proceedings of the 12th Annual Conference of the International Speech Communication Association. Florence, Italy: International Speech and Communication Association, 2011: 237-240.
[7] LEI Y, SCHEFFER N, FERRER L, et al. A novel scheme for speaker recognition using a phonetically-aware deep neural network[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Florence, Italy: IEEE, 2014: 1695-1699.
[8] LOPEZ-MORENO I, GONZALEZ-DOMINGUEZ J, PLCHOT O, et al. Automatic language identification using deep neural networks[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Florence, Italy: IEEE, 2014: 5337-5341.
[9] GENG W, WANG W, ZHAO Y, et al. End-to-end language identification using attention-based recurrent neural networks[C]//Proceedings of the 17th Annual Conference of the International Speech Communication Association. San Francisco, CA, USA: International Speech and Communication Association, 2016: 2944-2948.
[10] YUAN J, LIBERMAN M, CIERI C. Towards an integrated understanding of speaking rate in conversation[C]//Proceedings of the 9th International Conference on Spoken Language Processing. Pittsburgh, Pennsylvania: International Speech Communication Association, 2006: 541-544.
[11] GOLDWATER S, JURAFSKY D, MANNING C D. Which words are hard to recognize? prosodic, lexical, and disfluency factors that increase speech recognition error rates[J]. Speech Communication, 2010, 52(3): 181–200.
[12] 王作英, 李健. 汉语连续语音识别的语速自适应算法[J]. 声学学报, 2003, 28(3): 229–234.
WANG Z Y, LI J. Speech rate adaptive algorithm for Chinese contin uous speech recognition[J]. Journal of Acoustics, 2003, 28(3): 229–234. (in Chinese)
[13] HEERDEN C J, BARNARD E. Speech rate normalization used to improve speaker verification[J]. SAIEE Africa Research Journal, 2006, 98(4): 129–135.
[14] WANG D, NARAYANAN S S. Robust speech rate estimation for spontaneous speech[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(8): 2190–2201. DOI:10.1109/TASL.2007.905178
[15] NEJIME Y, ARITSUKA T, IMAMURA T, et al. A portable digital speech-rate converter for hearing impairment[J]. IEEE Transactions on Rehabilitation Engineering, 1996, 4(2): 73–83. DOI:10.1109/86.506404
[16] CHAMI M, IMMASSI M, MARTINO J D. An architectural comparison of signal reconstruction algorithms from short-time Fourier transform magnitude spectra[J]. International Journal of Speech Technology, 2015, 18(3): 433–441. DOI:10.1007/s10772-015-9281-9
[17] CHAMI M, MARTINO J D, PIERRON L, et al. Real-time signal reconstruction from short-time Fourier transform magnitude spectra using FPGAs[C]//Proceedings of the 5th International Conference on Information Systems and Economic Intelligence. Djerba, Tunisia, 2012.
[18] DORRAN D, LAWLOR R, COYLE E. High quality time-scale modification of speech using a peak alignment overlap-add algorithm (PAOLA)[C]//IEEE International Conference on Acoustics, Speech, and Signal Processing. Hong Kong, China: IEEE, 2003: 700-703
[19] DRIEDGER J, MULLER M, EWERT S. Improving time-scale modification of music signals using harmonic-percussive separation[J]. IEEE Signal Processing Letters, 2014, 21(1): 105–109. DOI:10.1109/LSP.2013.2294023
[20] BEAUREGARD G T, ZHU X, WYSE L. An efficient algorithm for real-time spectrogram inversion[C]//Proceedings of the 8th International Conference on Digital Audio Effects. Madrid, Spain: Universidad Politecnica de Madrid, 2005: 116-121.
[21] ZHU X, BEAUREGARD G T, WYSE L L. Real-time signal estimation from modified short-time Fourier transform magnitude spectra[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(5): 1645–1653. DOI:10.1109/TASL.2007.899236
[22] SARKAR A K, MATROUF D, BOUSQUET P, et al. Study of the effect of i-vector modeling on short and mismatch utterance duration for speaker verification[C]//Proceedings of the 13th Annual Conference of the International Speech Communication Association. Portland, OR, USA: International Speech and Communication Association, 2012: 2661-2664.
[23] WANG M G, SONG Y, JIANG B, et al. Exemplar based language recognition method for short-duration speech segments[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada: IEEE, 2013: 7354-7358.
[24] CUMANI S, PLCHOT O, F'ER R. Exploiting i-vector posterior covariances for short-duration language recognition[C]//Proceedings of the 16th Annual Conference of the International Speech Communication Association. Dresden, Germany: International Speech and Communication Association, 2015: 1002-1006.
[25] LOZANO-DIEZ A, ZAZO-CANDⅡ R, GONZALEZ-DOMINGUEZ J, et al. An end-to-end approach to language identification in short utterances using convolutional neural networks[C]//Proceedings of the 16th Annual Conference of the International Speech Communication Association. Dresden, Germany: International Speech and Communication Association, 2015: 403-407.
[26] TORRES-CARRASQUILLO P A, SINGER E, KOHLERR M A, et al. Approaches to language identification using Gaussian mixture models and shifted delta cepstral features[C]//Proceedings of the 7th International Conference on Spoken Language Processing. Denver, Colorado, USA: International Speech Communication Association, 2002: 89-92.
[27] CallFriend Corpus. Linguistic data consortium[S]. (1996) http://www.ldc.upenn/ldc/about/callfriend.html.
[28] MARTIN A F, LE A N. NIST 2007 language recognition evaluation[C]//Odyssey 2008: The Speaker and Language Recognition Workshop. Stellenbosch, South Africa: IEEE, 2008: 16.
[29] 王宪亮, 吴志刚, 杨金超, 等. 基于SVM一对一分类的语种识别方法[J]. 清华大学学报(自然科学版), 2013, 53(6): 808–812.
WANG X L, WU Z G, YANG J C, et al. A language recognition method based on SVM one to one classification[J]. Journal of Tsinghua University (Science and Technology), 2013, 53(6): 808–812. (in Chinese)