应用于语种识别的加权音素对数似然比特征

引用本文

张健, 徐杰, 包秀国, 周若华, 颜永红. 应用于语种识别的加权音素对数似然比特征[J]. 清华大学学报(自然科学版), 2017, 57(10): 1038-1041, 1047. 复制到剪切板

ZHANG Jian, XU Jie, BAO Xiuguo, ZHOU Ruohua, YAN Yonghong. Weighted phone log-likelihood ratio feature for spoken language recognition[J]. Journal of Tsinghua University (Science and Technology), 2017, 57(10): 1038-1041, 1047. 复制到剪切板

应用于语种识别的加权音素对数似然比特征

张健 ¹ , 徐杰 ² , 包秀国 ² , 周若华 ¹ , 颜永红 ¹

1. 中国科学院声学研究所, 北京 100190;
2. 国家计算机网络应急技术处理协调中心, 北京 100029

收稿日期：2016-06-22

基金项目：国家自然科学基金资助项目（11461141004，91120001，61271426）；国家"八六三"高技术项目（2012AA012503）；中国科学院战略性先导科技专项（XDA06030100，XDA06030500）；中科院重点部署项目（KGZD-EW-103-2）

作者简介：张健(1988-), 男, 博士研究生

通信作者：周若华, 研究员, E-mail:zhouruohua@hccl.ioa.ac.cn

摘要：语种识别的关键问题之一是提取语音信号中的语种鉴别性信息。近期，音素对数似然比（phone log-likelihood ratio，PLLR）的新特征被引入语种识别领域，并表现出了优异的性能。该文利用F比方法分析了PLLR特征向量各维的语种鉴别性大小，提出了加权音素对数似然比（weighted PLLR，WPLLR）特征，赋予PLLR特征中含有较多语种鉴别性信息的分量较高的权重。在美国国家标准技术署（National Institute of Standards and Technology，NIST）2007年语种识别测试集上的实验结果表明：相比于原PLLR特征，该文所提出的WPLLR特征在平均检测代价和等错率2个指标上都显著降低。

关键词：语音信号处理语种识别语种鉴别性加权音素对数似然比(WPLLR) F比

Weighted phone log-likelihood ratio feature for spoken language recognition

ZHANG Jian¹, XU Jie², BAO Xiuguo², ZHOU Ruohua¹, YAN Yonghong¹

1. Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China;
2. National Computer Network Emergency Response Technical Team Coordination Center of China, Beijing 100029, China

Abstract: The extraction of linguistic discriminative features is one of the fundamental issues in spoken language recognition (SLR). The frame level phone log-likelihood ratio (PLLR) has been recently introduced to improve language recognition. In this paper, the F-ratio analysis method is used to analyze the contributions of different SLR feature vector dimensions. Then, a weighted phone log-likelihood ratio (WPLLR) feature is used to more heavily weight those dimensions with high F-ratio values. Tests on the National Institute of Standards and Technology (NIST) 2007 dataset for SLR show the effectiveness of this feature, with significant relative improvements in the average cost performance and equal error rate compared with the PLLR feature.

Key words: speech signal processing spoken language recognition linguistic discrimination weighted phone log-likelihood ratio (WPLLR) F-ratio

语种识别是指计算机自动判定或确认一段语音所属的语言种类的技术，该技术可使大规模跨语言语音识别应用成为可能，可用于口语语言翻译、口语文件检索等，同时也是国家安全领域信息提取的研究重点。语种识别的关键问题之一是提取可以表征同一语言中语音的共性、不同语言间语音的差异的特征。认知学的实验表明：语种信息可以由不同层次的特征反映出来，包括声学层特征、音素层特征、韵律特征、词法特征和句法特征^[1]。其中，声学层和音素层特征是最常用的语种识别特征。

声学层特征主要表征了不同语言的语音信号时频分布的差异，通常直接从语音信号分帧变换提取。常用的有美尔倒谱系数(mel-frequency cepstral coefficient，MFCC)及其衍生特征MSDC(MFCC-shifted delta cepstrum)^[2]等。对声学层特征建模的方法有很多，常用的有Gauss混合模型-全局背景模型(Gaussian mixture model-universal background model，GMM-UBM)^[3]、总变化量因子分析(total variability factor analysis)^[4]和Gauss超向量-支持向量机(GMM super vector-support vector machines，GSV-SVM)^[5]等。音素层特征主要以各语言间的音素不完全相同、各音素出现频率有差异以及各音素前后关系的不同作为识别依据，通常用音素识别器将语音信号解码为音素串或者音素网格，再以N元文法^[6]或者向量空间模型^[7]建模。

最近，一个名为音素对数似然比(phone log-likelihood ratio，PLLR)的新特征在语种识别领域取得了优秀的成果^[8]。该特征首先利用音素识别器将输入语音识别为帧级的音素后验概率向量，但并不解码出音素串或者音素网格，而是将这些音素后验概率向量进行一系列变换处理，得到如同声学层特征一样的帧级形式。该特征既拥有高于声学层(音素层)的语种鉴别性信息，又可以使用声学层丰富的建模方法，大量实验证明该特征是目前最有效的语种识别特征之一。但是，PLLR特征没有考虑语种的鉴别性信息在特征向量各维的分布是不均匀的，即有些分量含有较多的语种鉴别性信息，而有些分量含有的语种鉴别性信息较少。

为了进一步提高PLLR特征的语种鉴别性，本文利用F比分析方法来估计PLLR特征向量各维的语种鉴别性大小。F比方法通常用在分类任务中，通过计算某一维特征在各类中的分布情况，分析该维特征对分类的贡献^[9]。基于F比分析结果，本文提出了一个PLLR的扩展特征，即加权音素对数似然比(weighted phone log-likelihood ratio, WPLLR)特征，根据PLLR特征向量各维的语种鉴别性大小，赋予其不同的权重：对含有较多语种鉴别性信息的分量赋予较高的权重，对含有语种鉴别性信息较少的分量赋予较小的权重。

为了检验本文所提出的WPLLR特征的有效性，使用美国国家标准技术署(National Institute of Standards and Technology，NIST)2007年语种识别评测中30 s的测试数据^[10]，应用Brno科技大学(Brno University of Technology, BUT)开发的3个音素识别器^[11]，在GSV-SVM系统上比较了PLLR特征与WPLLR特征的性能。实验结果显示，无论在单个音素识别器情况下，还是在3个音素识别器结果融合的情况下，WPLLR特征的性能都明显优于PLLR特征。

1 WPLLR特征提取方法

本文提出的WPLLR特征的提取流程共分为5个步骤，如图 1所示。

图 1 WPLLR特征提取流程图

图选项

步骤1 使用语音端点检测(voice activity detector，VAD)技术去除输入音频信号中的非语音段。

步骤2 通过音素识别器将语音信号识别为帧级的音素后验概率向量。设每一帧识别为一个k维的音素后验概率向量[p(1), p(2)，…，p(k)]，其中p(k)∈[0,1]，且满足

$ \sum\limits_{k = 1}^K {p\left( k \right) = 1.} $

(1)

步骤3 对每一帧的音素后验概率向量进行规整，即计算每个音素后验概率的对数似然比，得到最基本的PLLR特征向量。以l(k)表示如下：

$ l\left( k \right) = \log \left( {\frac{{p\left( k \right)}}{{1-p\left( k \right)}}} \right). $

(2)

经过规整处理后，特征向量每一维的分布近似Gauss分布，更适合于建模^[8]。

步骤4 根据PLLR特征向量不同维所包含的语种鉴别性信息的多少，赋予其相应权重。设加权后的特征表示为r(k),

$ r\left( k \right) = w\left( k \right)l\left( k \right). $

(3)

其中w(k)是特征向量第k维的权重。加权是WPLLR特征提取的关键，原PLLR特征可以看作在所有维的权重都为1。其中权重的计算将在下一节中详细介绍。

步骤5 应用主成分分析(principal component analysis，PCA)方法降低特征向量各维间的相关性及其维数。PCA降维不但可以节省识别系统的时间、空间消耗，同时还可以提升系统的性能^[12], 成为PLLR特征必不可少的后处理，在WPLLR特征提取中也同样得到了应用。

2 基于F比的权重计算

特征向量各维的权重与其对语种鉴别性的贡献大小相对应。具体来讲，对拥有语种鉴别性信息较多的分量赋予较高权重，对拥有语种鉴别性信息较少的分量赋予较低权重。

为了分析PLLR特征向量各维对语种鉴别性的贡献, 用F比方法来分析特征每一维在训练集各语种间的分布情况。F比是一个分析特征对分类任务贡献的方法，如果特征在类间的差异较大，且在类内差异较小，其值会比较大，反之则较小^[9]。

假设训练集包含了M个语种的数据，第i个语种有N_i条语句，i∈[1，M]。设l_{i, t}^j(k)为第i个语种、第j条语句、第t帧中第k维PLLR特征的值，设s_i^j(k)是l_{i, t}^j(k)在该条语句所有帧上的和：

$ s_i^j\left( k \right) = \sum\limits_{t = 1}^T {l_{i, t}^j\left( k \right).} $

(4)

其中T是该语句的总帧数。

再设s_i(k)为l_{i, t}^j(k)在第i个语种所有语句上的和，s(k)为l_{i, t}^j(k)在整个训练集所有语句上的和,

$ {s_i}\left( k \right) = \sum\limits_{j = 1}^{{N_i}} {s_i^j\left( k \right)}, $

(5)

$ s\left( k \right) = \sum\limits_{i = 1}^M {{s_i}\left( k \right).} $

(6)

定义m_i^j(k)、m_i(k)和m(k)分别是s_i^j(k)、s_i(k)和s(k)在整个向量上的归一化值：

$ m_i^j\left( k \right) = \frac{{s_i^j\left( k \right)}}{{\sum\limits_{q = 1}^K {s_i^j\left( q \right)} }}, $

(7)

$ {m_i}\left( k \right) = \frac{{{s_i}\left( k \right)}}{{\sum\limits_{q = 1}^K {{s_i}\left( q \right)} }}, $

(8)

$ m\left( k \right) = \frac{{s\left( k \right)}}{{\sum\limits_{q = 1}^K {s\left( q \right)} }}. $

(9)

其中K是特征向量的维数。

则PLLR特征向量第k维F比的计算方式如下：

$ F\left( k \right) = \frac{{\frac{1}{M}\sum\limits_{i = 1}^M {{{\left( {{m_i}\left( k \right)-m\left( k \right)} \right)}^2}} }}{{\frac{1}{M}\sum\limits_{i = 1}^M {\frac{1}{{{N_i}}}\sum\limits_{j = 1}^{{N_i}} {{{\left( {m_i^j\left( k \right)-{m_i}\left( k \right)} \right)}^2}} } }}. $

(10)

从F比的表达式可以看出，分子部分表示了PLLR特征向量第k维在各个语种间的差异，而分母部分表示了其在每个语种内部的分布情况。如果特征向量第k维在各个语种间差别较大，并且在同一语种内差异较小，则F比的值较大，即特征向量第k维包含了较多的语种鉴别性信息；反之，则F比的值较小，即特征向量在第k维包含的语种鉴别性信息较少。

得到PLLR特征向量每一维的语种鉴别性大小后，就可以计算WPLLR特征提取中的权重。在本文中，每一维的权重定义为对应F比值的x倍：

$ \omega \left( k \right) = xF\left( k \right). $

(11)

其中x是一个经验参数。

需要指出，权重的计算是在模型训练阶段，在识别系统运行阶段，权重不需要重新计算，因此不会增加识别系统的时间消耗。

3 语种识别实验 3.1 实验设置 3.1.1 数据集

为了比较本文所提出的WPLLR特征与原PLLR特征的性能，使用NIST 2007年语种识别评测数据集进行实验，该数据集包含14个语种的电话信道语音^[10]。测试数据为闭集条件下的30 s语音数据。

3.1.2 音素后验概率提取

为了充分检验本文所提特征的有效性，实验中使用了3个BUT开发的音素识别器^[11]：俄语(Russian，RU)、匈牙利语(Hungarian，HU)和捷克语(Czech，CZ)音素识别器。这些识别器将每个音素分成3个状态，即每个音素有3个后验概率。用每个状态的音素后验概率作为特征的一维，而不是将3个状态加起来。这样既可以充分利用音素的信息，也可以利用状态提供的鉴别性信息^[13]。3个音素识别器所对应的特征向量维数分别为：159(RU)、186(HU)和138(CZ)。

3.1.3 语种识别系统

使用GSV-SVM系统来对比2个特征的性能。在这个系统中，首先从每个语种的训练数据中随机挑选若干语句，训练一个256 Gauss的UBM (universal background model)。然后应用最大后验概率估计来得到每条语句的Gauss超向量，再以一对一与一对多融合的方式训练SVM模型^[14]。最后，以线性判别分析(linear discriminant analysis，LDA)后接单Gauss建模的方法作为分数端的处理。这个分数端处理方法首先将得分向量进行LDA变换，再用共用协方差矩阵的单Gauss对每个语种的得分向量建模。

3.2 F比的计算

为了计算PLLR特征向量各维的F比，首先提取了NIST07训练集的数据的基本的PLLR特征(PCA降维之前)，然后利用节2所介绍步骤来计算F比的值。3个识别器分别对应的F比值如图 2所示。

图 2 3个识别器分别对应的F比值

图选项

从图 2可以看到，语种鉴别性信息在PLLR特征向量各维的分布是不均匀的。得到F比值之后，特征向量的权重就可以利用式(11) 计算得到，再用式(3) 进行加权得到WPLLR，最后进行PCA降维处理。在本文实验中，3个音素识别器的特征向量都降为56维。

3.3 实验结果

本文给出2个特征在NIST07中30 s测试集上的实验结果。指标选用NIST定义的平均检测代价(average cost performance) C_avg^[10]和等错率(equal error rate，EER)，这2个指标都是越小越好。实验同时对比了PLLR特征与WPLLR特征在3个音素识别器上的性能，以及3个音素识别器得分融合的性能。为了使融合结果更可靠，实验中使用了等权重的线性融合方式。2个特征的测试结果对比如表 1和表 2所示。

表 1 EER结果对比

音素识别器	RU/%	HU/%	CZ/%	融合/%
PLLR	4.31	3.70	4.28	2.78
WPLLR	3.75	3.38	3.94	2.50
相对降低	12.99	8.65	7.94	10.07

表选项

表 2 C_avg结果对比

音素识别器	RU/%	HU/%	CZ/%	融合/%
PLLR	4.25	3.77	4.21	2.79
WPLLR	3.61	3.46	3.90	2.31
相对降低	15.06	8.22	7.36	17.20

表选项

如表 1和表 2所示，无论是单个音素识别的结果，还是3个音素识别器融合的结果，相比于PLLR特征，本文提出的WPLLR特征都取得了更优异的性能。从单个音素识别器的表现来看，俄语音素识别器(RU)的性能提升最大，匈牙利语音素识别器(HU)的性能最好。最好的识别结果为3个音素识别器得分融合的结果。可见，提高PLLR特征向量中含有较多语种鉴别性信息的分量的权重，可以提高特征的语种鉴别性，进而提高识别系统的性能。

4 结论

本文分析了PLLR特征向量各维所含语种鉴别性的差异，提出了WPLLR特征，对PLLR特征向量中含有较多语种鉴别性的分量赋予较高的权重。在NIST07上的实验结果显示，本文所提出的WPLLR特征在各种情况下都比原PLLR特征性能更优异。

参考文献

[1]	Li H, Ma B, Lee K. Spoken language recognition:From fundamentals to practice[J]. Proceedings of the IEEE, 2013, 101(5): 1136–1159. DOI:10.1109/JPROC.2012.2237151
[2]	Torres-Carrasquillo P, Singer E, Kohler M, et al. Approaches to language identification using Gaussian mixture models and shifted delta cepstral features[C]//7th International Conference on Spoken Language Processing. Denver, CO, USA:IEEE, 2002:89-92. https://ll.mit.edu/mission/cybersec/publications/publication-files/full_papers/020916_Torres.pdf
[3]	Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Process, 2000, 10(1-3): 19–41. DOI:10.1006/dspr.1999.0361
[4]	Dehak N, Torres-Carrasquillo P A, Reynolds D A, et al. Language recognition via i-vectors and dimensionality reduction[C]//12th Annual Conference of the International Speech Communication Association. Florence, Italy, 2011:857-860. http://www.academia.edu/7704247/Speaker_Profiling_for_Forensic_Applications
[5]	Campbell W M, Sturim D E, Reynolds D A. Support vector machines using GMM supervectors for speaker verification[J]. IEEE Signal Process Letters, 2006, 13(5): 308–311. DOI:10.1109/LSP.2006.870086
[6]	Yan Y, Barnard E. An approach to automatic language identification based on language-dependent phone recognition[C]//IEEE International Conference on Acoustics, Speech, and Signal Processing. Detroit, MI, USA:IEEE, 1995:3511-3514. http://doi.ieeecomputersociety.org/10.1109/ICASSP.1995.479743
[7]	Li H, Ma B, Lee C. A vector space modeling approach to spoken language identification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(1): 271–284. DOI:10.1109/TASL.2006.876860
[8]	Diez M, Varona A, Penagarikano M, et al. On the use of phone log-likelihood ratios as features in spoken language recognition[C]//2012 IEEE Spoken Language Technology Workshop (SLT). Miami, FL, USA:IEEE, 2012:274-279.
[9]	LU Xugang, DANG Jianwu. An investigation of dependencies between frequency components and speaker characteristics for text-independent speaker identification[J]. Speech Communication, 2008, 50(4): 312–322. DOI:10.1016/j.specom.2007.10.005
[10]	Martin A F, Le A N. NIST 2007 language recognition evaluation[C]//Odyssey 2008:The Speaker and Language Recognition Workshop. Stellenbosch, South Africa:IEEE, 2008:16. https://link.springer.com/referenceworkentry/10.1007/978-0-387-73003-5_204
[11]	Matejka P, Schwarz P, Cernocký J, et al. Phonotactic language identification using high quality phoneme recognition[C]//9th European Conference on Speech Communication and Technology. Lisbon, Portugal, 2005:2237-2240. https://www.researchgate.net/publication/221479948_Phonotactic_language_identification_using_high_quality_phoneme_recognition
[12]	Diez M, Varona A, Penagarikano M, et al. Dimensionality reduction of phone log-likelihood ratio features for spoken language recognition[C]//Conference of the InternationalSpeech Communication Association. Lyon, France, 2013:64-68. http://gtts.ehu.es/gtts/NT/fulltext/DiezInterspeech2013a.pdf
[13]	D'Haro L F, Cordoba R, Salamea C, et al. Extended phone log-likelihood ratio features and acoustic-basedi-vectors for language recognition[C]. International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada, 2014:5342-5346. http://ieeexplore.ieee.org/document/6854623/
[14]	王宪亮, 吴志刚, 杨金超, 等. 基于SVM一对一分类的语种识别方法[J]. 清华大学学报(自然科学版), 2013, 53(6): 808–812. WANG Xianliang, WU Zhigang, YANG Jinchao, et al. Language recognition based on SVM 1 vs. 1 classification[J]. J Tsinghua Univ (Sci & Tech), 2013, 53(6): 808–812. (in Chinese)

文章信息

工作空间