基于特征迁移学习方法的跨库语音情感识别
宋鹏 1 , 郑文明 2 , 赵力 2     
1. 烟台大学 计算机与控制工程学院, 烟台 264005 ;
2. 东南大学 儿童发展与学习科学教育部重点实验室, 南京 210096
摘要:在实际语音情感识别系统中,训练语音和测试语音往往来自不同的语料库,识别率下降显著。针对这一问题,该文提出一种有效的基于特征迁移学习的跨库语音情感识别方法。引入最大均值差异(maximum mean discrepancy,MMD)来描述不同数据库情感特征分布之间的相似度,并通过最大均值差异嵌入(maximum mean discrepancy embedding,MMDE)算法及特征降维算法来寻找二者之间的邻近低维特征空间,并在此低维空间中训练得到情感分类器用于情感识别。同时为了更好地保证情感信息的类别区分度,进一步引入半监督判别分析(semi-supervised discriminant analysis,SDA)方法用于特征降维。最后在2个经典语音情感数据库上对提出的方法进行实验评价,实验结果表明:提出的方法可以有效提高跨库条件下的语音情感识别率。
关键词语音情感识别     迁移学习     特征降维     半监督判别分析    
Cross-corpus speech emotion recognition based on a feature transfer learning method
SONG Peng1 , ZHENG Wenming2 , ZHAO Li2     
1. School of Computer and Control Engineering, Yantai University, Yantai 264005, China ;
2. Key Laboratory of Child Development and Learning Science of Ministry of Education, Southeast University, Nanjing 210096, China
Abstract:Speech emotion recognition systems offen use training data and testing data from different corpora, so the recognition rates decrease drastically. This paper presents a feature transfer learning method for cross-corpora speech emotion recognition. The maximum mean discrepancy (MMD) is used to describe the similarities between the emotional feature distributions of the different corpora, then the latent close low dimensional feature space is obtained via the maximum mean discrepancy embedding (MMDE) and dimension reduction algorithms, with the classifiers then trained in this space for emotion recognition. A semi-supervised discriminative analysis (SDA) algorithm is further used for dimension reduction to better ensure the class discrimination of the emotional features. Tests on two popular speech emotion datasets demonstrate that this method efficiently improves the recognition rates for cross-corpora speech emotion recognition.
Key words: speech emotion recognition     transfer learning     feature dimension reduction     semi-supervised discriminative analysis    

语音情感识别是从说话人的语音中识别出喜、 怒、 哀、 乐、 愁等各类情感的一种技术。 作为情感计算的一个重要分支,语音情感识别具有广泛的应用前景[1]。 在医疗卫生领域,通过对病人情感的检测来帮助医生更好地判断心理疾病; 在刑侦领域,通过对嫌疑人的情感实时监控,可以加快案件的审理进程; 在极端环境下如载人航天领域,通过对密闭空间中航天员的情感状态进行实时监测,可以推动航天科考事业的顺利开展。

过去几十年中,语音情感识别研究取得了很大进展。 许多传统的模式识别方法如支持向量机(support vector machine,SVM)、 隐Markov模型(hidden Markov model,HMM)、 Gauss混合模型(Gaussian mixture model,GMM)、 人工神经网络(artificial neural network,ANN)等被广泛应用于语音情感识别[2]。 近几年,深度学习在语音识别及图像分类等领域取得了巨大的成功,文[3]尝试将深度学习方法用于语音情感识别,这些方法都在一定程度上取得了令人满意的效果。

上述方法主要是针对单一数据库进行训练和测试,过于追求较高的情感识别率,而在实际情况中,训练和测试数据往往来自不同的数据库,这时识别率将显著下降。 目前国内外对于跨库语音情感识别的研究还不是很多,如Schuller等[4]从唤醒度和效价维的角度对6个数据库条件下的跨库语音情感识别进行研究; Jeon等[5]对跨语言的语音情感识别进行了初步的讨论; Deng等[6]提出了一种基于无监督自适应编码的语音情感识别方法; 受到说话人识别中信道鲁棒性的启发,文[7]从混合因子分析的角度对跨库条件下的语音情感识别进行讨论,这些方法在一定程度上取得了比传统方法更好的效果。 但是这些方法存在着训练数据过大、 计算复杂度高、 当训练和测试数据库差别很大时识别率显著下降等问题。

不同于上述方法,受到迁移学习和半监督学习等方法等在机器学习、 模式识别上成功应用的启发,本文提出一种有效的基于特征迁移学习的语音情感识别方法。 首先,通过特征迁移学习得到源语音库和目标语音库的低维邻近特征空间; 其次,为了进一步提升分类效果,采用半监督判别分析(semi-supervised discriminant analysis,SDA)方法对特征进行降维,进而训练得到情感分类器; 最后,在经典语音情感数据库上对本文提出方法的有效性进行验证。

1 基于特征迁移学习的语音情感识别

图 1为本文提出的基于特征迁移学习的语音情感识别框架。 给定有标签的源语音情感数据库和无标签的目标语音情感数据库,分别提取其情感特征,通过最大均值差异嵌入(maximum mean discrepancy embedding,MMDE)算法和特征降维算法寻找到邻近的低维特征空间,并进一步通过SDA方法进行特征降维来提升分类效果,最后训练得到情感分类器。

图 1 基于特征迁移学习的语音情感识别框架

1.1 情感特征迁移学习

迁移学习是机器学习领域近年来一个比较热门的研究领域,主要通过迁移当前领域已有知识来解决目标领域中数据仅有少量标签甚至没有标签的学习问题[8],在很多应用领域得到了广泛的研究如文本分类与聚类、 图像分类、 传感器定位、 协同过滤等。

受到迁移学习在这些领域成功应用的启发,本文提出了一种基于特征迁移学习的语音情感识别方法。 给定有类别标签的源语音库和无类别标签的目标语音库,分别提取其情感特征,表示为Xs=[x1,x2,...,xnl]和Xt=[x1,x2,...,xnu],其中nlnu为特征数量。 假定它们之间存在着邻近的低维空间,引入映射函数φ(·),计算得到XsXt的低维空间,分别表示为${{X'}_S} = \varphi \left( {{X_s}} \right)$和${{X'}_t} = \varphi \left( {{X_t}} \right)$。 接着引入映射函数$\phi $(·)向高维再生Hilbert空间(>reproducing kernel Hilbert space,RKHS)进行投影,采用最大均值差异(maximum mean discrepancy,MMD)算法[9]来描述映射后数据间的距离

$\begin{gathered} D\left( {{{X'}_s},{{X'}_t}} \right) = \hfill \\ {\left\| {\frac{1}{M}\sum\limits_{i = 1}^{{n_u}} {\phi \left( {{{X'}_{{s_i}}}} \right) - \frac{1}{N}\sum\limits_{j = 1}^{{n_u}} {\phi \left( {{{X'}_{{t_j}}}} \right)} } } \right\|_H}. \hfill \\ \end{gathered} $

其中H表示RKHS。 引入MMDE方法,上式进一步写为

$D\left( {{{X'}_s},{{X'}_t}} \right) = tr\left( {KL} \right).$

其中: tr(·)表示矩阵的迹,$K = \left[ {\begin{array}{*{20}{c}} {{K_{ss}}} & {{K_{st}}} \\ {{K_{ts}}} & {{K_{tt}}} \end{array}} \right]$为核矩阵,$L = \left[ {{l_{ij}}} \right] \in {R^{\left( {{n_l} + {n_{\text{u}}}} \right) \times \left( {{n_l} + {n_{\text{u}}}} \right)}}$满足

${l_{ij}}\left\{ {\begin{array}{*{20}{c}} {\frac{1}{{n_l^2}},{x_i},{x_j} \in {X_s};} \\ {\frac{1}{{n_u^2}},{x_i},{x_j} \in {X_{\text{t}}}} \\ { - \frac{1}{{{n_l}{n_u}}},其他.} \end{array}} \right.$

可以通过下式求解:

$\begin{gathered} \mathop {\min }\limits_{K = \hat K + \varepsilon I} {\text{tr}}\left( {KL} \right) - \lambda {\text{tr}}\left( K \right), \hfill \\ {\text{s}}{\text{.t}}{\text{.}}{K_{ii}} + {K_{jj}} - 2{K_{ij}} = d_{ij}^2\left( {{x_i}.{x_j}} \right) \in N, \hfill \\ KI = 0,\hat K \geqslant 0,\varepsilon > 0. \hfill \\ \end{gathered} $

其中: (xi,xj)∈N表示xixj是最近邻点,I和0分别表示全1和全0的向量。 通过半定规划(semi-definite programming,SDP)算法求解得到K,然后采用主成分分析(principal component analysis,PCA)等降维方法得到Xs,Xt

1.2 半监督判别分析

通过特征迁移学习算法来寻找不同数据库的低维邻近空间在一定程度上降低了类别区分度[8]。 为了解决这一问题,不是直接用${{X'}_s}$及其类别标签,而是利用X′=[Xs,Xt]来训练分类器。 这里采用SDA方法[10]来进行特征降维,从而增加类别区分度,进而提升情感特征的分类效果。

$\mathop {\max }\limits_a \frac{{{a^{\text{T}}}{S_b}a}}{{{a^{\text{T}}}{S_{\text{t}}}a + \beta J\left( a \right)}}.$

其中: SbSt分别表示类间及整体散度矩阵,a表示投影方向,J(a)表示规整函数,β表示平衡因子。

设$X' = \left[ {{{x'}_1},{{x'}_{2,}} \cdots ,{{x'}_N}} \right]$,则J(a)定义如下:

$\begin{align} & ~J\left( a \right)=\sum\limits_{i,j}{\left( {{a}^{\text{T}}}{{{{x}'}}_{i}}-{{a}^{\text{T}}}{{{{x}'}}_{j}} \right)}{{s}_{ij}}. \\ & {{s}_{ij}}= \\ & \left\{ \begin{matrix} 1,{{{{x}'}}_{i}}\in {{N}_{p}}\left( {{{{x}'}}_{j}} \right)\text{or} & {{{{x}'}}_{j}}\in {{N}_{p}}\left( {{{{x}'}}_{i}} \right); \\ 0, & A. \\ \end{matrix} \right. \\ \end{align}$

其中Np(xi)为xip近邻点。 通过求解特征值问题得到使目标函数最大化的a

${{S}_{b}}a=\lambda \left( {{S}_{t}}+\beta {X}'\left( D-S \right){{{{X}'}}^{\text{T}}} \right)a.$

其中: λ表示特征值,$S = {\left[ {{s_{ij}}} \right]_{N \times N}},D$为对角阵,其中Dii=$\sum\limits_j {{s_{ij}}} $。 求得a后,运用投影后的特征训练得到分类器进行情感识别。

2 语音情感数据库

选择合适的情感数据库也是语音情感识别的重要组成部分。 本文选择2个经典的语音情感数据库,分别是Berlin语音情感库[11]和eNTERFACE语音情感库[12]。 下面分别对这2个数据库进行简要介绍。

Berlin库是最为常用的公开语音情感数据库之一,它是由德国柏林工业大学录制的德语情感数据库。 由10位专业演员(5男5女)参与录制,得到包含生气、 无聊、 厌恶、 害怕、 高兴、 中性和悲伤等7类基本情感的800条语句。 对于文本语料的选择遵从选择语义中性、 无明显情感倾向的日常语句,且语音在专业录音室中录制而成。 经过20个说话人的听辨测试,最终得到494条情感语句用于实验评价。

eNTERFACE库是一个公开的音视频英语情感数据库。 由来自14个国家的42位说话人录制而成,其中81%的为男性,19%的为女性。 共包含生气、 厌恶、 害怕、 高兴、 悲伤和惊奇6类基本情感。 通过2位专家对录制语音的情感倾向度进行打分,最终选择了1 170条语句用于实验。

3 实验结果与评价 3.1 实验准备

为了验证本文提出方法的有效性,分别采用2种方案进行测试。 在方案1中,将eNTERFACE库(类别标签已知)作为训练库,并将Berlin库(类别标签未知)作为测试库; 在方案2中,将Berlin库(类别标签已知)作为训练库,并将eNTERFACE库(类别标签未知)作为测试库。 选择2个数据库共有的生气、 厌恶、 害怕、 高兴、 伤心等5类基本情感进行实验评价。

利用openSMILE工具箱对情感特征进行提取,并采用Interspeech 2010语音情感识别竞赛中使用的特征集,共1 582维特征。 包含38个声学低层描述符(low-level descriptors,LLDs)及其一阶差分,通过21个类函数的统计量作用于上述LLDs,并舍弃16个零信息量的特征,同时将F0数量和时长加入到特征集中。 实验所采用的LLDs如表 1所示。

表 1 实验采用的低层描述符
低层描述符数量
响度(loudness)1
mel频率倒谱系数(MFCC) [0—14]15
Log mel带宽(log Mel frequency band )[0—7] 8
线谱对(LSP)[0—7]8
基音频率F0 1
F0 包络 1
浊音频率(voicing frequency)1
局部抖动(jitter local) 1
连续抖动帧对(jitter consecutive frame pairs) 1
局部微扰(shimmer local)1

采用传统SVM方法作为情感分类器,共对4种方法进行了对比实验,分别是基于单一情感库进行训练和测试的基线方法(baseline)、 基于特征迁移学习的语音情感识别方法(FT)、 基于特征迁移学习和SDA相结合的语音情感识别方法(FTS)和采用传统SVM直接识别的语音情感识别方法(automatic)。 2个数据库分别随机地均分成10份,每次选择9份用于训练,其余的用于测试。 共进行10重交叉验证来进行模型参数的选择。

3.2 实验评价

表 2给出了2种方案下由不同方法得到的情感识别率。 可以看到,无论是方案1还是方案2,本文提出的基于特征迁移学习的方法都明显超过了基线方法和传统直接识别的方法。 同时可以发现,与SDA方法相结合可以进一步提升情感识别率。 此外也可以观察到,无论采用哪种方法,与方案1相比,方案2得到的识别率都相对偏低,这与传统基于单一数据库得到的结果一致[13]

表 2 不同方案下的情感识别率比较
方案 识别率/%
baselineautomaticFTFTS
方案181.3533.9645.2454.63
方案261.8222.7531.0746.20

图 23分别给出了2种方案下本文提出的方法在取得最高识别率时得到的情感混淆矩阵。 从图 2可以看出,在方案1中,“伤心”取得了最高的情感识别率(85%左右),而“高兴”的识别率最低(仅29%左右)。 同时可以观察到,其他情感更容易被误识别为“厌恶”,而几乎所有的情感类型都不会被误识别为“伤心”。 从图 3可以观察到,“生气”取得了最高识别率(62%左右),而“厌恶”的识别率最低(仅31%左右)。

图 2 方案1得到的情感混淆矩阵

图 3 方案2得到的情感混淆矩阵

4 结 论

为了解决训练数据和测试数据来自不同语音情感数据库所造成的低识别率问题,本文提出了一种有效的基于特征迁移学习的语音情感识别方法。 首先,通过引入迁移学习方法来解决不同数据库的情感特征分布不一致的问题; 其次,采用半监督判别分析方法利用无标签的特征来进一步提升类别区分度; 最后,通过实验对提出的方法进行评价。 实验结果表明: 本文提出的特征迁移学习方法可以显著提高跨库条件的语音情感识别率。

论文的实验仅是在2个数据库上进行初步测试,下一步将引入更多的数据库对方法的有效性进行验证。 论文提出的方法主要是基于现有情感特征进行识别,而有效的情感特征是语音情感识别实现的关键,下一步研究将考虑如何提取更为有效的情感特征来提升跨库条件下的语音情感识别率。

参考文献
[1] 韩文静, 李海峰, 阮华斌, 等. 语音情感识别研究进展综述[J]. 软件学报 , 2014, 25 (1) : 37–50. HAN Wenjing, LI Haifeng, RUAN Huabin, et al. Review on speech emotion recognition[J]. Journal of Software , 2014, 25 (1) : 37–50. (in Chinese)
[2] Chen L, Mao X, Xue Y, et al. Speech emotion recognition:features and classification models[J]. Digital Signal Processing , 2012, 22 (6) : 1154–1160. DOI:10.1016/j.dsp.2012.05.007
[3] Mao Q, Dong M, Huang Z, et al. Learning salient features for speech emotion recognition using convolutional neural networks[J]. IEEE Transactions on Multimedia , 2014, 16 (8) : 2203–2213. DOI:10.1109/TMM.2014.2360798
[4] Schuller B, Vlasenko B, Eyben F, et al. Cross-corpus acoustic emotion recognition:Variances and strategies[J]. IEEE Transactions on Affective Computing , 2010, 1 (2) : 119–131. DOI:10.1109/T-AFFC.2010.8
[5] Jeon J H, Le D, Xia R, et al. A preliminary study of cross-lingual emotion recognition from speech:Automatic classification versus human perception[C]//Proceedings of Interspeech. Lyon, France:ISCA, 2013:2837-2840.
[6] Deng J, Zhang Z, Eyben F, et al. Autoencoder-based unsupervised domain adaptation for speech emotion recognition[J]. IEEE Signal Processing Letters , 2014, 21 (9) : 1068–1072. DOI:10.1109/LSP.2014.2324759
[7] Song P, Jin Y, Zha C, et al. Speech emotion recognition method using hidden factor analysis[J]. Electronics Letters , 2015, 51 (1) : 112–114. DOI:10.1049/el.2014.3339
[8] 庄福振, 罗平, 何清, 等. 迁移学习研究进展[J]. 软件学报 , 2015, 26 (1) : 26–39.
[9] ZHUANG Fuzhen, LUO Ping, HE Qing, et al. Survey on transfer learning research[J]. Journal of Software, 2015, 26(1):26-39. (in Chinese)
[10] Gretton A, Borgwardt K M, Rasch M, et al. A kernel method for the two-sample-problem[C]//Proceedings of Advances in Neural Information Processing Systems. Vancouver, Canada:MIT Press, 2006:513-520.
[11] Cai D, He X, Han J. Semi-supervised discriminant analysis[C]//Proceedings of the 11th International Conference on Computer Vision. Chicago, USA:IEEE Press, 2007:1-7.
[12] Burkhardt F, Paeschke A, Rolfes M, et al. A database of German emotional speech[C]//Proceedings of Interspeech. Lisbon, Portugal:ISCA, 2005:1517-1520.
[13] Zheng W, Xin M, Wang X, et al. A novel speech emotion recognition method via incomplete sparse least square regression[J]. IEEE Signal Processing Letters , 2014, 21 (5) : 569–572. DOI:10.1109/LSP.2014.2308954