基于子空间学习和特征选择融合的语音情感识别
宋鹏 1 , 郑文明 2 , 赵力 2     
1. 烟台大学 计算机与控制工程学院, 烟台 264005;
2. 东南大学 儿童发展与学习科学教育部重点实验室, 南京 210096
摘要:传统语音情感识别主要基于单一情感数据库进行训练与测试。而实际情况中,训练语句和测试语句往往来源于不同的数据库,识别率较低。为此,该文提出一种基于子空间学习和特征选择融合的语音情感识别方法。通过采用回归方法来学习特征的子空间表示;同时,引入l2,1-范数用于特征的选择和最大均值差异(maximum mean discrepancy,MMD)来减少不同情感数据库间的特征差异,进行联合优化求解从而提取较为鲁棒的情感特征表示。在EMO-DB和eNTERFACE这2个公开情感数据库上进行实验评价,结果表明:该方法在跨库条件下具有较好的性能,比其他经典的迁移学习方法更加鲁棒高效。
关键词特征选择    子空间学习    情感识别    
Joint subspace learning and feature selection method for speech emotion recognition
SONG Peng1, ZHENG Wenming2, ZHAO Li2     
1. School of Computer and Control Engineering, Yantai University, Yantai 264005, China;
2. Key Laboratory of Child Development and Learning Science of Ministry of Education, Southeast University, Nanjing 210096, China
Abstract: Traditional speech emotion recognition methods are trained and evaluated on a single corpus. However, when the training and testing use different corpora, the recognition performance drops drastically. A joint subspace learning and feature selection method is presented here to imprive recognition. In this method, the feature subspace is learned via a regression algorithm with the l2, 1-norm used for feature selection. The maximum mean discrepancy (MMD) is then used to measure the feature divergence between different corpora. Tests show this algorithm gives satisfactory results for cross-corpus speech emotion recognition and is more robust and efficient than state-of-the-art transfer learning methods.
Key words: feature selection     subspace learning     emotion recognition    

作为语音信号处理和情感计算领域的重要分支,语音情感识别的目标是从一段语音信号中自动识别出喜、怒、哀、乐等各种情感。在人机交互、在线教育、游戏娱乐、话务中心等领域[1],语音情感识别有着至关重要的作用。因此引起了相关领域研究人员的广泛关注。

过去几十年,在语音情感识别中,许多经典的机器学习和模式识别方法,如支持向量机(support vector machine, SVM)、人工神经网络(artificial neural network, ANN)、隐Markov模型(hidden Markov model, HMM)等已经被证明是非常有效的情感分类器。近几年来,深度神经网络(deep neural network, DNN)、极限学习机(extreme learning machine, ELM)等也被成功地应用于语音情感分类[1-2]。在一定条件下这些方法取得了较为满意的效果,但是它们的训练和测试过程是基于同一情感数据库。而在实际情况中,由于受到年龄、性别、语言、噪声等因素的影响,训练数据和测试数据往往存在着很大的差异,在这种情况下识别率将显著下降。

为了解决这一问题,受到语音识别和说话人识别中自适应算法的启发,许多经典的自适应方法[1, 3-5], 如最大似然线性回归(maximum likelihood linear regression, MLLR)、最大后验概率(maximum a posteriori, MAP)、联合因子分析(joint factor analysis, JFA)等被成功地用于语音情感识别。但是,这些算法往往需要大量的情感数据,且没有考虑不同数据库情感特征之间的差异。

近年来,域自适应和迁移学习方法的出现引起了越来越多的关注。已经在自然语言处理、机器翻译、文本分类等领域取得了成功的应用[6]。鉴于在这些领域的成功应用,文[7-8]尝试将域自适应方法引入到跨库语音情感识别中;文[9-11]分别提出了基于迁移学习的跨库语音情感识别方法。这些方法主要是通过减少不同数据库情感特征的差异来提取鲁棒的共同特征表示,但是它们并没有同时考虑特征选择的重要性。

为了改善这一潜在问题,本文从同时考虑子空间学习和特征选择的角度出发,提出了一种有效的基于子空间学习和特征选择融合的语音情感识别方法。通过引入回归方法来学习得到低维特征子空间;同时,引入l2, 1-范数来进行特征选择;并采用最大均值差异(maximum mean discrepancy, MMD)[6]来描述不同数据库特征分布的差异,从而可以获得不同数据库的鲁棒情感特征表示,进而有效提升跨库条件下的情感识别率。

1 子空间学习和特征选择融合方法

图 1为本文提出的基于子空间学习和特征选择融合的语音情感识别的基本框架。主要分为2个过程:训练阶段和测试阶段。在训练阶段,分别给定带有类别标签的源数据库和无类别标签的目标数据库,通过对子空间学习、特征选择及MMD约束等进行联合优化估计求解得到投影矩阵;在测试阶段,利用训练阶段得到的投影矩阵提取鲁棒情感特征,通过SVM方法分类得到对应的情感类别。

图 1 本文提出的语音情感识别框架

给定情感特征X=[Xs, Xt]∈Rm×n,其中XsRm×nlXtRm×nu分别为源数据库和目标数据库的情感特征,nlnu分别为对应的特征样本数量,n=nl+nu。假定Y=[Ys, Yt]∈Rn×c为类别标签矩阵,其中Ys=[y1, y2, …, ynl]TYt=[ynl+1, ynl+2, …, yn]TRnu×c分别表示类别已知的源数据库和类别未知的目标数据库的情感类别标签矩阵,c为情感类别数。通过学习,一个投影矩阵URm×c将不同数据库的情感特征映射到一个公共特征子空间,则目标函数表示如下:

$ \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}, \mathit{\boldsymbol{U}}} \left\| {\mathit{\boldsymbol{Y}}-{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2. $ (1)

经典的子空间学习方法如主成分分析(principal component analysis, PCA)、线性判别分析(linear discriminant analysis, LDA)等[12]主要是通过寻找投影矩阵来获得低维鲁棒特征,它们在降维的同时并没有进行有效的特征选择,这在一定程度上影响了特征表示的准确性。不同于传统子空间学习方法,本文将子空间学习和特征选择进行联合求解,在提取特征子空间的同时引入l2, 1-范数[13]进行特征选择,则目标函数变为

$ \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}, \mathit{\boldsymbol{U}}} \left\| {\mathit{\boldsymbol{Y}}-{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2 + {\lambda _1}{\left\| U \right\|_{2, 1}}. $ (2)

其中λ1为规整系数。根据文[12], Y可以通过统一的图嵌入框架进行求解,本文采用的子空间方法是经典PCA方法。

上述目标函数并没有考虑不同数据库情感特征分布的差异。类似经典迁移学习方法中特征差异的度量方法,本文引入常用的MMD算法[6]来描述不同情感数据库的特征分布之间的相似度。

$ \begin{array}{l} {\rm{D}}\left( \mathit{\boldsymbol{U}} \right) = {\left\| {\frac{1}{{{n_l}}}\sum\limits_{i = 1}^{{n_l}} {{\mathit{\boldsymbol{y}}_i}}-\frac{1}{{{n_u}}}\sum\limits_{j = 1}^{{n_u}} {{\mathit{\boldsymbol{y}}_j}} } \right\|^2} = \\ \;\;\;\;\;\;\;\;\;\;\;{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{XM}}{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right). \end{array} $ (3)

其中:tr(·)表示矩阵的迹,M=[mij]∈Rn×n为相似度矩阵。mij表示为:

$ {m_{ij}} = \left\{ {\begin{array}{*{20}{l}} {\frac{1}{{n_l^2}}, }&{{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j} \in {\mathit{\boldsymbol{X}}_{\rm{s}}};}\\ {\frac{1}{{n_u^2}}, }&{{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j} \in {\mathit{\boldsymbol{X}}_{\rm{t}}};}\\ {-\frac{1}{{{n_l}{n_u}}}, }&{其他.} \end{array}} \right. $ (4)

将式(3)代入式(2)中,则目标函数变为

$ \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}, \mathit{\boldsymbol{U}}} \left\| {\mathit{\boldsymbol{Y}}-{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2 + {\lambda _1}{\left\| \mathit{\boldsymbol{U}} \right\|_{2, 1}} + {\lambda _2}{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{VU}}} \right). $ (5)

其中: V=XMXT, λ2为规整系数。

2 优化算法

式(5)的目标函数中包含有l2, 1-范数,它非平滑且不能得到一个闭式解[13]。因此,本文提出了一种迭代方法对其进行求解。给定投影矩阵U,其l2, 1-范数定义为

$ {\left\| \mathit{\boldsymbol{U}} \right\|_{2, 1}} = \sum\limits_{i = 1}^m {\sqrt {\sum\limits_{j = 1}^n {u_{ij}^2} } = 2{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{QU}}} \right)} . $ (6)

其中: Q=[qii]∈Rm×m为一个对角矩阵,$ {q_{ii}} = \frac{1}{{2{{\left\| {{\mathit{\boldsymbol{u}}^i}} \right\|}_2}}}$ui表示矩阵U的第i个行向量,‖·‖2表示向量的l2-范数。需要注意的是2‖ui2可能逼近0,导致结果无法求解,参照文[14],引入一个极小的常量ε, 则qii可以重新定义为

$ {q_{ii}} = \frac{1}{{2\sqrt {\left\| {{\mathit{\boldsymbol{u}}^i}} \right\|_2^2 + \varepsilon } }}. $ (7)

因此,式(5)的目标函数可以重新表达为

$ {\cal O}\left\| {\mathit{\boldsymbol{Y}}-{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2 + {\lambda _1}{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{QU}}} \right) + {\lambda _2}{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{VU}}} \right). $ (8)

对上式进行迭代求解。

步骤1  固定YtU${\cal O} $U求偏导,可得:

$ \begin{array}{l} \;\;\;\;\;\;\;\;\;\;\;\frac{{\partial {\cal O}}}{{\partial \mathit{\boldsymbol{U}}}} = \mathit{\boldsymbol{0}} \Rightarrow \\ \left( {\mathit{\boldsymbol{X}}{\mathit{\boldsymbol{X}}^{\rm{T}}}-{\lambda _1}\mathit{\boldsymbol{Q-}}{\lambda _2}\mathit{\boldsymbol{V}}} \right)\mathit{\boldsymbol{U}} = \mathit{\boldsymbol{XY}} \end{array} $ (9)

从式(7)可以发现Q同样未知且依赖于U。因此采用迭代方法对式(9)进行求解。固定U, 根据式(7)可以计算得到Q;接着固定Q,则U=(XXT-λ1Q-λ2V)-1XY

步骤2  固定UYt$ {\cal O}$Yt求偏导,可得:

$ {\cal O} = \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}} \left\| {\left[{{\mathit{\boldsymbol{Y}}_s}, {\mathit{\boldsymbol{Y}}_t}} \right] -{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2. $ (10)

上式等价于

$ {\cal O} = \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}} \left\| {{\mathit{\boldsymbol{Y}}_t}-\mathit{\boldsymbol{X}}_{\rm{t}}^{\rm{T}}\mathit{\boldsymbol{U}}} \right\|_F^2. $ (11)

可通过经典的二次规划法对上式进行求解,然后将新求得Yt代入式(8)对U进行重新求解。重复执行步骤1和2,直到收敛。

3 仿真实验 3.1 实验数据库

为了验证算法的有效性,在EMO-DB[15]和eNTERFACE[16]2个公开情感数据库进行实验。其中EMO-DB库是最为流行的经典语音情感数据库之一,它包含生气、烦躁、厌恶、害怕、高兴、伤心和中性7种情感类型,共选择494条语音数据用于实验;eNTERFACE库是一个经典的音视频情感数据库,它包含生气、厌恶、害怕、高兴、伤心和惊讶6类情感,共选择1 287条音频情感数据用于本实验。

3.2 实验设置

为了保证跨库语音情感识别的性能,训练数据与测试数据的情感类型应保持一致。实验中选择2个数据库共有的5类情感即生气、厌恶、害怕、高兴和伤心用于测试。

本文采用2种方案对算法的有效性进行评价。在方案1中,采用有情感类别标签的eNTERFACE库进行训练,同时采用无情感类别标签的EMO-DB库进行测试;在方案2中,选择有情感类别标签的EMO-DB库用作训练,同时采用无情感类别标签的eNTERFACE库进行测试。对于语音情感特征,本文采用openSMILE工具箱[17]进行提取,同时选择INTERSPEECH 2010情感竞赛[18]的标准特征集进行评价,共包含1 582维特征,它是由34个底层描述子(low level descriptors, LLDs)和对应的一阶差分系数得到的统计特征。

为了评价本文提出算法的有效性,本文对以下几种方法进行了对比实验。

(1) 传统分类方法(traditional):在源数据库下训练得到的分类器被直接用于目标数据库的情感识别。

(2) 基于迁移稀疏编码的跨库语音情感识别方法(transfer sparse coding, TSC)[10]

(3) 基于迁移非负矩阵分解的跨库语音情感识别方法(transfer non-negative matrix factorization, TNMF)[11]

(4) 基于子空间迁移学习的跨库语音情感识别方法(transfer subspace learning, TSL),可以看作本文提出方法的特例(λ1=0)。

(5) 本文提出的基于子空间学习和特征选择融合的跨库语音情感识别方法(ours)。

实验中,将两个数据库分别均分成5份,每次随机地选择4份用于训练,另外1份用于测试。重复执行10次以尽量覆盖大多数的情况。由于训练数据和测试数据来自不同的数据库,情感特征分布不一致。很难直接采用传统的交叉验证方法对参数进行优化选择,采用搜索策略在区间{10-3, 10-2, 10-1, 1, 10, 102, 103}中对参数进行选择,最终λ1λ2分别被优化设置为0.1和1。同时选择经典的线性SVM方法用于情感分类。

3.3 实验结果与分析

表 1给出了不同方案下的情感识别结果。从表格中可以看出:无论是方案1还是2,提出的方法总能取得最优的识别效果;相比于传统方法,基于迁移学习的语音情感识别方法如TSC、TNMF、TSL和本文提出的方法,都明显提升了识别率,这说明迁移学习方法可以很好地实现跨库条件下的情感特征表示;同时,相比于经典子空间学习方法TSL,本文提出的方法可以取得更好的效果,这说明融入特征选择的必要性,在提取不同情感数据库的特征表示的同时,考虑特征选择可以显著提升跨库条件下的情感识别率。

表 1 方案1和2的情感识别结果
识别方法 平均识别率/%
方案1 方案2
traditional 34.62 28.87
TSC 50.61 44.98
TNMF 51.96 43.99
TSL 50.94 40.03
ours 52.27 45.62

为了进一步验证算法的有效性,图 23分别给出了每一类情感在不同方案下的识别率。从图中可以发现:对于每一类情感,基于迁移学习的语音情感识别方法可以取得明显优于传统方法的效果;同时,本文提出的基于子空间学习和特征选择融合的方法能够取得最优的识别结果,这与表 1的实验结果相吻合。

图 2 不同情感在方案1下的情感识别率

图 3 不同情感在方案2下的情感识别率

4 结论

为了有效实现跨库条件下的语音情感识别,本文提出了一种基于子空间学习和特征选择融合的方法。在进行特征子空间学习的同时,通过引入特征选择的方法,并考虑不同情感数据库特征分布的差异,来提取满足不同数据库的鲁棒情感特征表示。在经典的EMO-DB和eNTERFACE情感数据库上进行实验评价。实验结果表明:相比于传统特征迁移学习方法,本文提出的基于子空间学习和特征选择融合的方法可以显著提高跨库条件下的情感识别率。目前的方法主要基于现有的情感特征进行分类识别,下一步将研究如何提取更有效的情感特征,如何与其他情感特征如语谱图特征、深度特征等进行有效融合,以进一步提升跨库条件下的语音情感识别率。

参考文献
[1] 韩文静, 李海峰, 阮华斌, 等. 语音情感识别研究进展综述[J]. 软件学报, 2014, 25(1): 37–50.
HAN W J, LI H F, RUAN H B, et al. Review on speech emotion recognition[J]. Journal of Software, 2014, 25(1): 37–50. (in Chinese)
[2] HAN K, YU D, TASHEV I. Speech emotion recognition using deep neural network and extreme learning machine[C]//Proceedings of the 15th Annual Conference of the International Speech Communication Association. Singapore: ISCA, 2014: 223-227. https://www.researchgate.net/publication/267213794_Speech_Emotion_Recognition_Using_Deep_Neural_Network_and_Extreme_Learning_Machine
[3] KINNUNEN T, LI H Z. An overview of text-independent speaker recognition:From features to supervectors[J]. Speech Communication, 2010, 52(1): 12–40. DOI:10.1016/j.specom.2009.08.009
[4] HU H, XU M X, WU W. GMM supervector based SVM with spectral features for speech emotion recognition[C]//Proceedings of 2007 International Conference on Acoustics, Speech and Signal Processing (ICASSP). Honolulu, USA: IEEE, 2007: 413-416. http://ieeexplore.ieee.org/document/4218125/
[5] El AYADI M, KAMEL M S, KARRAY F. Survey on speech emotion recognition:Features, classification schemes, and databases[J]. Pattern Recognition, 2011, 44(3): 572–587. DOI:10.1016/j.patcog.2010.09.020
[6] WEISS K, KHOSHGOFTAAR T M, WANG D D. A survey of transfer learning[J]. Journal of Big Data, 2016, 3(1): 1–40.
[7] DENG J, ZHANG Z X, EYBEN F, et al. Autoencoder-based unsupervised domain adaptation for speech emotion recognition[J]. IEEE Signal Processing Letters, 2014, 21(9): 1068–1072. DOI:10.1109/LSP.2014.2324759
[8] ABDELWAHAB M, BUSSO C. Supervised domain adaptation for emotion recognition from speech[C]//Proceedings of 2015 International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brisbane, Australia: IEEE, 2015: 5058-5062. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=7178934
[9] HASSAN A, DAMPER R, NIRANJAN M. On acoustic emotion recognition:Compensating for covariate shift[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(7): 1458–1468. DOI:10.1109/TASL.2013.2255278
[10] SONG P, ZHENG W M, LIANG R Y. Speech emotion recognition based on sparse transfer learning method[J]. IEICE Transactions on Information and Systems, 2015, 98(7): 1409–1412.
[11] SONG P, ZHENG W M, OU S F, et al. Cross-corpus speech emotion recognition based on transfer non-negative matrix factorization[J]. Speech Communication, 2016, 83: 34–41. DOI:10.1016/j.specom.2016.07.010
[12] YAN S C, XU D, ZHANG B Y, et al. Graph embedding and extensions:A general framework for dimensionality reduction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(1): 40–51. DOI:10.1109/TPAMI.2007.250598
[13] NIE F P, HUANG H, CAI X, et al. Efficient and robustfeature selection via joint l2, 1-norms minimization[C]//Proceedings of the 24th Annual Conference on Neural Information Processing Systems (NIPS). Vancouver, Canada: NIPS, 2010: 1813-1821. http://dl.acm.org/citation.cfm?id=2997098
[14] HE R, TAN T N, WANG L, et al. l2, 1 regularized correntropy for robust feature selection[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA: IEEE, 2012: 2504-2511. http://dl.acm.org/citation.cfm?id=2354867
[15] BURKHARDT F, PAESCHKE A, ROLFES M, et al. A database of German emotional speech[C]//Proceedings of INTERSPEECH. Lisbon, Portugal: ISCA, 2005: 1517-1520. http://www.researchgate.net/publication/221491017_A_database_of_German
[16] MARTIN O, KOTSIA I, MACQ B, et al. The eNTERFACE'05 audio-visual emotion database[C]//Proceedings of the 22nd International Conference on Data Engineering Workshops. Atlanta, USA: IEEE, 2006: 8-8. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1623803
[17] EYBEN F, WÖLLMER M, SCHULLER B. Opensmile: The munich versatile and fast open-source audio feature extractor[C]//Proceedings of the 18th ACM International Conference on Multimedia. Firenze, Italy: ACM, 2010: 1459-1462. http://dl.acm.org/citation.cfm?id=1874246
[18] SCHULLER B, STEIDL S, BATLINER A, et al. The INTERSPEECH 2010 paralinguistic challenge[C]//Proceeding of the 11th Annual Conference of the International Speech Communication Association. Makuhari, Japan: ISCA, 2010: 2795-2798. https://www.researchgate.net/publication/221481381_The_INTERSPEECH_2010_paralinguistic_challenge