2. 东南大学 儿童发展与学习科学教育部重点实验室, 南京 210096
2. Key Laboratory of Child Development and Learning Science of Ministry of Education, Southeast University, Nanjing 210096, China
作为语音信号处理和情感计算领域的重要分支,语音情感识别的目标是从一段语音信号中自动识别出喜、怒、哀、乐等各种情感。在人机交互、在线教育、游戏娱乐、话务中心等领域[1],语音情感识别有着至关重要的作用。因此引起了相关领域研究人员的广泛关注。
过去几十年,在语音情感识别中,许多经典的机器学习和模式识别方法,如支持向量机(support vector machine, SVM)、人工神经网络(artificial neural network, ANN)、隐Markov模型(hidden Markov model, HMM)等已经被证明是非常有效的情感分类器。近几年来,深度神经网络(deep neural network, DNN)、极限学习机(extreme learning machine, ELM)等也被成功地应用于语音情感分类[1-2]。在一定条件下这些方法取得了较为满意的效果,但是它们的训练和测试过程是基于同一情感数据库。而在实际情况中,由于受到年龄、性别、语言、噪声等因素的影响,训练数据和测试数据往往存在着很大的差异,在这种情况下识别率将显著下降。
为了解决这一问题,受到语音识别和说话人识别中自适应算法的启发,许多经典的自适应方法[1, 3-5], 如最大似然线性回归(maximum likelihood linear regression, MLLR)、最大后验概率(maximum a posteriori, MAP)、联合因子分析(joint factor analysis, JFA)等被成功地用于语音情感识别。但是,这些算法往往需要大量的情感数据,且没有考虑不同数据库情感特征之间的差异。
近年来,域自适应和迁移学习方法的出现引起了越来越多的关注。已经在自然语言处理、机器翻译、文本分类等领域取得了成功的应用[6]。鉴于在这些领域的成功应用,文[7-8]尝试将域自适应方法引入到跨库语音情感识别中;文[9-11]分别提出了基于迁移学习的跨库语音情感识别方法。这些方法主要是通过减少不同数据库情感特征的差异来提取鲁棒的共同特征表示,但是它们并没有同时考虑特征选择的重要性。
为了改善这一潜在问题,本文从同时考虑子空间学习和特征选择的角度出发,提出了一种有效的基于子空间学习和特征选择融合的语音情感识别方法。通过引入回归方法来学习得到低维特征子空间;同时,引入l2, 1-范数来进行特征选择;并采用最大均值差异(maximum mean discrepancy, MMD)[6]来描述不同数据库特征分布的差异,从而可以获得不同数据库的鲁棒情感特征表示,进而有效提升跨库条件下的情感识别率。
1 子空间学习和特征选择融合方法图 1为本文提出的基于子空间学习和特征选择融合的语音情感识别的基本框架。主要分为2个过程:训练阶段和测试阶段。在训练阶段,分别给定带有类别标签的源数据库和无类别标签的目标数据库,通过对子空间学习、特征选择及MMD约束等进行联合优化估计求解得到投影矩阵;在测试阶段,利用训练阶段得到的投影矩阵提取鲁棒情感特征,通过SVM方法分类得到对应的情感类别。
给定情感特征X=[Xs, Xt]∈Rm×n,其中Xs∈Rm×nl和Xt∈Rm×nu分别为源数据库和目标数据库的情感特征,nl和nu分别为对应的特征样本数量,n=nl+nu。假定Y=[Ys, Yt]∈Rn×c为类别标签矩阵,其中Ys=[y1, y2, …, ynl]T和Yt=[ynl+1, ynl+2, …, yn]T∈Rnu×c分别表示类别已知的源数据库和类别未知的目标数据库的情感类别标签矩阵,c为情感类别数。通过学习,一个投影矩阵U∈Rm×c将不同数据库的情感特征映射到一个公共特征子空间,则目标函数表示如下:
$ \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}, \mathit{\boldsymbol{U}}} \left\| {\mathit{\boldsymbol{Y}}-{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2. $ | (1) |
经典的子空间学习方法如主成分分析(principal component analysis, PCA)、线性判别分析(linear discriminant analysis, LDA)等[12]主要是通过寻找投影矩阵来获得低维鲁棒特征,它们在降维的同时并没有进行有效的特征选择,这在一定程度上影响了特征表示的准确性。不同于传统子空间学习方法,本文将子空间学习和特征选择进行联合求解,在提取特征子空间的同时引入l2, 1-范数[13]进行特征选择,则目标函数变为
$ \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}, \mathit{\boldsymbol{U}}} \left\| {\mathit{\boldsymbol{Y}}-{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2 + {\lambda _1}{\left\| U \right\|_{2, 1}}. $ | (2) |
其中λ1为规整系数。根据文[12], Y可以通过统一的图嵌入框架进行求解,本文采用的子空间方法是经典PCA方法。
上述目标函数并没有考虑不同数据库情感特征分布的差异。类似经典迁移学习方法中特征差异的度量方法,本文引入常用的MMD算法[6]来描述不同情感数据库的特征分布之间的相似度。
$ \begin{array}{l} {\rm{D}}\left( \mathit{\boldsymbol{U}} \right) = {\left\| {\frac{1}{{{n_l}}}\sum\limits_{i = 1}^{{n_l}} {{\mathit{\boldsymbol{y}}_i}}-\frac{1}{{{n_u}}}\sum\limits_{j = 1}^{{n_u}} {{\mathit{\boldsymbol{y}}_j}} } \right\|^2} = \\ \;\;\;\;\;\;\;\;\;\;\;{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{XM}}{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right). \end{array} $ | (3) |
其中:tr(·)表示矩阵的迹,M=[mij]∈Rn×n为相似度矩阵。mij表示为:
$ {m_{ij}} = \left\{ {\begin{array}{*{20}{l}} {\frac{1}{{n_l^2}}, }&{{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j} \in {\mathit{\boldsymbol{X}}_{\rm{s}}};}\\ {\frac{1}{{n_u^2}}, }&{{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j} \in {\mathit{\boldsymbol{X}}_{\rm{t}}};}\\ {-\frac{1}{{{n_l}{n_u}}}, }&{其他.} \end{array}} \right. $ | (4) |
将式(3)代入式(2)中,则目标函数变为
$ \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}, \mathit{\boldsymbol{U}}} \left\| {\mathit{\boldsymbol{Y}}-{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2 + {\lambda _1}{\left\| \mathit{\boldsymbol{U}} \right\|_{2, 1}} + {\lambda _2}{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{VU}}} \right). $ | (5) |
其中: V=XMXT, λ2为规整系数。
2 优化算法式(5)的目标函数中包含有l2, 1-范数,它非平滑且不能得到一个闭式解[13]。因此,本文提出了一种迭代方法对其进行求解。给定投影矩阵U,其l2, 1-范数定义为
$ {\left\| \mathit{\boldsymbol{U}} \right\|_{2, 1}} = \sum\limits_{i = 1}^m {\sqrt {\sum\limits_{j = 1}^n {u_{ij}^2} } = 2{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{QU}}} \right)} . $ | (6) |
其中: Q=[qii]∈Rm×m为一个对角矩阵,
$ {q_{ii}} = \frac{1}{{2\sqrt {\left\| {{\mathit{\boldsymbol{u}}^i}} \right\|_2^2 + \varepsilon } }}. $ | (7) |
因此,式(5)的目标函数可以重新表达为
$ {\cal O}\left\| {\mathit{\boldsymbol{Y}}-{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2 + {\lambda _1}{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{QU}}} \right) + {\lambda _2}{\rm{tr}}\left( {{\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{VU}}} \right). $ | (8) |
对上式进行迭代求解。
步骤1 固定Yt求U。
$ \begin{array}{l} \;\;\;\;\;\;\;\;\;\;\;\frac{{\partial {\cal O}}}{{\partial \mathit{\boldsymbol{U}}}} = \mathit{\boldsymbol{0}} \Rightarrow \\ \left( {\mathit{\boldsymbol{X}}{\mathit{\boldsymbol{X}}^{\rm{T}}}-{\lambda _1}\mathit{\boldsymbol{Q-}}{\lambda _2}\mathit{\boldsymbol{V}}} \right)\mathit{\boldsymbol{U}} = \mathit{\boldsymbol{XY}} \end{array} $ | (9) |
从式(7)可以发现Q同样未知且依赖于U。因此采用迭代方法对式(9)进行求解。固定U, 根据式(7)可以计算得到Q;接着固定Q,则U=(XXT-λ1Q-λ2V)-1XY。
步骤2 固定U求Yt。
$ {\cal O} = \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}} \left\| {\left[{{\mathit{\boldsymbol{Y}}_s}, {\mathit{\boldsymbol{Y}}_t}} \right] -{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{U}}} \right\|_F^2. $ | (10) |
上式等价于
$ {\cal O} = \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{Y}}_t}} \left\| {{\mathit{\boldsymbol{Y}}_t}-\mathit{\boldsymbol{X}}_{\rm{t}}^{\rm{T}}\mathit{\boldsymbol{U}}} \right\|_F^2. $ | (11) |
可通过经典的二次规划法对上式进行求解,然后将新求得Yt代入式(8)对U进行重新求解。重复执行步骤1和2,直到收敛。
3 仿真实验 3.1 实验数据库为了验证算法的有效性,在EMO-DB[15]和eNTERFACE[16]2个公开情感数据库进行实验。其中EMO-DB库是最为流行的经典语音情感数据库之一,它包含生气、烦躁、厌恶、害怕、高兴、伤心和中性7种情感类型,共选择494条语音数据用于实验;eNTERFACE库是一个经典的音视频情感数据库,它包含生气、厌恶、害怕、高兴、伤心和惊讶6类情感,共选择1 287条音频情感数据用于本实验。
3.2 实验设置为了保证跨库语音情感识别的性能,训练数据与测试数据的情感类型应保持一致。实验中选择2个数据库共有的5类情感即生气、厌恶、害怕、高兴和伤心用于测试。
本文采用2种方案对算法的有效性进行评价。在方案1中,采用有情感类别标签的eNTERFACE库进行训练,同时采用无情感类别标签的EMO-DB库进行测试;在方案2中,选择有情感类别标签的EMO-DB库用作训练,同时采用无情感类别标签的eNTERFACE库进行测试。对于语音情感特征,本文采用openSMILE工具箱[17]进行提取,同时选择INTERSPEECH 2010情感竞赛[18]的标准特征集进行评价,共包含1 582维特征,它是由34个底层描述子(low level descriptors, LLDs)和对应的一阶差分系数得到的统计特征。
为了评价本文提出算法的有效性,本文对以下几种方法进行了对比实验。
(1) 传统分类方法(traditional):在源数据库下训练得到的分类器被直接用于目标数据库的情感识别。
(2) 基于迁移稀疏编码的跨库语音情感识别方法(transfer sparse coding, TSC)[10]。
(3) 基于迁移非负矩阵分解的跨库语音情感识别方法(transfer non-negative matrix factorization, TNMF)[11]。
(4) 基于子空间迁移学习的跨库语音情感识别方法(transfer subspace learning, TSL),可以看作本文提出方法的特例(λ1=0)。
(5) 本文提出的基于子空间学习和特征选择融合的跨库语音情感识别方法(ours)。
实验中,将两个数据库分别均分成5份,每次随机地选择4份用于训练,另外1份用于测试。重复执行10次以尽量覆盖大多数的情况。由于训练数据和测试数据来自不同的数据库,情感特征分布不一致。很难直接采用传统的交叉验证方法对参数进行优化选择,采用搜索策略在区间{10-3, 10-2, 10-1, 1, 10, 102, 103}中对参数进行选择,最终λ1和λ2分别被优化设置为0.1和1。同时选择经典的线性SVM方法用于情感分类。
3.3 实验结果与分析表 1给出了不同方案下的情感识别结果。从表格中可以看出:无论是方案1还是2,提出的方法总能取得最优的识别效果;相比于传统方法,基于迁移学习的语音情感识别方法如TSC、TNMF、TSL和本文提出的方法,都明显提升了识别率,这说明迁移学习方法可以很好地实现跨库条件下的情感特征表示;同时,相比于经典子空间学习方法TSL,本文提出的方法可以取得更好的效果,这说明融入特征选择的必要性,在提取不同情感数据库的特征表示的同时,考虑特征选择可以显著提升跨库条件下的情感识别率。
识别方法 | 平均识别率/% | |
方案1 | 方案2 | |
traditional | 34.62 | 28.87 |
TSC | 50.61 | 44.98 |
TNMF | 51.96 | 43.99 |
TSL | 50.94 | 40.03 |
ours | 52.27 | 45.62 |
为了进一步验证算法的有效性,图 2和3分别给出了每一类情感在不同方案下的识别率。从图中可以发现:对于每一类情感,基于迁移学习的语音情感识别方法可以取得明显优于传统方法的效果;同时,本文提出的基于子空间学习和特征选择融合的方法能够取得最优的识别结果,这与表 1的实验结果相吻合。
4 结论
为了有效实现跨库条件下的语音情感识别,本文提出了一种基于子空间学习和特征选择融合的方法。在进行特征子空间学习的同时,通过引入特征选择的方法,并考虑不同情感数据库特征分布的差异,来提取满足不同数据库的鲁棒情感特征表示。在经典的EMO-DB和eNTERFACE情感数据库上进行实验评价。实验结果表明:相比于传统特征迁移学习方法,本文提出的基于子空间学习和特征选择融合的方法可以显著提高跨库条件下的情感识别率。目前的方法主要基于现有的情感特征进行分类识别,下一步将研究如何提取更有效的情感特征,如何与其他情感特征如语谱图特征、深度特征等进行有效融合,以进一步提升跨库条件下的语音情感识别率。
[1] |
韩文静, 李海峰, 阮华斌, 等.
语音情感识别研究进展综述[J]. 软件学报, 2014, 25(1): 37–50.
HAN W J, LI H F, RUAN H B, et al. Review on speech emotion recognition[J]. Journal of Software, 2014, 25(1): 37–50. (in Chinese) |
[2] | HAN K, YU D, TASHEV I. Speech emotion recognition using deep neural network and extreme learning machine[C]//Proceedings of the 15th Annual Conference of the International Speech Communication Association. Singapore: ISCA, 2014: 223-227. https://www.researchgate.net/publication/267213794_Speech_Emotion_Recognition_Using_Deep_Neural_Network_and_Extreme_Learning_Machine |
[3] | KINNUNEN T, LI H Z. An overview of text-independent speaker recognition:From features to supervectors[J]. Speech Communication, 2010, 52(1): 12–40. DOI:10.1016/j.specom.2009.08.009 |
[4] | HU H, XU M X, WU W. GMM supervector based SVM with spectral features for speech emotion recognition[C]//Proceedings of 2007 International Conference on Acoustics, Speech and Signal Processing (ICASSP). Honolulu, USA: IEEE, 2007: 413-416. http://ieeexplore.ieee.org/document/4218125/ |
[5] | El AYADI M, KAMEL M S, KARRAY F. Survey on speech emotion recognition:Features, classification schemes, and databases[J]. Pattern Recognition, 2011, 44(3): 572–587. DOI:10.1016/j.patcog.2010.09.020 |
[6] | WEISS K, KHOSHGOFTAAR T M, WANG D D. A survey of transfer learning[J]. Journal of Big Data, 2016, 3(1): 1–40. |
[7] | DENG J, ZHANG Z X, EYBEN F, et al. Autoencoder-based unsupervised domain adaptation for speech emotion recognition[J]. IEEE Signal Processing Letters, 2014, 21(9): 1068–1072. DOI:10.1109/LSP.2014.2324759 |
[8] | ABDELWAHAB M, BUSSO C. Supervised domain adaptation for emotion recognition from speech[C]//Proceedings of 2015 International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brisbane, Australia: IEEE, 2015: 5058-5062. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=7178934 |
[9] | HASSAN A, DAMPER R, NIRANJAN M. On acoustic emotion recognition:Compensating for covariate shift[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(7): 1458–1468. DOI:10.1109/TASL.2013.2255278 |
[10] | SONG P, ZHENG W M, LIANG R Y. Speech emotion recognition based on sparse transfer learning method[J]. IEICE Transactions on Information and Systems, 2015, 98(7): 1409–1412. |
[11] | SONG P, ZHENG W M, OU S F, et al. Cross-corpus speech emotion recognition based on transfer non-negative matrix factorization[J]. Speech Communication, 2016, 83: 34–41. DOI:10.1016/j.specom.2016.07.010 |
[12] | YAN S C, XU D, ZHANG B Y, et al. Graph embedding and extensions:A general framework for dimensionality reduction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(1): 40–51. DOI:10.1109/TPAMI.2007.250598 |
[13] | NIE F P, HUANG H, CAI X, et al. Efficient and robustfeature selection via joint l2, 1-norms minimization[C]//Proceedings of the 24th Annual Conference on Neural Information Processing Systems (NIPS). Vancouver, Canada: NIPS, 2010: 1813-1821. http://dl.acm.org/citation.cfm?id=2997098 |
[14] | HE R, TAN T N, WANG L, et al. l2, 1 regularized correntropy for robust feature selection[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA: IEEE, 2012: 2504-2511. http://dl.acm.org/citation.cfm?id=2354867 |
[15] | BURKHARDT F, PAESCHKE A, ROLFES M, et al. A database of German emotional speech[C]//Proceedings of INTERSPEECH. Lisbon, Portugal: ISCA, 2005: 1517-1520. http://www.researchgate.net/publication/221491017_A_database_of_German |
[16] | MARTIN O, KOTSIA I, MACQ B, et al. The eNTERFACE'05 audio-visual emotion database[C]//Proceedings of the 22nd International Conference on Data Engineering Workshops. Atlanta, USA: IEEE, 2006: 8-8. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1623803 |
[17] | EYBEN F, WÖLLMER M, SCHULLER B. Opensmile: The munich versatile and fast open-source audio feature extractor[C]//Proceedings of the 18th ACM International Conference on Multimedia. Firenze, Italy: ACM, 2010: 1459-1462. http://dl.acm.org/citation.cfm?id=1874246 |
[18] | SCHULLER B, STEIDL S, BATLINER A, et al. The INTERSPEECH 2010 paralinguistic challenge[C]//Proceeding of the 11th Annual Conference of the International Speech Communication Association. Makuhari, Japan: ISCA, 2010: 2795-2798. https://www.researchgate.net/publication/221481381_The_INTERSPEECH_2010_paralinguistic_challenge |