2. 黑龙江科技大学 计算机与信息工程学院, 哈尔滨 150027
2. School of Computer and Information Engineering, Heilongjiang Institute of Science and Technology, Harbin 150027, China
人类的发声器官自下而上包括肺部、 气管、 喉、 咽、 鼻腔、 口腔和上下唇。 当任意一个发声器官发生病变时都会导致一定的发音障碍,出现异常发音[1]。 在医学领域,常采用如频闪观测法、 喉镜检查、 内窥镜等手段来检查发音器官,确诊病变部位以进行诊治。 然而使用这些技术由于具有入侵性,不易实施,不被接受,检查结果也不完全可靠。 借助声学分析手段,根据病理语音特征进行计算机无损伤辅助诊断已经成为了当前研究的热点[2-3]。 但是发音器官结构的复杂性致使病变部位难以确定,因此病理语音特征与疾病特性明确的对应关系分析研究还处在探索阶段[4]。
通过病理语音来诊断发音器官的病变,不仅是医学工作者积极探索的诊治方法,也是语音研究工作者的努力方向。 2004年,Godino-Lorente提取了反映听觉效应的MFCC(Mel frequency cepstrum coefficients)特征,用F-Score值和Fisher判别率两种特征选择方法对MEEI语料库中82个病理与55个健康被试的持续发元音/a/进行识别,取得了94.07%的识别率[5]。 2007年,印度学者Shama[6]根据声带病变会引起嗓音嘶哑从而导致噪音增加的特点,提取了谐噪比(HNR)特征和关键频带能量谱两种特征,对MEEI语料库中53个健康和163个病理被试所发的持续元音/a/上分别取得了 94.28% 和92.38%的识别率。 2008年,Gelzinis[7]总结前人的经验,对喉部疾病进行了研究,提取了病理语音的基频、 扰动参数、 倒谱参数、 自相关特征和线性预测系数等特征,在自己采集的包括正常、 声带小结、 喉癌等人员的病理语料库上取得了 95.5% 的识别率,同时证实了基频和扰动参数对病理语音诊断有很大的作用。
近来也有学者开始对连续病理语音进行研究。 连续语音中存在无声段和包含强噪音等特点给特征提取、 分类识别带来很大困难,但连续语音中包含了语音信号中更多的动态和快速变化信息,也为高精准的病理语音分析提供了可能。 2012年,Zhou[8]提取了基于听觉的时域—频域调制特征进行病理声音分析,在NCSC[9]数据库中正常和病理两类连续语音上取得了68.3%的识别率,处于同类研究的领先水平。 总结来说,由于发声系统的复杂性,实际语音信号包含非平稳成分和时频域上的突变特征,传统声学特征不能很好地表现病理语音的动态特性; 假设病理音频信号在短时平稳的条件下提取病理语音特征,会造成了大量有用信息的丢失; 基于经典声学参数的病理语音检测仍然没有取得良好的效果。 S变换是一种可逆的线性时频分析方法,结合了小波变换与短时Fourier变换的优点,具有较好的时频分辨率和时频定位的能力[10],能够有效表征病理语音信号在频域上的突变特征,具有抗噪性强、 时频分辨率高的优点,在对非平稳信号进行处理方面表现出了良好的性能。 因此,对病理语音信号运用S变换进行时频分析,能够得到更加精细的时频结构。
本文针对病理语音的特征提取进行研究,分析语音的病理特征。 首先,提出基于S变换的语音病理特征MSCC(Mel S-transform cepstrum coefficients),并给出提取算法。 其次,为了验证提出特征的有效性,基于NCSC数据库,设计几组实验,分别与经典语音倒谱特征MFCC和当前常用声学特征的对比,并选用F-Score方法对特征进行评价,采用粒子群算法进行特征筛选,来评价MSCC特征的病理语音分类性能表现。 结果表明MSCC特征为病理语音的高精准分析与临床诊断提供了理论基础。
1 基于S变换的听感特征提取方法 1.1 S变换的基本思想S变换是由Stockwell等 [10]提出的一种时频分析方法,可以看作是短时Fourier变换和小波变换的结合。 信号的连续S变换定义为
$S\left( \tau ,f \right)=\int{\_}x\left( t \right)\frac{\left| f \right|}{2\pi }{{e}^{\frac{-{{f}^{2}}{{\left( \tau -t \right)}^{2}}}{2}}}{{e}^{-j2\pi ft}}dt.$ | (1) |
其中: j为虚数单位,f为频率; τ为平移因子,控制在时间轴上的平移。 S变换可以看成加了随频率调整的Gauss窗的Fourier变换,如式(2)和(3)所示; 也可以看成小波变换后乘以相位因子e(j2πft),实现了相位矫正,能够更准确地反映时频信息[11]。
$S\left( \tau ,f \right)=\int{\_}x\left( t \right)w\left( \tau -t,f \right){{e}^{-j2\pi ft}}dt,$ | (2) |
$w\left( \tau -t,f \right)=\frac{\left| f \right|}{2\pi }{{e}^{\frac{-{{f}^{2}}{{\left( \tau -t \right)}^{2}}}{2}}}.$ | (3) |
S变换中采用的是依赖于频率的宽度可变Gauss窗函数,如图 1所示。 可以看出,窗函数在低频段的窗口较宽,幅值较高,从而获得较高的频率分辨率; 而在高频段的窗口较窄,幅值较低,故可获得很高的时间分辨率[12]。
S变换时频图能够反映从低频到高频随时间变化的情况,能清楚地分辨出语音信号某一时刻所对应的频率,而且其在高频处有明显的优势。 图 2给出了针对一段病理语音,采用了相同的时间分辨率和频率分辨率,分别利用短时Fourier变换、 小波变换和S变换所生成的时频分析图。 S变换具有了短时Fourier变换和小波变换的优点,能够精细化病理语音的时频结构,非常适合于病理语音的非平稳、 动态、 快变信号的特征量提取。
令T表示取样时间间隔,则x(t)采样序列为x(t)=x(nT),n=0,1,…,N-1。 x(t)的S变换可以借鉴其离散Fourier变换来计算。 x(t)的Fourier变换为
$X\left[ k \right]=\frac{1}{N}\sum\limits_{k=0}^{N-1}{{}}x\left( t \right){{e}^{\frac{-2\pi jkn}{N}}},k=0,1,\cdots N-1.$ | (4) |
x(t)的离散S变换由Fourier变换得到:
$S\left[ h,k \right]=\begin{matrix} \sum\limits_{m=0}^{N-1}{{}}X\left( m+k \right){{e}^{h\frac{2\pi mj}{N}-\frac{2{{\pi }^{2}}{{m}^{2}}}{{{n}^{2}}}}},k\ne 0; \\ \frac{1}{N}\sum\limits_{m=0}^{N-1}{{}}X\left( m \right),k=0. \\ \end{matrix}$ | (5) |
其中h,m=0,1,…,N-1;
从式(5)可看出连续信号x(t)的采样时间序列x[n]经S变换后结果是一个N×N维的复时频矩阵S,其中行对应时间,列对应频率。 将S各个元素求模后得到一个矩阵,行向量表示信号某一时刻幅值随频率变化的分布,对应该时间点上的局部频谱,列向量表示信号某一频率处幅值随时间变化的分布。
1.2 病理语音的MSCC特征及其提取算法本文提出了图 3的基于S变换的语音特征MSCC,将S变换作为输入语音数据从时域到频域的转化方法,并将频谱信息映射到反映人耳听觉的Mel谱上,最后得到倒谱系数。 MSCC是对原有MFCC特征的改进,MFCC特征的提取是在假设声音信号短时平稳的条件下,通过对固定窗内的语音信号实施短时Fourier变换和Mel频率分割而获得的倒谱特征。 由于这种假设会模糊声音的频谱细节,造成信息的丢失,因而无法精确反映非平稳信号的瞬间变化[13]。 而S变换在低频处具有较高的频率分辨率,克服了MFCC提取过程中频谱信息丢失的问题,提高了准确性。
MSCC特征能很好地表征音频信号的动态特性,尤其是病理改变特征。 而S变换在时频分析时具有很高的时间复杂度,其时间复杂度为 O(N2lbN),因而为了节省时间及空间,对于病理语音的特征提取仍然采用分帧的形式,但S变换能够很好地反映非平稳信号的局部频谱,因而不需进行帧的移动。
MSCC特征的提取输入为采样时间序列x(t),帧长FrameLen,输出为MSCC特征C1,C2,…,CL。
分为以下几个步骤:
1) 分帧: 对x(t)以FrameLen为长度进行分帧;
2) S变换: 对分帧后的时间序列按式(5)进行S变换,得到S变换矩阵S;
3) 求能量谱: 对S矩阵各个元素求模,得到模矩阵,其对应于频谱,并对频谱求平方,得到能量谱。
4) 带通滤波: 构造由M个三角滤波器构成的滤波器组,本文M为26,滤波器组覆盖从0 HZ到采样率的二分之一,中心频率f(m)在Mel尺度上是等间距分隔的,f(m)的定义为
$\begin{align} & f\left( m \right)= \\ & \frac{N}{{{F}_{s}}}F_{mel}^{-1}{{F}_{mel}}\left( {{f}_{1}} \right)+m\frac{{{F}_{mel}}\left( {{f}_{h}} \right)-{{F}_{mel}}\left( {{f}_{1}} \right)}{M+1}. \\ \end{align}$ | (6) |
其中: fl和fh分别为滤波器的频率应用范围的最低频率和最高频率,N为是S变换的点数,Fs为采样频率,而F-1mel为Fmel的反函数。 F-1mel定义为
$~F_{mel}^{-1}\left( b \right)=700\left( {{e}^{b/2595}}-1 \right).$ | (7) |
三角滤波器的频率响应定义为
${{H}_{m}}\left( k \right)=\begin{matrix} 0,{{k}^{'}}<f\left( m-1 \right); \\ \frac{k-f\left( m-1 \right)}{f\left( m \right)-f\left( m-1 \right)},f\left( m-1 \right)\le {{k}^{´}}\le f\left( m \right); \\ \frac{f\left( m+1 \right)-k}{f\left( m+1 \right)-f\left( m \right)},f\left( m \right)\le {{k}^{´}}\le f\left( m+1 \right); \\ 0,{{k}^{´}}\ge f\left( m+1 \right). \\ \end{matrix}$ | (8) |
计算每一时刻每个滤波器组输出的对数能量为
$\begin{align} & x'\left( h,m \right)=\ln \sum\limits_{k=0}^{N-1}{{}}{{\left| S\left[ h,k \right] \right|}^{2}}{{H}_{m}}\left( k \right), \\ & 0\le m\le M. \\ \end{align}$ | (9) |
其中: S[h,k]为语音信号经S变换后hT时刻的频谱,x′(h,m)为hT时刻第个m滤波器的输出。
5) 离散余弦变换(DCT): 按式(11)将其映射到倒谱域,求得L个MSCC系数
$\begin{align} & C\left( h,n \right)=\sum\limits_{m=1}^{M}{{}}x'\left( h,m \right)\cos \frac{\pi n\left( m-0.5 \right)}{M}, \\ & 1\le n\le L. \\ \end{align}$ | (10) |
本文采用INTERSPEECH 2012 话者特性比赛提供的病理语料库NCSC中的训练集和开发集来测试所提出方法的性能,统一使用支持向量机(SVM)作为分类器[14]。
2.1 语料NCSC由荷兰头颈肿瘤手术癌症研究所录制。 语料包括55个(10个男性,45个女性)不可动手术的头颈癌患者在经历化疗的3个阶段(治疗前和治疗后10周和治疗后12个月)的说话录音。 录音方式为念读德语中性文本。 13个毕业的或者即将毕业的语言病理学家(平均年龄23.7岁)对这些录音进行可懂度感知评价,评价指标打分从1到7。 通过对每个语句进行评价,得到13个评价者对每个语句评价的统计值。 INTERSPEECH 2012 话者特性病理比赛中按着统计值将数据分成两类: 可懂(I)和不可懂(NI),其中可懂类的加权统计值从5.77到6.71,不可懂类的从1.99到5.72。 语料采样率为16 kHz,量化为16 b。 语料库中用来训练和测试(开发集)的数据以4:3的比例按年龄、 性别、 本土化分层随机分配,语料分布数量如表 1所示。
2.2 评价指标
本文为了评价单个特征的重要性,选用F-Score作为评价指标。 给定样本集XK∈
${{F}_{i}}=\frac{\sum\limits_{j=1}^{l}{{}}{{\left( \bar{x}_{i}^{j}-{{{\bar{x}}}_{i}} \right)}^{2}}}{\sum\limits_{j=1}^{l}{{}}\frac{1}{{{n}_{j}}-1}\sum\limits_{k=1}^{{{n}_{j}}}{{}}{{\left( x_{k,i}^{j}-\bar{x}_{i}^{j} \right)}^{2}}}.$ | (11) |
其中: xi表示第i个特征在整个样本集上的平均值,xij表示第i个特征在第j类数据集上的平均值,xk,ij表示第j类的第k个样本点的第i维特征的特征值。 F-Score越大,表明此特征对分类的辨别能力越强。
本文使用灵敏度Sensitivity、 特异度Specificity、 识别率Accuracy、 召回率Recall、 无权重平均召回UA作为评价指标。
$Sensitivity=\frac{TP}{\left( TP+FN \right)},$ | (12) |
$Specificity=\frac{TN}{TN+FP},$ | (13) |
$Accuracy=\frac{TP+TN}{TP+FN+FP+TN},$ | (14) |
$Recall=\frac{TP}{TP+FP},$ | (15) |
$UA=\frac{Recall\left( I \right)+Recall\left( NI \right)}{2}.$ | (16) |
其中: TP为被模型预测为正的正样本数量,TN为被模型预测为负的负样本数量,FP为被模型预测为正的负样本数量; FN为被模型预测为负的正样本数量。
2.3 MSCC与MFCC的语音病理特点表达能力对比为了验证MSCC特征对传统MFCC特征在病理语音分类中的优越性,本文设计了MSCC与MFCC对比实验。 对NCSC中的病理声音提取MSCC特征和MFCC特征,用901个训练集样本训练SVM,SVM选择径向基核函数,用746个开发集测试。 MSCC和MFCC识别结果对比如表 2所示。
从表 4可以看出MSCC特征比MFCC特征识别的各个评价指标均有所提高,其中UA和Accuracy明显提升。 由此可见MSCC在病理声音识别中比MFCC更加有效,通过S变换提取的特征包含了更多的信息。 用式(2)对MFCC及MSCC特征进行评价,如图 4所示。 左侧MFCC的F-Score值一般都低于0.2,平均值在0.09; 而右侧MSCC的F-Score值一般最大达到将近0.8,平均值在0.39附近。 可以很明显地看出: MSCC特征比MFCC特征包含的信息多,能够更好地表现病理语音特性。
2.4 MSCC与其他特征集实验结果比较分析
为了能够从不同侧面反映病理语音的特性,构造出较为全面的特征集,本文对其他声学特征进行研究。 基频特征在病理声音的研究中非常重要,除了能反映音调的高低还能很好地反映音质的好坏[15],能够直接反映疾病对发声器官的损害程度。 同时基频微扰、 振幅微扰及谐噪比也是量化和分析病理声音重要参数。 基于频谱的相关特征被认为是声道(vocal tract)形状变化和发声运动(articulator movements)之间相关性的体现,能准确反映语音疾病如各种息肉、 癌症等发声系统的实质性变化。 因此,本文进一步提取上述特征构造一个基础声学特征集合(basic acoustics feature set,BAFS),如表 3所示。
分类 | 特征 | 维数 |
韵律特征 | 基频 | 15 |
基频微扰 | 15 | |
声音质量特征 | 振幅微扰 | 15 |
谐噪比 | 15 | |
基于频谱的相关特征 | 频带能量 | 260 |
谱质心 | 10 | |
频谱熵 | 10 | |
谱通量 | 10 | |
谱偏态 | 10 | |
谱峰态 | 10 | |
频谱斜率 | 10 | |
频谱衰减点 | 40 |
本文还构建了由84维的MSCC特征和430维的BAFP构成的共514维的病理语音特征集。
MSCC特征与其他构建的特征集用SVM做分类器进行实验对比分析,结果如表 4所示。 基线(Baseline)特征来源于2012年INTERSPEECH,为6125维[16]。
特征 | Recall (I)/% | Recall (NI)/% | UA/% | Accuracy /% |
MSCC | 67.15 | 62.36 | 64.76 | 63.67 |
BAFP | 52.11 | 61.74 | 56.93 | 56.6 |
MSCC+BAFP | 68.28 | 82.73 | 75.51 | 74.66 |
Baseline | — | — | 61.10 | — |
可以看出BAFP特征包含的特征维数比MSCC特征维数要多,但是识别结果却比MSCC特征识别结果要低,但是将MSCC与BAFP组合构造的特征集进行分类,识别结果却得到了提升,可见MSCC与BAFP在整个特征集中均是有作用的。 其次由MSCC与BAFP组合构造的特征集比基线特征维数少很多,而且得到的UA比基线特征的提高了14.41%,由此可见本文提出的特征集有效。
2.5 MSCC与常用声学特征在特征筛选中的效果对比本文提取的514维特征存在特征维度高,信息冗余大等问题,大大影响了识别结果。 通过对特征性质进一步分析,提出了基于粒子群优化原理(particle swarm optimization,PSO)的病理特征筛选策略。 粒子群算法由Kennedy等[17]受到鸟群扑食行为的研究结果启发于1995年提出。 PSO算法具有执行速度快,受维数变化影响小等优点。 本文定义优化后特征集记为PSO-Features。
通过粒子群优化后,选择出226维PSO-Features,实验结果对比如表 5所示。
特征 | Sensitivity /% | Specificity /% | Recall (I)/% | Recall (NI)/% | UA /% | Accuracy /% |
MSCC +BAFP | 83.28 | 67.41 | 68.28 | 82.73 | 75.51 | 74.66 |
PSO- Features | 86.80 | 67.41 | 69.16 | 85.85 | 77.51 | 76.27 |
由表 5可以看出,粒子群优化后的Sensitivity提高了3.52%,Specificity保持不变,UA提高了2%,Accuracy提高了1.6%,通过PSO-Features得到的UA为77.51%,远远高于基线 61.40%的结果,由此可见,通过粒子群算法优化,特征维数降低,识别率提高。 另外,降维前后的特征集构成如图 5所示。 514维特征集降维后变为226维,其中,84维的MSCC特征降维后剩下60维,去掉大约25%; 430维BAFP特征降维后剩下166维,去掉大约60%; MSCC特征在降维后在特征集中所占比重明显高于BAFP特征的,证明MSCC特征在整体特征集中的有效性。
3 结 论
本文提出了一种基于S变换的MFCC病理语音特征MSCC。 基于NCSC语料库,首先比较了MSCC与MFCC的实验结果,然后将MSCC与常用的特征集进行对比分析,最后构建基于MSCC和BAFP的特征集,利用粒子群算法对该特征集进行优化,优化后MSCC特征在特征集中所占比例有显著提高,证明MSCC特征的优越性。 下一步可以采用更加有效的特征筛选方法如可视化的方法,进一步去除特征集的冗余信息。 总体看来,MSCC特征在病理语音识别方面是一个有效的特征提取方法,为病理声音进一步的临床诊断提供了技术支持。
[1] | Hernandez-Espinosa C, Gomez-Vilda P, Godino-Llorente J I, et al. Diagnosis of vocal and voice disorders by the speech signal[C]//Proceedings of the International Joint Conference on Neural Networks. Piscataway, NJ, USA:IEEE Press, 2000:253-258. |
[2] | 彭策. 基于声学与小波熵及自回归模型的病态嗓音诊断新方法研究[D]. 天津:天津大学, 2008. PENG Ce. Study on the Novel Method of Pathological Voice Diagnosis Based on Acoustics, Wavelet Entropy and Auto-Regressive model[D]. Tianjin:Tianjin university, 2008. (in Chinese) http://cdmd.cnki.com.cn/article/cdmd-10056-2009070953.htm |
[3] | 李宁. 基于声学参数和支持向量机的病理嗓音分类研究[D]. 上海:华东师范大学, 2013. LI Ning. Automatic Classification for Pathological Voice based on Acoustic Parameters and SVM[D]. Shanghai:East China Normal University, 2013. (in Chinese) http://cdmd.cnki.com.cn/article/cdmd-10269-1013269231.htm |
[4] | 张涛. 基于语音特征的帕金森病可视化诊断方法研究[D]. 秦皇岛:燕山大学, 2012. ZHANG Tao. Visual Diagnostic Method for Parkinson's Disease based on Speech Features[D]. Qinhuangdao:Yanshan University, 2012. (in Chinese) http://cdmd.cnki.com.cn/article/cdmd-10216-1012025190.htm |
[5] | Godino-Llorente J I, Gomez-Vilda P. Automatic detection of voice impairments by means of short-term cepstral parameters and neural network based detectors[J]. Biomedical Engineering, IEEE Transactions on , 2004, 51 (2) : 380–384. DOI:10.1109/TBME.2003.820386 |
[6] | Shama K, Cholayya N U. Study of harmonics-to-noise ratio and critical-band energy spectrum of speech as acoustic indicators of laryngeal and voice pathology[J]. EURASIP Journal on Applied Signal Processing , 2007 (1) : 1–10. |
[7] | Gelzinis A, Verikas A, Bacauskiene M. Automated speech analysis applied to laryngeal disease categorization[J]. Computer Methods and Programs in Biomedicine , 2008, 91 (1) : 36–47. DOI:10.1016/j.cmpb.2008.01.008 |
[8] | Zhou X, Garcia-Romero D, Mesgarani N, et al. Automatic intelligibility assessment of pathologic speech in head and neck cancer based on auditory-inspired spectro-temporal modulations[C]//The 13th Annual Conference of the International Speech Communication Association. Portland, OR, USA:ISCA, 2012:542-545. |
[9] | Clapham R P, van der Molen L, van Son R, et al. NKI-CCRT corpus-speech intelligibility before and after advanced head and neck cancer treated with concomitant chemoradiotherapy[C]//Proceedings of the Eighth International Conference on Language Resources and Evaluation, Istanbul, Turkey:ELRA, 2012:3350-3355. |
[10] | Stockwell R G, Mansinha L, Lowe R P. Localization of the complex spectrum:the S transform[J]. IEEE Transactions on Signal Processing , 1996, 44 (4) : 998–1001. DOI:10.1109/78.492555 |
[11] | Ventosa S, Simon C, Schimmel M, et al. The S-transform from a wavelet point of view[J]. IEEE Transactions on Signal Processing , 2008, 56 (7) : 2771–2780. DOI:10.1109/TSP.2008.917029 |
[12] | Kazemi K, Amirian M, Dehghani M J. The S-transform using a new window to improve frequency and time resolutions[J]. Signal, Image and Video Processing , 2014, 8 (3) : 533–541. DOI:10.1007/s11760-013-0551-1 |
[13] | Godino-Llorente J I, Gomez-Vilda P, Blanco-Velasco M. Dimensionality reduction of a pathological voice quality assessment system based on Gaussian mixture models and short-term cepstral parameters[J]. IEEE Transactions on Biomedical Engineering , 2006, 53 (10) : 1943–1953. DOI:10.1109/TBME.2006.871883 |
[14] | Schuller B, Steidl S, Batliner A, et al. The INTERSPEECH 2012 speaker trait challenge[C]//The 13th Annual Conference of the International Speech Communication Association. Portland, OR, USA:ISCA, 2012:254-257. |
[15] | Carmichael J. Classifying voice quality via pitch and spectral analysis[C]//Proceedings of the CUBE International Information Technology Conference. New York, USA:ACM, 2012:429-434. |
[16] | Kim J, Kumar N, Tsiartas A, et al. Intelligibility classification of pathological speech using fusion of multiple subsystems[C]//The 13th Annual Conference of the International Speech Communication Association. Portland, OR, USA:ISCA, 2012:534-537. |
[17] | Eberhart R C, Kennedy J. A new optimizer using particle swarm theory[C]//Proceedings of the sixth international symposium on micro machine and human science. Piscataway, NJ, USA:IEEE Press, 1995:39-43. |