基于DNN的发音偏误趋势检测
张劲松 1,2 , 高迎明 1 , 解焱陆 1     
1. 北京语言大学 信息科学学院, 北京 100083 ;
2. 北京语言大学 对外汉语研究中心, 北京 100083
摘要:正音反馈的计算机辅助对外汉语发音训练系统已有发音偏误趋势的标注体系和基于HMM的偏误趋势检测系统。为了进一步提高系统的性能,该文应用深度神经网络进行声学建模,比较Mel频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)、感知线性预测分析系数(perceptual linear predictive analysis,PLP)和Mel滤波器组系数(Mel filter bank,FBank)3种声学特征参数,并利用网格联合技术整合3种声学特征所得的候选网格。实验结果表明:DNN-HMM模型比GMM-HMM实现了更高检测正确率。针对不同发音偏误趋势,3种声学特征有不同表现,联合系统取得最高性能,最终性能为:错误拒绝率5.5%,错误接受率35.6%,检测正确率88.6%。
关键词计算机辅助发音训练     发音偏误检测     深度神经网络    
Mispronunciation tendency detection using deep neural networks
ZHANG Jinsong1,2 , GAO Yingming1 , XIE Yanlu1     
1. College of Information Science, Beijing Language and Culture University, Beijing 100083, China ;
2. Center for Studies of Chinese as a Second Language, Beijing Language and Culture University, Beijing 100083, China
Abstract:A previous computer aided pronunciation training (CAPT) system with instructive feedback used mispronunciation tendency labeling in a GMM-HMM based detection system. This system is improved here using a DNN-HMM to model the mispronunciation with comparisons of the effects of three kinds of acoustic features, the mel-frequency cepstral coefficient (MFCC), the perceptual linear predictive analysis (PLP) and the Mel filter bank (FBank). The lattice rescore method is also used with these three features. The results show that the DNN-HMM gives a better detection rate than the conventional approach based on the GMM-HMM. Different features behave differently in capturing the specific mispronunciation tendencies, so the integration of these three features based on the lattice rescore gives the best results with an FRR of 5.5%, FAR of 35.6%, and DA of 88.6%.
Key words: computer aided pronunciation training     mispronunciation detection     deep neural network    

以语音技术为支撑的计算机辅助语言学习系统(computer-assisted language learning,CALL),特别是基于自动语音识别技术的计算机辅助发音训练系统(computer aided pronunciation training,CAPT),在近几年受到大量关注[1-11]。从反馈形式角度看,CAPT系统可大致分为发音质量打分和发音错误检测2种类型。置信分数容易从自动语音识别系统中获得,并且可以不限制学习者母语背景。研究者对基于置信分数方法的自动发音质量打分做了大量探索[1-3],包括从话者层级的评测到音素级的评测。其中在句子层级[2]和话者层级[3]的打分已经能接近专家水平。发音质量打分更适合用于对学习者的整体发音能力进行评判,但是针对学习者偏误发音如何纠正却无法给出指导性反馈。

目前,越来越多的研究者们开始关注发音偏误检测,其目标是以高精度检测发音错误并给出相应的正音反馈。Neri等[4]研究发现,即使以有限形式信息提供正音反馈,也能改善学习者在音素层级的发音质量,同时对学习者的学习动力也有积极作用。为了在音素层级确定学习者偏误发音的位置和类型,Harrison 等[5]利用拓展识别网络创建了一个音素级的发音偏误检测和诊断的原型。事实上,学习者的大多数偏误发音往往只是相对标准发音的少许偏离,而不是简单的音素插入、 删除和替换,Cao等[6]在以往研究中采用严式标注设计了一套记音符号来标记发音偏误趋势,通过GMM-HMM声学建模实现了发音偏误趋势检测系统,并评估了其可行性[7]

然而音素级发音偏误检测作为计算机辅助发音训练系统的重要组件,其正确率仍有待提高。深度神经网络 (deep neural network,DNN) 不仅显著削减了语音识别错误,也被成功应用到CAPT系统[8]。一些研究者在英语二语学习发音检测和诊断中应用DNN取得显著效果[9-11],把这个方法拓展到发音质量评分上也获得相似的性能改善[3]。本文在以往研究框架上[7],探究了基于DNN声学建模的发音偏误趋势检测性能。此外,借鉴语音识别中利用多种声学特征以及系统联合技术[12-14],在声学参数上本文比较了常用频谱特征参数在4大类偏误类型的检测性能,利用网格联合技术整合3种声学特征系统,获得最佳检测性能。

1 发音偏误趋势的定义及标注 1.1 发音偏误趋势的定义

外国学生在学习汉语时会出现一些常见的、 显著的发音偏误,这些发音偏误往往是由于发音位置或发音方法的不准确导致的。二语学习者在进行发音练习时,由于受到母语负迁移等作用的影响,其发音位置常常会倾向于母语中相似音的发音位置,同样地,如果二语中的发音方法在其母语中缺失,则学习者将很难正确掌握新的发音方法。外语学习者的偏误发音不是简单的音素插入、 删除和替换,而是相对标准发音的少许偏离。也就是说,偏误发音往往介于2个音位类型之间而非绝对的音位替换[15]。Cao等[6]根据发音位置和发音方法的不准确定义了相应的发音偏误趋势,包括高化,低化,前化,后化,长化,短化,央化,圆唇化,展唇化,擦音化,边音化,浊音化,卷舌化等。

1.2 发音偏误趋势的标注

[6]设计了大量的记音符号来表征学习者的发音偏误类型。另外,有时也会同时用多个符号联合表示复杂的发音变化情况。基于BLCU-CAPT-1的标注规则进行了多层的语音标注工作,包括字、 音节、 声韵母以及声调、 语调等。本文使用声韵层,表 1为部分偏误标注规范。

表 1 面向CAPT汉语中介语语音语料库音段标注规范(部分)
类型标注符号偏误举例备注/说明
展唇化wu{w}u被发成了不圆唇音
圆唇化oe{o}e似被发成了圆唇音
短化p{; }p送气段时长不够
后化-n{-}前鼻音近似成后鼻音
舌叶化shsh{sh}普通话的sh被发成x

2 发音偏误检测系统 2.1 基于自动语音识别的检测框架

本文使用基于统计语音识别的检测框架来实现发音偏误的自动检测功能。整个检测框架如图 1所示。系统首先提示学习者要读的句子,同时根据学习文本产生相应的扩展发音网络,然后进行声学模型的匹配,最后对比识别出的音素序列和所读句子正确发音序列作出系统决策,并根据发音偏误知识库给出学习者偏误发音的纠正方法。

图 1 检测系统框架图

2.2 DNN-HMM声学模型

DNN-HMM声学模型整个训练过程大致分为2个阶段,DNN结构如图 2所示。

图 2 DNN结构图

无监督预训练阶段采用受限Boltzmann机来训练深度置信网络(deep belief net,DBN)[16]。由于输入特征是连续变量,前2层用Gaussian-Bernoulli RBM建模,其他隐层用Bernoulli-Bernoulli RBM建模。在预训练好的DBN之上是softmax层,包含单元与GMM-HMM系统经决策树聚类后的三音素状态数一致。有监督训练阶段需要有已训练好的GMM-HMM模型来获得状态类别以及各状态之间的转移概率,并用该模型对训练数据进行强制对齐,得到语音特征对应的帧级别的状态标注,最后利用反向传播算法(back-propagation,BP)进行参数优化。

2.3 基于音素的拓展发音网络

拓展发音网络是对学习者所有可能的发音的一种表示形式。网络中同时包含了正确发音和所有可能的偏误发音,这些发音变化可以通过查找发音词典来获得。本文所使用的发音词典是根据标注规则导出的。有了这样的词典,系统就可以自动地构建学习者所学语句的扩展发音网络。图 3为句子“两块五一斤”的扩展发音网络示意图,其中{}表示音素可能的发音偏误。

图 3 扩展发音网络

3 实 验 3.1 实验配置

实验中收集了大规模汉语二语语音语料库,即北京语言大学中介语语音语料库[6]。本实验所用语料取自其中7位日本女学生的连续语音,每人约301句话(日常用语)。6位语音学专业的研究生对其进行了交叉标注。当出现不一致时,将请语音学专家对其进行判定。实验语料统计结果如表 2所示。80%的数据用于训练,其余用作测试。

表 2 实验语料统计结果
文本301句日常用语
录音人7个日本女生
句子总数1 899
音素总数26 431
每句话平均音素数14
标注者人数6
每句话标注者人数2

实验选用了3种常用且易提取的频谱特征参数: Mel频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)、 感知线性预测分析系数(perceptual linear predictive analysis,PLP)和直接采取对数域的Mel滤波器输出作为声学特征,即filter-bank(FBank)特征,相比MFCC和PLP来说,FBank包含更完整的信息。在以往的研究中[7],使用的是三状态、 上下文相关三音素状态(声韵母)的GMM-HMM-MFCC声学建模,区分性训练准则采用的是最小音素错误(MPE)准则。本实验中以此为基线,后续实验使用与此相同的基本配置。本实验中构建了3种不同声学特征检测系统,其中使用的声学特征分别为: 13维的MFCC,13维的PLP,23维的FBank及其一阶、 二阶差分参数,以20 ms为窗长,10 ms为帧移提取。DNN-HMM声学模型的输入是当前帧以及向前向后各5帧共11帧构成的特征向量。

3.2 评价指标

实验的检测结果共有4种: 正确接受(TA)、 正确拒绝(TR)、 错误接受(FA)和错误拒绝(FR),如表 3所示。根据这4种检测结果采用3种常见的评价指标来衡量实验的效果,分别是错误接受率(FAR),学习者的错误发音被系统检测为正确发音的百分比; 错误拒绝率 (FRR),学习者的正确发音被系统检测为错误发音的百分比; 诊断正确率(DA),系统的检测正确率,即系统的检测结果与标注结果一致。计算公式如下:

$FAR=\frac{FA}{FA+TR}.$
$FRR=\frac{FR}{FR+TA}.$
$DA=\frac{TA+TR}{TA+TR+FA+FR}.$
表 3 实验结果分类
识别结果说明
TA正确发音检测为正确发音
TR偏误发音检测为偏误发音
FA偏误发音检测为正确发音
FR正确发音检测为偏误发音

3.3 实验结果

考虑到数据集的大小,为防止训练样本不充分导致声学模型不可靠,本文共对65种具体发音偏误样本数降序排列,实验中取了最高频的16种偏误趋势,占偏误样本总数的61.4%。在上述3种评价指标中,尽管实验中希望在保证诊断正确率高的同时,尽量降低2类错误率,然而错误拒绝率和错误接受率之间存在一种内在的权衡。从CAPT的目的出发,关键是要避免把学习者的正确发音判为偏误发音而削弱他们的学习信心,因此实验中以高的诊断率和较低的错误拒绝率为目标进行参数优化。为了保证结果的可靠性,本文采取了k折交叉检验(k=5),最终结果取5次平均值。实验首先对比了DNN和GMM 2种建模方法,结果如表 4所示。

表 4 GMM与DNN模型检测结果(%)
声学模型FRRFARDA
GMM-HMM+MFCC8.032.686.0
DNN-HMM+MFCC6.735.987.6

表 4可知,相比传统GMM-HMM模型,DNN-HMM模型尽管在FAR上稍有退化,但FRR和DA都得到了改善。后续实验也都采用DNN-HMM模型。

对16种偏误趋势做进一步分析,可归纳4大类。

1) 唇形的圆、 展偏误类型: 发圆唇音时唇形有些展化或发展唇音时嘴唇出现圆化现象。

2) 舌位前后或鼻音前后偏误类型: 发元音时舌位过于靠前或靠后,前鼻音发成近似后鼻音。

3) 短化偏误类型: 发送气音时送气时长不够的偏误类型。

4) 舌叶化偏误类型: 日本学生在发 zh、 ch、 sh时易出现舌叶化的偏误发音。

针对这4类特定偏误类型,实验中又分别用MFCC、 PLP、 FBank特征进行声学建模,对比不同系统的检测性能,统计结果如图 47所示。

图 4 唇形偏误检测性能

图 5 前后化偏误检测性能

图 6 短化偏误检测性能

图 7 舌叶化偏误检测性能

观察图 4,与MFCC和PLP特征相比,FBank特征有最小的FRR和FAR 2种错误率以及最高的正确诊断率DA。可知FBank特征在唇形偏误类型检测上性能更好。观察图 5-7可知,PLP特征在前后化偏误类型和舌叶化偏误类型检测上性能更好,MFCC特征在短化偏误类型检测上性能更好。

上述分析可知,即使都是频谱特征,不同的声学参数对特定偏误类型特性的捕获效果也是不同的,因此实验中利用网格联合技术对3种系统产生的候选网格进行联合,再基于最小Bayes(MBR)对新网格解码。表 5给出了4种系统对16种偏误类型的整体检测结果,联合系统获得最好检测结果(FRR=5.5%,FAR=35.6%,DA=88.6%)。

表 5 不同声学特征以及系统联合检测结果(%)
声学模型FRRFARDA
DNN-HMM+PLP6.139.487.4
DNN-HMM+MFCC6.735.987.6
DNN-HMM+FBank6.834.687.8
System combination5.535.688.6

4 结 论

对于计算机辅助发音训练系统(CAPT)来说,高准确率的检测效果及根据检测结果给出指导性的反馈是两个关键的评价指标。本文根据学习者发音位置和发音方法不准确产生的发音偏误趋势,运用深度神经网络(DNN)进行声学建模,基于统计语音识别框架做发音偏误趋势检测。此外,构建了3种不同声学特征的检测系统,可以对特定偏误类型更有效捕获。通过系统联合得到整体最佳检测效果(FRR=5.5%,FAR=35.6%,DA=88.6%)。同时可以看到,系统仍有一定提升空间,可以从以下方面进行改进: 引入特定的区分性特征(如VOT、 共振峰等)或专用分类器来检测特定发音偏误类型; 基于二语语料库音素级标注的统计构建能体现不同音素概率的拓展识别网络[17]; 加大训练数据规模进一步改善声学模型。

参考文献
[1] Witt S M. Automatic error detection in pronunciation training:Where we are and where we need to go[C]//Proceedings of the International Symposium on Automatic Detection of Errors in Pronunciation Training (IS ADEPT). Stockholm, Sweden, 2012:1-8.
[2] Zheng J, Huang C, Chu M, et al. Generalized segment posterior probability for automatic Mandarin pronunciation evaluation[C]//The International Conference on Acoustics, Speech and Signal Processing. Hawii, USA:IEEE Press, 2007:201-204. http://cn.bing.com/academic/profile?id=1999494183&encoded=0&v=paper_preview&mkt=zh-cn
[3] Hu W, Qian Y, Soong F K. A new DNN-based high quality pronunciation evaluation for computer-aided language learning (CALL)[C]//Proceedings of Conference of International Speech Communication Association. Lyon, France:International Speech Communication Association Press, 2013:1886-1890. http://cn.bing.com/academic/profile?id=2398741870&encoded=0&v=paper_preview&mkt=zh-cn
[4] Neri A, Cucchiarini C, Strik H. ASR-based corrective feedback on pronunciation:Does it really work?[C]//Proceedings of Conference of International Speech Communication Association. Pittsburgh PA, USA:International Speech Communication Association Press, 2006:1982-1985.
[5] Harrison A M, Lo W K, Qian X, et al. Implementation of an extended recognition network for mispronunciation detection and diagnosis in computer-assisted pronunciation training[C]//Proceedings of the 2nd ISCA Workshop on Speech and Language Technology in Education. Warrickshire. Brighton, United Kingdom:International Speech Communication Association Press, 2009:45-48. http://cn.bing.com/academic/profile?id=2400818677&encoded=0&v=paper_preview&mkt=zh-cn
[6] Cao W, Wang D, Zhang J, et al. Developing a Chinese L2 speech database of Japanese learners with narrow-phonetic labels for computer assisted pronunciation training[C]//Proceedings of Conference of International Speech Communication Association. Chiba, Japan:International Speech Communication Association Press, 2010:1922-1925. http://cn.bing.com/academic/profile?id=287073639&encoded=0&v=paper_preview&mkt=zh-cn
[7] Duan R, Zhang J, Cao W, et al. A Preliminary study on ASR-based detection of Chinese mispronunciation by Japanese learners[C]//Proceedings of Conference of International Speech Communication Association. Singapore:International Speech Communication Association Press, 2014:1478-1481. http://cn.bing.com/academic/profile?id=2403033074&encoded=0&v=paper_preview&mkt=zh-cn
[8] Li K, Meng H. Mispronunciation detection and diagnosis in l2 english speech using multi-distribution Deep Neural Networks[C]//Proceedings of the International Symposium on Chinese Spoken Language Processing (ISCSLP). Singapore:IEEE Press, 2014:255-259. http://cn.bing.com/academic/profile?id=1992340436&encoded=0&v=paper_preview&mkt=zh-cn
[9] Hu W, Qian Y, Soong F K. A DNN-based acoustic modeling of tonal language and its application to Mandarin pronunciation training[C]//Acoustics, Speech and Signal Processing (ICASSP). Florence, Italy:IEEE Press, 2014:3206-3210. http://cn.bing.com/academic/profile?id=2088167551&encoded=0&v=paper_preview&mkt=zh-cn
[10] Qian X, Meng H M, Soong F K. The use of DBN-HMMs for mispronunciation detection and diagnosis in L2 English to support computer-aided pronunciation training[C]//Proceedings of Conference of International Speech Communication Association. Portland, USA:International Speech Communication Association Press, 2012:775-778. http://cn.bing.com/academic/profile?id=2402640444&encoded=0&v=paper_preview&mkt=zh-cn
[11] Hu W, Qian Y, Soong F K. A new neural network based logistic regression classifier for improving mispronunciation detection of L2 language learners[C]//Proceedings of the International Symposium on Chinese Spoken Language Processing (ISCSLP). Singapore:IEEE Press, 2014:245-249. http://cn.bing.com/academic/profile?id=1965370992&encoded=0&v=paper_preview&mkt=zh-cn
[12] Golik P, Tüske Z, Schlüter R, et al. Development of the RWTH transcription system for Slovenian[C]//Proceedings of Conference of International Speech Communication Association. Lyon, France:International Speech Communication Association Press, 2013:3107-3111. http://cn.bing.com/academic/profile?id=2397794901&encoded=0&v=paper_preview&mkt=zh-cn
[13] Zolnay A, Schlüter R, Ney H. Acoustic feature combination for robust speech recognition[C]//The International Conference on Acoustics, Speech and Signal Processing. Philadelpnia, PENN, USA:IEEE Press, 2005:457-460. http://cn.bing.com/academic/profile?id=2156983866&encoded=0&v=paper_preview&mkt=zh-cn
[14] Siniscalchi S M, Li J, Lee C H. A study on lattice rescoring with knowledge scores for automatic speech recognition[C]//Proceedings of Conference of International Speech Communication Association. Pittsburgh PA, USA:International Speech Communication Association Press, 2006:517-520. http://cn.bing.com/academic/profile?id=202359724&encoded=0&v=paper_preview&mkt=zh-cn
[15] Yoon S Y, Hasegawa-Johnson M, Sproat R. Landmark-based automated pronunciation error detection[C]//The International Conference on Acoustics, Speech and Signal Processing. Dallas, TX, USA:IEEE Press, 2010:614-617. http://cn.bing.com/academic/profile?id=12857174&encoded=0&v=paper_preview&mkt=zh-cn
[16] Hinton G, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7):1527-1554. http://cn.bing.com/academic/profile?id=2136922672&encoded=0&v=paper_preview&mkt=zh-cn
[17] Luo D, Yang X, Wang L. Improvement of segmental mispronunciation detection with prior knowledge extracted from large L2 speech corpus[C]//Proceedings of Conference of International Speech Communication Association. Florence, Italy:International Speech Communication Association Press, 2011:1593-1596. http://cn.bing.com/academic/profile?id=2404722202&encoded=0&v=paper_preview&mkt=zh-cn