2. 新疆大学 信息科学与工程学院, 乌鲁木齐 830046
2. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China
语音数据库是进行语音识别研究的基础。国际上比较著名的几个数据库,例如RM (https://catalog.ldc.upenn.edu/LDC96S39)、Aurora (http://aurora.hsnr.de/)、TIMIT (https://catalog.ldc.upenn.edu/LDC93S1)、WSJ (https://catalog.ldc.upenn.edu/LDC2000T43)、Switch Board (https://catalog.ldc.upenn.edu/LDC97S62) 等,使得研究者可以在同一标准下比较自己的语音识别方法,因而大大推动了语音识别技术的发展。然而,这些数据库都需要付费才能使用,限制了初学者对语音识别领域的涉足。这一状况目前已有所改变,2015年出现了如LibriSpeech等可以免费使用的数据库资源(http://www.openslr.org/12)。
相对而言,国内的语音数据库标准化工作十分薄弱。到目前为止,国内只有为数不多的几个用于语音识别研究的数据库为研究者公认,如汉语863数据库。少数民族语言的语音数据库建设还处于空白阶段,仅有的几个数据资源由研究者独立录制,规模小,缺乏统一标准,普及面窄。特别是,这些有限的数据资源共享性差,免费数据资源几乎没有。这一现状制约了语音识别研究的发展。
本文发布一个约20 h的维吾尔语语音数据库(THUYG-20),供研究者免费使用。本文提供了用于构建完整语音识别系统的所有资源、代码、流程,提供完整的训练和测试标准,提供基线系统的识别结果,提供可重现的自动脚本。本文作者期望通过这一数据库和基线系统的发布,可以吸引更多对语音识别研究感兴趣的学者,促进维吾尔语语音识别技术的发展。
1 维吾尔语语音数据库研究现状维吾尔语语音识别研究已经取得了一系列研究成果[1-6]。在研究过程中,学者们大多录制自己的数据库并在此基础上发表研究成果。
文[1]所使用的数据库由171个发音人组成,其中男性85人,女性86人,发音文本从前后30天的《新疆日报》维文版中选择1 200个句子。文[2]的数据库包括男女发音人各10人,1 200句用于训练,30句用于测试。文[3]用男女各4个人的语音数据进行训练,其余2人的数据用于测试。文[7-8]的数据库由音节、词语、语句、数字和常用符号等5个数据库组成。文[4, 8-10]采用356人(189女,167男)128 h的维吾尔语朗读式语音数据,选择男女各5个人的1 018个语句(约2 h) 用于测试。文[5, 11-13]的数据库包括男女各32人的数据,每个发音人朗读100个随机选择的句子,其中54人的数据用于训练,其余的数据用于测试。文[14-15]的语料库为维吾尔语口语语料,包含词条分别为21 196和35 056条。文[6]的语料库由1.2万句约9.6 h的语料组成。文[16-20]的训练集包含353个发音人的150 h数据,测试集包含23个人的1 248条语音数据。文[21]中的训练集约为15 h数据,测试集约为0.5 h数据。文[22]的训练集由1 052个人的470 h数据组成,测试集由11个人的2 186条语句(约2 h) 组成。文[23]中的数据库包含94个发音人,每个人参加30 min左右的电话聊天。
可见,已有的维吾尔语研究确实积累了相当规模的语音数据。然而,这些数据由各研究机构内部或小范围合作者使用,数据库标准不统一,数据内容不公开,发表的研究结果无法由其他研究者重现,也无法进行横向对比。由于各研究机构的封闭性,学者们在进行维吾尔语语音研究时多倾向于自行建立语料库,造成了严重的重复劳动和资源浪费,制约了维吾尔语语音识别技术的发展。因此,建立一个标准的、公开的、免费的、高质量的维吾尔语语音数据库,对推动维吾尔语语音识别及相关研究的发展具有重要意义。
2 THUYG-20:免费的维吾尔语语音数据库本文发布的维吾尔语语音数据库THUYG-20可以在网上免费下载(下载地址:http://data.cslt.org/thuyg20/README.html)。数据库的资源包括:约20 h的语音数据、约12 MB单词的文本数据、包含约4.5万余单词的词表、基于Kaldi的系统构建脚本。
2.1 数据库规模表 1给出THUYG-20数据库中语音数据的统计结果。其中:训练集用于声学模型训练,开发集用来选择模型参数,测试集用来进行性能测试。
表 2给出该数据库中文本数据的统计结果,其中训练集用来训练语言模型,测试集用来测试语言模型性能。
2.2 语音数据来源
1) 录音环境为办公室环境,不包括其他说话人声音。
2) 录音设备为IBM-联想台式机,外置麦克风。
3) 录音人为348名高校在校本科生及研究生,均为维吾尔族说话人,来自新疆30多个地州。
4) 录音内容为常规话题,包括小说、报纸和各类书籍。
5) 录音时间为2012年1月-2012年9月。
2.3 数据库用途本数据库可用于维吾尔语语音识别研究、维吾尔语说话人识别研究和维吾尔语语音与语言特性研究。
2.4 语料库数据规格1) 信息文件:文本文件,存放说话人性别、年龄、族别及文化程度。
2) 脚本文件:文本文件,存放说话人发音文本,每句文本包括句子编号、发音文本。
3) 语音文件:语音文件,存放说话人语音,文件名由性别、说话人编号和句子编号组成,如F00108000148表示编号为108的女性说话人,发音文本句子编号为148。
4) 采样格式:16 kHz,16位,单声道,wav格式。
2.5 发布格式网络发布,自由下载,对研究者免费开放。
2.6 测试任务基于表 1中的测试集,本文发布如下两个标准测试任务:
1) TEST-A:测试数据由THUYG-20中的原始测试数据组成,即纯净无噪声数据。
2) TEST-N:测试数据由THUYG-20中的原始测试数据混合一定比例的噪声组成。噪声的来源为DEMAND噪声库(http://parole.loria.fr/DEMAND/) 中包含的3种噪声:白噪声、汽车噪声和咖啡馆噪声。混合后测试数据的信噪比(signal to noise ratio,SNR) 包括从-6 dB到9 dB,共18个测试子任务。
3 基线维吾尔语识别系统构建THUYG-20提供的标准基线系统基于Kaldi开源工具包构建[24]。本文选择深度神经网络(deep neural network, DNN) 作为声学模型,以基于词的三元文法模型(3-gram) 作为语言模型,基于OpenFST (http://www.openfst.org/twiki/bin/view/FST/WebHome) 构建静态解码网络。
3.1 基于DNN的声学模型DNN是具有多隐藏层的神经网络。DNN比传统的Gauss混合模型(Gaussian mixture model, GMM) 具有更强的声学建模能力。DNN与隐Markov模型(hidden Markov Model, HMM) 结合的混合模型方法已经成为语音识别领域的主流框架。
图 1为THUYG-20基线系统所采用的DNN-HMM模型框架。其中,DNN模型的输入为基于Mel滤波器组的Filter-bank (Fbank) 特征,其中每帧语音长度为25 ms,帧移为10 ms,特征维数为40。图 1中: v表示语音特征向量,h表示隐藏层,M表示隐藏层个数,W表示权值矩阵。DNN模型训练和解码时,首先以当前语音帧为中心,前后各取5帧组成上下文相关特征向量。这一特征向量经过线性判别式分析(linear discriminant analysis, LDA) 映射为200维向量,再经过全局倒谱归一化(cepstral mean and variance normalization, CMVN) 去除信道影响后作为DNN的输入。
本文采用的DNN的结构如下:输入层含有200个输入单元,对应200维特征向量(Fbank+LDA+CMVN);每个隐藏层含有1 200个单元,共包含4个隐藏层;输出层包括3 421个单元,对应HMM系统中的3 421个概率密度函数(probability density function, PDF)。训练方法采用随机梯度下降(stochastic gradient descent, SGD) 算法,训练准则包括交叉熵(cross-entropy, xEnt) 和最小音素错误率(minimum phone error, MPE) 两种。
3.2 语言模型THUYG-20基线系统采用基于词的三元文法(3-gram) 模型作为语言模型。模型采用SRILM工具(http://www.speech.sri.com/projects/srilm/) 进行训练,应用Kneser-Ney折扣(KN-discount) 平滑方法处理低频词和新词。这一模型训练方法简单,应用方便。
本文还报告了基于词素的语言模型识别结果。该模型不作为THUYG-20基线系统的一部分,但提供了一种基于维吾尔语特性的语言模型增强方案。因为维吾尔语具有很强的黏着性,词的形变数目众多,对词表覆盖率提出了很大挑战,同时也产生了训练数据稀疏问题。文[20]提出了基于词素对维吾尔语进行建模的方法,有效解决了数据稀疏问题。
具体而言,基于词素的方法首先对候选单词进行词干与后缀划分,然后选择最有代表性的词干-后缀二元组,以该二元组集合作为词表进行三元文法语言模型建模。通过将词降解为二元组,有效控制了词表规模,解决了数据稀疏问题,使得语言模型训练更加鲁棒。
3.3 加噪训练THUYG-20发布的测试数据集TEST-N含有混合了各种比例噪声的带噪数据。本文采用文[25]提出的加噪训练方法提高基线系统在TEST-N上的识别性能。在DNN训练过程中对训练数据随机加入多种噪声,使得DNN模型具有更好的可扩展性,提高基线系统的抗噪能力,且不会对纯静语音测试集(TEST-A) 上的结果产生显著影响。
3.4 维吾尔语识别系统性能基于THUYG-20构建的维吾尔语识别系统实验包括3组:实验1测试基线系统的识别结果,实验2测试基于词素的语言模型的识别结果,实验3为引入加噪训练之后在TEST-N上的识别结果。
3.4.1 实验1:基线系统性能THUYG-20基线系统包括纯净语音训练的DNN声学模型、基于词的三元文法语言模型、基于FST的静态解码。测试包括基于交叉熵和基于最小音素错误率两种准则训练的DNN模型。识别性能采用词错误率(word error rate, WER) 进行评价。在纯净无噪声测试集TEST-A上的识别结果见表 3前两行。可见,利用THUYG-20数据库和基线系统构建流程,可以得到一个相对较好的维吾尔语识别系统。当然,20%左右的错误率与当前最好的英语、汉语等主流语言的识别结果相比较还有相当差距,其中一个主要原因是THUYG-20的数据规模还不足以训练一个非常强大的声学模型。然而,本文作者相信通过增加训练数据来降低错误率并不是研究者关注的重点,基于当前数据规模(20 h) 采用更好的建模和训练方法以提高识别性能,比简单追求更大数据量对研究者更有意义。本文当前的性能指标只是提供一个基线标准,研究者可以在此基础上寻找更好的方法,特别是基于维吾尔语特性的优化方法,进一步提高识别系统性能。
20 h的数据规模与国际上广泛应用的Aurora 4数据库类似,这说明基于这一规模的数据库,研究者完全可以进行包括模型结构、模型训练方法、噪声去除、语音增强等多方面的研究。
3.4.2 实验2:基于词素的语言模型的系统性能基于THUYG-20可以进行声学和语言建模等多方面研究。文[20]提出的基于词素的语言模型即是利用维吾尔语词表特点在语言模型上进行的探索。表 3后两行给出应用这一方法的识别结果。同实验1一样,测试在纯净数据集TEST-A上进行。可以看到,将词替换为词素进行语言模型建模可以有效提高系统的性能。
3.4.3 实验3:加噪训练系统性能实验1和2的训练数据都是纯净数据,测试结果基于无噪声测试集TEST-A。对于噪声数据集TEST-N, 识别性能将显著下降。基于交叉熵训练的基线系统在TEST-N上的识别性能如表 4所示。与表 3中的基线系统结果相比,加入噪声后,特别是白噪声和咖啡馆噪声,系统的识别性能显著下降。
SNR/dB | WER/% | ||
白噪声 | 汽车噪声 | 咖啡馆噪声 | |
-6 | 99.96 | 23.42 | 97.96 |
-3 | 99.85 | 22.17 | 91.80 |
0 | 99.37 | 21.15 | 79.67 |
3 | 96.19 | 20.56 | 63.57 |
6 | 86.82 | 20.27 | 49.25 |
9 | 72.76 | 19.95 | 38.02 |
纯净数据 | 19.57 | 19.57 | 19.57 |
为提高系统在TEST-N上的识别性能,本文采用加噪训练方法增强DNN模型(见3.3节),加噪的具体参数见文[25]。表 5给出了系统经过加噪训练后的识别结果。可以看到,经过加噪训练后,在几乎所有测试条件下,系统识别性能都得到了显著提高。
SNR/dB | WER/% | ||
白噪声 | 汽车噪声 | 咖啡馆噪声 | |
-6 | 76.35 | 21.85 | 66.47 |
-3 | 62.75 | 21.04 | 51.82 |
0 | 51.61 | 20.52 | 40.02 |
3 | 41.56 | 20.14 | 31.96 |
6 | 34.91 | 20.00 | 26.97 |
9 | 30.45 | 19.84 | 24.15 |
纯净数据 | 19.67 | 19.67 | 19.67 |
4 总结
本文发布了一个开放的维吾尔语语音数据库THUYG-20,同时还发布了构建一个连续维吾尔语语音识别系统所需要的所有资源。本文作者希望通过这一数据库的发布,为对语音识别研究感兴趣的学者提供可以快速学习和切入的资源,为维吾尔语语音研究者提供可以进行对比验证的标准平台。本文介绍了基于THUYG-20构建基线维吾尔语语音识别系统的方法,给出了该基线系统的性能,为维吾尔语语音识别研究提供了一个可以借鉴的标准。
THUYG-20不仅可用于语音识别研究,也可以用于说话人识别研究、维吾尔语语音和语言特性研究等多个领域。
THUYG-20为完全免费的维吾尔语连续语音数据库,供维吾尔语语音识别研究者免费使用。THUYG-20有利于促进维吾尔语语音数据库标准化工作。未来本文作者会进一步扩充该数据资源,并基于该资源发起更多合作研究和对比研究。
[1] | 王昆仑, 樊志锦, 吐尔洪江, 等.维吾尔语综合语音数据库系统[C]//第五届全国人机语音通讯学术会议.哈尔滨, 1998:366-368. WANG Kunlun, FAN Zhijin, Turhunjan, et al. Integrated speech corpus system of Uyghur language[C]//The 5th National Conference on Man-Machine Speech Communication. Harbin, China, 1998:366-368. |
[2] | 蔡琴, 吾守尔·斯拉木. 基于HTK的维吾尔语连续数字语音识别[J]. 现代计算机, 2007(4): 14–16. CAI Qin, Wushour Silamu. Uighur continuous digital speech recognition based on HTK[J]. Modern Computer, 2007(4): 14–16. (in Chinese) |
[3] | 那斯尔江·吐尔逊, 吾守尔·斯拉木, 陶梅.基于HTK的维吾尔语连续语音识别研究[C]//第7届中文信息处理国际会议.武汉, 2007. Nasirjan Tursun, Wushour Silamu, TAO Mei. Research of Uyghur continuous speech recognition based on HTK[C]//The 7th Conference on Chinese Information Processing. Wuhan, China, 2007. |
[4] | 努尔麦麦提·尤鲁瓦斯, 吾守尔·斯拉木, 热依曼·吐尔逊. 基于音节的维吾尔语大词汇连续语音识别系统[J]. 清华大学学报:自然科学版, 2013, 53(6): 741–744. Nurmemet Yolwas, Wushor Silamu, Reyiman Tursun. Syllable based language model for large vocabulary continuous speech recognition of Uyghur[J]. Journal of Tsinghua University:Science and Technology, 2013, 53(6): 741–744. (in Chinese) |
[5] | Nasirjan Tursun, Wushour Silamu. Large vocabulary continuous speech recognition in Uyghur:Data preparation and experimental results[C]//Chinese Spoken Language Processing. Kunming, China, 2008:1-4. |
[6] | 张小燕, 宿建军, 薛化建, 等. 维吾尔语语音识别语料库中的OOV研究[J]. 计算机工程与设计, 2012, 33(2): 772–776. ZHANG Xiaoyan, SU Jianjun, XUE Huajian, et al. Research on OOV problem in constructing Uyghur speech corpus[J]. Computer Engineering and Design, 2012, 33(2): 772–776. (in Chinese) |
[7] | 王昆仑. 维吾尔语音节语音识别与识别基元的研究[J]. 计算机科学, 2003, 30(7): 182–184. WANG Kunlun. A study of Uighur syllable speech recognition and the base element of the recognition[J]. Computer Science, 2003, 30(7): 182–184. (in Chinese) |
[8] | 王昆仑. 基于CDCPM的维吾尔语非特定人语音识别[J]. 计算机研究与发展, 2001, 38(10): 1242–1246. WANG Kunlun. Uighur speaker independent speech recognition based on CDCPM[J]. Journal of Computer Research & Development, 2001, 38(10): 1242–1246. (in Chinese) |
[9] | 努尔麦麦提·尤鲁瓦斯, 吾守尔·斯拉木, 热依曼·吐尔逊. 维吾尔语大词汇语音识别系统识别单元研究[J]. 北京大学学报:自然科学版, 2014, 50(1): 149–152. Nurmemet Yolwas, Wushour Silamu, Reyiman Tursun. Research on recognition units of large vocabulary speech recognition system of Uyghur[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(1): 149–152. (in Chinese) |
[10] | 努尔麦麦提·尤鲁瓦斯, 吾守尔·斯拉木. 维吾尔语连续语音识别声学模型优化研究[J]. 计算机工程与应用, 2013, 49(2): 145–147. Nurmemet Yolwas, Wushour Silamu. Optimization of acoustic model for Uyghur continuous speech recognition[J]. Computer Engineering and Applications, 2013, 49(2): 145–147. (in Chinese) |
[11] | Wushour Silamu, Nasirjan Tursun. HMM-based Uyghur continuous speech recognition system[C]//World Congress on Computer Science and Information Engineering. Los Angeles, CA, USA, 2009:243-247. |
[12] | 那斯尔江·吐尔逊, 吾守尔·斯拉木. 基于隐马尔可夫模型的维吾尔语连续语音识别系统[J]. 计算机应用, 2009, 29(2): 2009–2011, 2025. Nasirjan Tursun, Wushour Silamu. Uyghur continuous speech recognition system based on HMM[J]. Computer Application, 2009, 29(2): 2009–2011, 2025. (in Chinese) |
[13] | 陶梅, 吾守尔·斯拉木, 那斯尔江·吐尔逊. 基于HTK的维吾尔语连续语音声学建模[J]. 中文信息学报, 2008, 22(5): 56–59. TAO Mei, Wushour Silamu, Nasirjan Tursun. The Uyghur acoustic model based on HTK[J]. Journal of Chinese Information Processing, 2008, 22(5): 56–59. (in Chinese) |
[14] | 杨雅婷, 马博, 王磊, 等. 多发音字典在维吾尔语方言语音识别中的应用[J]. 清华大学学报:自然科学版, 2011, 51(9): 1303–1306. YANG Yating, MA Bo, WANG Lei, et al. Multi-pronunciation dictionary based on Uyghur accent modeling for speech recognition[J]. Journal of Tsinghua University:Science and Technology, 2011, 51(9): 1303–1306. (in Chinese) |
[15] | 杨雅婷, 马博, 王磊, 等. 维吾尔语语音识别中发音变异现象[J]. 清华大学学报:自然科学版, 2011, 51(9): 1230–1233, 1238. YANG Yating, MA Bo, WANG Lei, et al. Uyghur pronunciation variations in automatic speech recognition systems[J]. Journal of Tsinghua University:Science and Technology, 2011, 51(9): 1230–1233, 1238. (in Chinese) |
[16] | Mijit Ablimit, Neubig G, Mimura M. Uyghur morpheme-based language models and ASR[C]//Proceeding of ICSP. Beijing, China, 2010:581-584. |
[17] | Mijit Ablimit, Askar Hamdulla, Kawahara T. Morpheme concatenation approach in language modeling for large-vocabulary Uyghur speech recognition[C]//Oriental COCOSDA. Hsinchu, China, 2011:112-115. |
[18] | Mijit Ablimit, Kawahara T, Askar Hamdulla. Lexicon optimization for automatic speech recognition based on discriminative learning[C]//APSIPA SC. Xi'an, China, 2011:935-938. |
[19] | Mijit Ablimit, Kawahara T, Askar Hamdulla. Discriminative approach to lexical entry selection for automatic speech recognition of agglutinative language[C]//ICASSP. Kyoto, Japan, 2012:5009-5012. |
[20] | Mijit Ablimit, Kawahara T, Askar Hamdulla. Lexicon optimization based on discriminative learning for automatic speech recognition of agglutinative language[J]. Speech Communication, 2014, 60: 78–87. DOI:10.1016/j.specom.2013.09.011 |
[21] | 薛化建, 董兴华, 周喜, 等. 基于子字单元的维吾尔语语音识别研究[J]. 计算机工程, 2011, 37(20): 208–210. XUE Huajian, DONG Xinghua, ZHOU Xi, et al. Research on Uyghur speech recognition based on subword unit[J]. Computer Engineering, 2011, 37(20): 208–210. (in Chinese) |
[22] | LI Xin, CAI Shang, PAN Jielin. Large vocabulary Uyghur continuous speech recognition based on stems and suffixes[C]//Chinese Spoken Language Processing (ISCSLP). Tainan, China, 2010:220-223. |
[23] | 米日古力·阿布都热素, 艾克白尔·帕塔尔, 艾斯卡尔·艾木都拉. 基于电话语料的维吾尔连续音素识别[J]. 通信技术, 2012, 45(7): 54–56. Mirigul Abdursul, Akbar Pattar, Askar Hamdulla. Telephone speech corpus-based Uyghur continuous phoneme recognition[J]. Communication Technology, 2012, 45(7): 54–56. (in Chinese) |
[24] | Povey D, Ghoshal A, Boulianne G, et al. The Kaldi speech recognition toolkit[C]//Proc of ASRU. Waikoloa, HI, USA, 2011. |
[25] | YIN Shi, LIU Chao, ZHANG Zhiyong, et al. Noisy training for deep neural networks in speech recognition[J]. EURASIP Journal on Audio, Speech, and Music Processing, 2015, 2015(1): 1–14. DOI:10.1186/s13636-014-0045-2 |