THUYG-20:免费的维吾尔语语音数据库
艾斯卡尔·肉孜 1 , 殷实 1 , 张之勇 1 , 王东 1 , 艾斯卡尔·艾木都拉 2 , 郑方 1     
1. 清华大学 计算机科学与技术系, 清华信息科学技术国家实验室, 信息技术研究院, 北京 100084;
2. 新疆大学 信息科学与工程学院, 乌鲁木齐 830046
摘要:语音数据资源是语音识别研究的基础。当前国内只有为数不多的开放的语音数据库供研究者免费使用,特别是在维吾尔语等少数民族语音识别方面,数据资源更为贫乏。该文发布一个完全免费的维吾尔语连续语音数据库,该数据库包括约20 h的训练数据和1 h的测试数据,同时介绍了构建维吾尔语语音识别系统所需要的音素集、词表、文本数据等相关资源,以及用于构建基线系统的脚本。给出了该基线系统在纯净测试数据和噪声测试数据上的识别性能。该数据库为维吾尔语语音识别研究提供了可以借鉴的标准数据库。
关键词语音识别     维吾尔语     语料库     深度神经网络(DNN)    
THUYG-20: A free Uyghur speech database
Aisikaer Rouzi1, YIN Shi1, ZHANG Zhiyong1, WANG Dong1, Askar Hamdulla2, ZHENG Fang1     
1. Research Institute of Information Technology, Tsinghua National Laboratory for Information Science and Technology, Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China;
2. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China
Abstract:Speech data plays a fundamental role in research on speech recognition. However, there are few open speech databases available for researchers in China, especially for minor languages such as Uyghur. This paper develops a Uyghur continuous speech database which is totally open and free. The database consists of 20 h of training speech and 1 h of test speech, as well as all the resources needed to construct a full Uyghur speech recognition system, including a phone set, lexicon, and text data. A recipe used to construct the baseline system is also described with results for two test sets involving clean speech and noisy speech. This paper provides a standard database for Uyghur speech recognition.
Key words: speech recognition     Uyghur language     corpus     deep neural network (DNN)    

语音数据库是进行语音识别研究的基础。国际上比较著名的几个数据库,例如RM (https://catalog.ldc.upenn.edu/LDC96S39)、Aurora (http://aurora.hsnr.de/)、TIMIT (https://catalog.ldc.upenn.edu/LDC93S1)、WSJ (https://catalog.ldc.upenn.edu/LDC2000T43)、Switch Board (https://catalog.ldc.upenn.edu/LDC97S62) 等,使得研究者可以在同一标准下比较自己的语音识别方法,因而大大推动了语音识别技术的发展。然而,这些数据库都需要付费才能使用,限制了初学者对语音识别领域的涉足。这一状况目前已有所改变,2015年出现了如LibriSpeech等可以免费使用的数据库资源(http://www.openslr.org/12)。

相对而言,国内的语音数据库标准化工作十分薄弱。到目前为止,国内只有为数不多的几个用于语音识别研究的数据库为研究者公认,如汉语863数据库。少数民族语言的语音数据库建设还处于空白阶段,仅有的几个数据资源由研究者独立录制,规模小,缺乏统一标准,普及面窄。特别是,这些有限的数据资源共享性差,免费数据资源几乎没有。这一现状制约了语音识别研究的发展。

本文发布一个约20 h的维吾尔语语音数据库(THUYG-20),供研究者免费使用。本文提供了用于构建完整语音识别系统的所有资源、代码、流程,提供完整的训练和测试标准,提供基线系统的识别结果,提供可重现的自动脚本。本文作者期望通过这一数据库和基线系统的发布,可以吸引更多对语音识别研究感兴趣的学者,促进维吾尔语语音识别技术的发展。

1 维吾尔语语音数据库研究现状

维吾尔语语音识别研究已经取得了一系列研究成果[1-6]。在研究过程中,学者们大多录制自己的数据库并在此基础上发表研究成果。

文[1]所使用的数据库由171个发音人组成,其中男性85人,女性86人,发音文本从前后30天的《新疆日报》维文版中选择1 200个句子。文[2]的数据库包括男女发音人各10人,1 200句用于训练,30句用于测试。文[3]用男女各4个人的语音数据进行训练,其余2人的数据用于测试。文[7-8]的数据库由音节、词语、语句、数字和常用符号等5个数据库组成。文[4, 8-10]采用356人(189女,167男)128 h的维吾尔语朗读式语音数据,选择男女各5个人的1 018个语句(约2 h) 用于测试。文[5, 11-13]的数据库包括男女各32人的数据,每个发音人朗读100个随机选择的句子,其中54人的数据用于训练,其余的数据用于测试。文[14-15]的语料库为维吾尔语口语语料,包含词条分别为21 196和35 056条。文[6]的语料库由1.2万句约9.6 h的语料组成。文[16-20]的训练集包含353个发音人的150 h数据,测试集包含23个人的1 248条语音数据。文[21]中的训练集约为15 h数据,测试集约为0.5 h数据。文[22]的训练集由1 052个人的470 h数据组成,测试集由11个人的2 186条语句(约2 h) 组成。文[23]中的数据库包含94个发音人,每个人参加30 min左右的电话聊天。

可见,已有的维吾尔语研究确实积累了相当规模的语音数据。然而,这些数据由各研究机构内部或小范围合作者使用,数据库标准不统一,数据内容不公开,发表的研究结果无法由其他研究者重现,也无法进行横向对比。由于各研究机构的封闭性,学者们在进行维吾尔语语音研究时多倾向于自行建立语料库,造成了严重的重复劳动和资源浪费,制约了维吾尔语语音识别技术的发展。因此,建立一个标准的、公开的、免费的、高质量的维吾尔语语音数据库,对推动维吾尔语语音识别及相关研究的发展具有重要意义。

2 THUYG-20:免费的维吾尔语语音数据库

本文发布的维吾尔语语音数据库THUYG-20可以在网上免费下载(下载地址:http://data.cslt.org/thuyg20/README.html)。数据库的资源包括:约20 h的语音数据、约12 MB单词的文本数据、包含约4.5万余单词的词表、基于Kaldi的系统构建脚本。

2.1 数据库规模

表 1给出THUYG-20数据库中语音数据的统计结果。其中:训练集用于声学模型训练,开发集用来选择模型参数,测试集用来进行性能测试。

表 1 THUYG-20语音语料库参数
语料库说话人年龄句数时长/h
训练集34816318519~287 60020.15
开发集22411311119~284001.08
测试集23131022~281 4682.40

表 2给出该数据库中文本数据的统计结果,其中训练集用来训练语言模型,测试集用来测试语言模型性能。

表 2 THUYG-20文本语料库参数
语料库句子/106单词/106词素/106音节/106字符/106
训练集1.6211.5821.8831.7478.18
测试集0.011 890.2170.4080.5921.46

2.2 语音数据来源

1) 录音环境为办公室环境,不包括其他说话人声音。

2) 录音设备为IBM-联想台式机,外置麦克风。

3) 录音人为348名高校在校本科生及研究生,均为维吾尔族说话人,来自新疆30多个地州。

4) 录音内容为常规话题,包括小说、报纸和各类书籍。

5) 录音时间为2012年1月-2012年9月。

2.3 数据库用途

本数据库可用于维吾尔语语音识别研究、维吾尔语说话人识别研究和维吾尔语语音与语言特性研究。

2.4 语料库数据规格

1) 信息文件:文本文件,存放说话人性别、年龄、族别及文化程度。

2) 脚本文件:文本文件,存放说话人发音文本,每句文本包括句子编号、发音文本。

3) 语音文件:语音文件,存放说话人语音,文件名由性别、说话人编号和句子编号组成,如F00108000148表示编号为108的女性说话人,发音文本句子编号为148。

4) 采样格式:16 kHz,16位,单声道,wav格式。

2.5 发布格式

网络发布,自由下载,对研究者免费开放。

2.6 测试任务

基于表 1中的测试集,本文发布如下两个标准测试任务:

1) TEST-A:测试数据由THUYG-20中的原始测试数据组成,即纯净无噪声数据。

2) TEST-N:测试数据由THUYG-20中的原始测试数据混合一定比例的噪声组成。噪声的来源为DEMAND噪声库(http://parole.loria.fr/DEMAND/) 中包含的3种噪声:白噪声、汽车噪声和咖啡馆噪声。混合后测试数据的信噪比(signal to noise ratio,SNR) 包括从-6 dB到9 dB,共18个测试子任务。

3 基线维吾尔语识别系统构建

THUYG-20提供的标准基线系统基于Kaldi开源工具包构建[24]。本文选择深度神经网络(deep neural network, DNN) 作为声学模型,以基于词的三元文法模型(3-gram) 作为语言模型,基于OpenFST (http://www.openfst.org/twiki/bin/view/FST/WebHome) 构建静态解码网络。

3.1 基于DNN的声学模型

DNN是具有多隐藏层的神经网络。DNN比传统的Gauss混合模型(Gaussian mixture model, GMM) 具有更强的声学建模能力。DNN与隐Markov模型(hidden Markov Model, HMM) 结合的混合模型方法已经成为语音识别领域的主流框架。

图 1为THUYG-20基线系统所采用的DNN-HMM模型框架。其中,DNN模型的输入为基于Mel滤波器组的Filter-bank (Fbank) 特征,其中每帧语音长度为25 ms,帧移为10 ms,特征维数为40。图 1中: v表示语音特征向量,h表示隐藏层,M表示隐藏层个数,W表示权值矩阵。DNN模型训练和解码时,首先以当前语音帧为中心,前后各取5帧组成上下文相关特征向量。这一特征向量经过线性判别式分析(linear discriminant analysis, LDA) 映射为200维向量,再经过全局倒谱归一化(cepstral mean and variance normalization, CMVN) 去除信道影响后作为DNN的输入。

图 1 DNN-HMM模型框架图

本文采用的DNN的结构如下:输入层含有200个输入单元,对应200维特征向量(Fbank+LDA+CMVN);每个隐藏层含有1 200个单元,共包含4个隐藏层;输出层包括3 421个单元,对应HMM系统中的3 421个概率密度函数(probability density function, PDF)。训练方法采用随机梯度下降(stochastic gradient descent, SGD) 算法,训练准则包括交叉熵(cross-entropy, xEnt) 和最小音素错误率(minimum phone error, MPE) 两种。

3.2 语言模型

THUYG-20基线系统采用基于词的三元文法(3-gram) 模型作为语言模型。模型采用SRILM工具(http://www.speech.sri.com/projects/srilm/) 进行训练,应用Kneser-Ney折扣(KN-discount) 平滑方法处理低频词和新词。这一模型训练方法简单,应用方便。

本文还报告了基于词素的语言模型识别结果。该模型不作为THUYG-20基线系统的一部分,但提供了一种基于维吾尔语特性的语言模型增强方案。因为维吾尔语具有很强的黏着性,词的形变数目众多,对词表覆盖率提出了很大挑战,同时也产生了训练数据稀疏问题。文[20]提出了基于词素对维吾尔语进行建模的方法,有效解决了数据稀疏问题。

具体而言,基于词素的方法首先对候选单词进行词干与后缀划分,然后选择最有代表性的词干-后缀二元组,以该二元组集合作为词表进行三元文法语言模型建模。通过将词降解为二元组,有效控制了词表规模,解决了数据稀疏问题,使得语言模型训练更加鲁棒。

3.3 加噪训练

THUYG-20发布的测试数据集TEST-N含有混合了各种比例噪声的带噪数据。本文采用文[25]提出的加噪训练方法提高基线系统在TEST-N上的识别性能。在DNN训练过程中对训练数据随机加入多种噪声,使得DNN模型具有更好的可扩展性,提高基线系统的抗噪能力,且不会对纯静语音测试集(TEST-A) 上的结果产生显著影响。

3.4 维吾尔语识别系统性能

基于THUYG-20构建的维吾尔语识别系统实验包括3组:实验1测试基线系统的识别结果,实验2测试基于词素的语言模型的识别结果,实验3为引入加噪训练之后在TEST-N上的识别结果。

3.4.1 实验1:基线系统性能

THUYG-20基线系统包括纯净语音训练的DNN声学模型、基于词的三元文法语言模型、基于FST的静态解码。测试包括基于交叉熵和基于最小音素错误率两种准则训练的DNN模型。识别性能采用词错误率(word error rate, WER) 进行评价。在纯净无噪声测试集TEST-A上的识别结果见表 3前两行。可见,利用THUYG-20数据库和基线系统构建流程,可以得到一个相对较好的维吾尔语识别系统。当然,20%左右的错误率与当前最好的英语、汉语等主流语言的识别结果相比较还有相当差距,其中一个主要原因是THUYG-20的数据规模还不足以训练一个非常强大的声学模型。然而,本文作者相信通过增加训练数据来降低错误率并不是研究者关注的重点,基于当前数据规模(20 h) 采用更好的建模和训练方法以提高识别性能,比简单追求更大数据量对研究者更有意义。本文当前的性能指标只是提供一个基线标准,研究者可以在此基础上寻找更好的方法,特别是基于维吾尔语特性的优化方法,进一步提高识别系统性能。

表 3 两种语言模型在TEST-A上的识别结果
语言模型训练准则WER/%
基于词(基线系统)交叉熵
MPE
19.57
18.95
基于词素交叉熵
MPE
17.40
16.58

20 h的数据规模与国际上广泛应用的Aurora 4数据库类似,这说明基于这一规模的数据库,研究者完全可以进行包括模型结构、模型训练方法、噪声去除、语音增强等多方面的研究。

3.4.2 实验2:基于词素的语言模型的系统性能

基于THUYG-20可以进行声学和语言建模等多方面研究。文[20]提出的基于词素的语言模型即是利用维吾尔语词表特点在语言模型上进行的探索。表 3后两行给出应用这一方法的识别结果。同实验1一样,测试在纯净数据集TEST-A上进行。可以看到,将词替换为词素进行语言模型建模可以有效提高系统的性能。

3.4.3 实验3:加噪训练系统性能

实验1和2的训练数据都是纯净数据,测试结果基于无噪声测试集TEST-A。对于噪声数据集TEST-N, 识别性能将显著下降。基于交叉熵训练的基线系统在TEST-N上的识别性能如表 4所示。与表 3中的基线系统结果相比,加入噪声后,特别是白噪声和咖啡馆噪声,系统的识别性能显著下降。

表 4 基线系统在TEST-N上的识别结果
SNR/dBWER/%
白噪声汽车噪声咖啡馆噪声
-699.9623.4297.96
-399.8522.1791.80
099.3721.1579.67
396.1920.5663.57
686.8220.2749.25
972.7619.9538.02
纯净数据19.5719.5719.57

为提高系统在TEST-N上的识别性能,本文采用加噪训练方法增强DNN模型(见3.3节),加噪的具体参数见文[25]。表 5给出了系统经过加噪训练后的识别结果。可以看到,经过加噪训练后,在几乎所有测试条件下,系统识别性能都得到了显著提高。

表 5 基线系统加噪训练后在TEST-N上的识别结果
SNR/dBWER/%
白噪声汽车噪声咖啡馆噪声
-676.3521.8566.47
-362.7521.0451.82
051.6120.5240.02
341.5620.1431.96
634.9120.0026.97
930.4519.8424.15
纯净数据19.6719.6719.67

4 总结

本文发布了一个开放的维吾尔语语音数据库THUYG-20,同时还发布了构建一个连续维吾尔语语音识别系统所需要的所有资源。本文作者希望通过这一数据库的发布,为对语音识别研究感兴趣的学者提供可以快速学习和切入的资源,为维吾尔语语音研究者提供可以进行对比验证的标准平台。本文介绍了基于THUYG-20构建基线维吾尔语语音识别系统的方法,给出了该基线系统的性能,为维吾尔语语音识别研究提供了一个可以借鉴的标准。

THUYG-20不仅可用于语音识别研究,也可以用于说话人识别研究、维吾尔语语音和语言特性研究等多个领域。

THUYG-20为完全免费的维吾尔语连续语音数据库,供维吾尔语语音识别研究者免费使用。THUYG-20有利于促进维吾尔语语音数据库标准化工作。未来本文作者会进一步扩充该数据资源,并基于该资源发起更多合作研究和对比研究。

参考文献
[1] 王昆仑, 樊志锦, 吐尔洪江, 等.维吾尔语综合语音数据库系统[C]//第五届全国人机语音通讯学术会议.哈尔滨, 1998:366-368. WANG Kunlun, FAN Zhijin, Turhunjan, et al. Integrated speech corpus system of Uyghur language[C]//The 5th National Conference on Man-Machine Speech Communication. Harbin, China, 1998:366-368.
[2] 蔡琴, 吾守尔·斯拉木. 基于HTK的维吾尔语连续数字语音识别[J]. 现代计算机, 2007(4): 14–16. CAI Qin, Wushour Silamu. Uighur continuous digital speech recognition based on HTK[J]. Modern Computer, 2007(4): 14–16. (in Chinese)
[3] 那斯尔江·吐尔逊, 吾守尔·斯拉木, 陶梅.基于HTK的维吾尔语连续语音识别研究[C]//第7届中文信息处理国际会议.武汉, 2007. Nasirjan Tursun, Wushour Silamu, TAO Mei. Research of Uyghur continuous speech recognition based on HTK[C]//The 7th Conference on Chinese Information Processing. Wuhan, China, 2007.
[4] 努尔麦麦提·尤鲁瓦斯, 吾守尔·斯拉木, 热依曼·吐尔逊. 基于音节的维吾尔语大词汇连续语音识别系统[J]. 清华大学学报:自然科学版, 2013, 53(6): 741–744. Nurmemet Yolwas, Wushor Silamu, Reyiman Tursun. Syllable based language model for large vocabulary continuous speech recognition of Uyghur[J]. Journal of Tsinghua University:Science and Technology, 2013, 53(6): 741–744. (in Chinese)
[5] Nasirjan Tursun, Wushour Silamu. Large vocabulary continuous speech recognition in Uyghur:Data preparation and experimental results[C]//Chinese Spoken Language Processing. Kunming, China, 2008:1-4.
[6] 张小燕, 宿建军, 薛化建, 等. 维吾尔语语音识别语料库中的OOV研究[J]. 计算机工程与设计, 2012, 33(2): 772–776. ZHANG Xiaoyan, SU Jianjun, XUE Huajian, et al. Research on OOV problem in constructing Uyghur speech corpus[J]. Computer Engineering and Design, 2012, 33(2): 772–776. (in Chinese)
[7] 王昆仑. 维吾尔语音节语音识别与识别基元的研究[J]. 计算机科学, 2003, 30(7): 182–184. WANG Kunlun. A study of Uighur syllable speech recognition and the base element of the recognition[J]. Computer Science, 2003, 30(7): 182–184. (in Chinese)
[8] 王昆仑. 基于CDCPM的维吾尔语非特定人语音识别[J]. 计算机研究与发展, 2001, 38(10): 1242–1246. WANG Kunlun. Uighur speaker independent speech recognition based on CDCPM[J]. Journal of Computer Research & Development, 2001, 38(10): 1242–1246. (in Chinese)
[9] 努尔麦麦提·尤鲁瓦斯, 吾守尔·斯拉木, 热依曼·吐尔逊. 维吾尔语大词汇语音识别系统识别单元研究[J]. 北京大学学报:自然科学版, 2014, 50(1): 149–152. Nurmemet Yolwas, Wushour Silamu, Reyiman Tursun. Research on recognition units of large vocabulary speech recognition system of Uyghur[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(1): 149–152. (in Chinese)
[10] 努尔麦麦提·尤鲁瓦斯, 吾守尔·斯拉木. 维吾尔语连续语音识别声学模型优化研究[J]. 计算机工程与应用, 2013, 49(2): 145–147. Nurmemet Yolwas, Wushour Silamu. Optimization of acoustic model for Uyghur continuous speech recognition[J]. Computer Engineering and Applications, 2013, 49(2): 145–147. (in Chinese)
[11] Wushour Silamu, Nasirjan Tursun. HMM-based Uyghur continuous speech recognition system[C]//World Congress on Computer Science and Information Engineering. Los Angeles, CA, USA, 2009:243-247.
[12] 那斯尔江·吐尔逊, 吾守尔·斯拉木. 基于隐马尔可夫模型的维吾尔语连续语音识别系统[J]. 计算机应用, 2009, 29(2): 2009–2011, 2025. Nasirjan Tursun, Wushour Silamu. Uyghur continuous speech recognition system based on HMM[J]. Computer Application, 2009, 29(2): 2009–2011, 2025. (in Chinese)
[13] 陶梅, 吾守尔·斯拉木, 那斯尔江·吐尔逊. 基于HTK的维吾尔语连续语音声学建模[J]. 中文信息学报, 2008, 22(5): 56–59. TAO Mei, Wushour Silamu, Nasirjan Tursun. The Uyghur acoustic model based on HTK[J]. Journal of Chinese Information Processing, 2008, 22(5): 56–59. (in Chinese)
[14] 杨雅婷, 马博, 王磊, 等. 多发音字典在维吾尔语方言语音识别中的应用[J]. 清华大学学报:自然科学版, 2011, 51(9): 1303–1306. YANG Yating, MA Bo, WANG Lei, et al. Multi-pronunciation dictionary based on Uyghur accent modeling for speech recognition[J]. Journal of Tsinghua University:Science and Technology, 2011, 51(9): 1303–1306. (in Chinese)
[15] 杨雅婷, 马博, 王磊, 等. 维吾尔语语音识别中发音变异现象[J]. 清华大学学报:自然科学版, 2011, 51(9): 1230–1233, 1238. YANG Yating, MA Bo, WANG Lei, et al. Uyghur pronunciation variations in automatic speech recognition systems[J]. Journal of Tsinghua University:Science and Technology, 2011, 51(9): 1230–1233, 1238. (in Chinese)
[16] Mijit Ablimit, Neubig G, Mimura M. Uyghur morpheme-based language models and ASR[C]//Proceeding of ICSP. Beijing, China, 2010:581-584.
[17] Mijit Ablimit, Askar Hamdulla, Kawahara T. Morpheme concatenation approach in language modeling for large-vocabulary Uyghur speech recognition[C]//Oriental COCOSDA. Hsinchu, China, 2011:112-115.
[18] Mijit Ablimit, Kawahara T, Askar Hamdulla. Lexicon optimization for automatic speech recognition based on discriminative learning[C]//APSIPA SC. Xi'an, China, 2011:935-938.
[19] Mijit Ablimit, Kawahara T, Askar Hamdulla. Discriminative approach to lexical entry selection for automatic speech recognition of agglutinative language[C]//ICASSP. Kyoto, Japan, 2012:5009-5012.
[20] Mijit Ablimit, Kawahara T, Askar Hamdulla. Lexicon optimization based on discriminative learning for automatic speech recognition of agglutinative language[J]. Speech Communication, 2014, 60: 78–87. DOI:10.1016/j.specom.2013.09.011
[21] 薛化建, 董兴华, 周喜, 等. 基于子字单元的维吾尔语语音识别研究[J]. 计算机工程, 2011, 37(20): 208–210. XUE Huajian, DONG Xinghua, ZHOU Xi, et al. Research on Uyghur speech recognition based on subword unit[J]. Computer Engineering, 2011, 37(20): 208–210. (in Chinese)
[22] LI Xin, CAI Shang, PAN Jielin. Large vocabulary Uyghur continuous speech recognition based on stems and suffixes[C]//Chinese Spoken Language Processing (ISCSLP). Tainan, China, 2010:220-223.
[23] 米日古力·阿布都热素, 艾克白尔·帕塔尔, 艾斯卡尔·艾木都拉. 基于电话语料的维吾尔连续音素识别[J]. 通信技术, 2012, 45(7): 54–56. Mirigul Abdursul, Akbar Pattar, Askar Hamdulla. Telephone speech corpus-based Uyghur continuous phoneme recognition[J]. Communication Technology, 2012, 45(7): 54–56. (in Chinese)
[24] Povey D, Ghoshal A, Boulianne G, et al. The Kaldi speech recognition toolkit[C]//Proc of ASRU. Waikoloa, HI, USA, 2011.
[25] YIN Shi, LIU Chao, ZHANG Zhiyong, et al. Noisy training for deep neural networks in speech recognition[J]. EURASIP Journal on Audio, Speech, and Music Processing, 2015, 2015(1): 1–14. DOI:10.1186/s13636-014-0045-2