Please wait a minute...
 首页  期刊介绍 期刊订阅 联系我们 横山亮次奖 百年刊庆
 
最新录用  |  预出版  |  当期目录  |  过刊浏览  |  阅读排行  |  下载排行  |  引用排行  |  横山亮次奖  |  百年刊庆
清华大学学报(自然科学版)  2018, Vol. 58 Issue (4): 342-346    DOI: 10.16511/j.cnki.qhdxxb.2018.22.020
  计算机科学与技术 本期目录 | 过刊浏览 | 高级检索 |
跨语言声学模型在维吾尔语语音识别中的应用
努尔麦麦提·尤鲁瓦斯1, 刘俊华2, 吾守尔·斯拉木1, 热依曼·吐尔逊1, 达吾勒·阿布都哈依尔1
1. 新疆大学 信息科学与工程学院, 乌鲁木齐 830046;
2. 科大讯飞股份有限公司, 合肥 230088
Crosslingual acoustic modeling in Uyghur speech recognition
NURMEMET Yolwas1, LIU Junhua2, WUSHOUR Silamu1, REYIMAN Tursun1, DAWEL Abilhayer1
1. College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China;
2. iFLYTEK Co., Ltd., Hefei 230088, China
全文: PDF(998 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 对维吾尔语而言,由于数据采集和标注存在各种困难,用于训练声学模型的语音数据不够充分。为此,该文研究了基于长短期记忆网络的跨语言声学模型建模方法,利用汉语庞大的训练数据训练深度神经网络声学模型,然后将网络的输出层权重去掉,用随机化的方式产生与维吾尔语输出层对应的权重值,采用反向传播的方式,利用维吾尔语语音数据更新所有权重来训练维吾尔语声学模型。实验结果表明:该方法使维吾尔语转写和听写识别错误率分别比基线系统相对降低了20%和30%。该方法利用汉语大数据来训练神经网络的隐藏层,使维吾尔语声学模型能在一个较好的初始权重网络上进行训练,增强了网络的鲁棒性。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 声学模型维吾尔语跨语言长短期记忆    
Abstract:The Uyghur language has a little speech data for training acoustic models due to various data acquisition and annotation difficulties. This paper describes a modeling method for crosslingual acoustic models based on long short-term memory models. Mass Chinese language training data is used to train a deep neural network acoustic model. The network output layer weights are then randomly modified to create the output layer for the Uyghur language. A Uyghur language acoustic model is then trained using Uyghur language speech data to update all the weights. Tests show that this method reduces the word error rates of the Uyghur language transcription and dictation recognition by 20% and 30% than the baseline system. Thus, this method improves the Uyghur language acoustic model with better initial weights from the Chinese language data to train hidden layers in the neural network, and enhances the network robustness.
Key wordsacoustic model    Uyghur    crosslingual    long short-term memory
收稿日期: 2017-09-30      出版日期: 2018-04-15
ZTFLH:  TP391.4  
基金资助:国家自然科学基金项目(61363063,U1603262,61462084);新疆维吾尔自治区重点实验室项目(2015KL013)
作者简介: 努尔麦麦提·尤鲁瓦斯(1980-),男,副教授。E-mail:nurmemet@xju.edu.cn
引用本文:   
努尔麦麦提·尤鲁瓦斯, 刘俊华, 吾守尔·斯拉木, 热依曼·吐尔逊, 达吾勒·阿布都哈依尔. 跨语言声学模型在维吾尔语语音识别中的应用[J]. 清华大学学报(自然科学版), 2018, 58(4): 342-346.
NURMEMET Yolwas, LIU Junhua, WUSHOUR Silamu, REYIMAN Tursun, DAWEL Abilhayer. Crosslingual acoustic modeling in Uyghur speech recognition. Journal of Tsinghua University(Science and Technology), 2018, 58(4): 342-346.
链接本文:  
http://jst.tsinghuajournals.com/CN/10.16511/j.cnki.qhdxxb.2018.22.020  或          http://jst.tsinghuajournals.com/CN/Y2018/V58/I4/342
  图1 双向 RNN声学模型示意图
  图2 LSTM 结构示意图(包含1个记忆单元)
  表1 各种声学模型在语音转写任务中的性能
  表2 各种声学模型在语音听写任务中的性能
[1] 麦麦提艾力·吐尔逊, 戴礼荣. 深度神经网络在维吾尔语大词汇量连续语音识别中的应用[J]. 数据采集与处理, 2015, 30(2):365-371. MAIMAITIAILI T, DAI L R. Deep neural network based Uyghur large vocabulary continuous speech recognition[J]. Journal of Data Acquisition and Processing, 2015, 30(2):365-371. (in Chinese)
[2] 其米克·巴特西, 黄浩, 王羡慧. 基于深度神经网络的维吾尔语语音识别[J]. 计算机工程与设计, 2015, 36(8):2239-2244. QIMIKE B, HUANG H, WANG X H. Uyghur speech recognition based on deep neural network[J]. Computer Engineering and Design, 2015, 36(8):2239-2244. (in Chinese)
[3] 刘林泉, 郑方, 吴文虎. 基于小数据量的方言普通话语音识别声学建模[J]. 清华大学学报(自然科学版), 2008, 48(4):604-607. LIU L Q, ZHENG F, WU W H. Small dataset-based acoustic modeling for dialectal Chinese speech recognition[J]. Journal of Tsinghua University (Science and Technology), 2008, 48(4):604-607. (in Chinese)
[4] SCHULTZ T, WAIBEL A. Experiments on cross-language acoustic modeling[C]//The 7th European Conference on Speech Communication and Technology. Aalborg, Denmark, 2001:2721-2724.
[5] POVEY D, BURGET L, AGARWAL M, et al. The subspace Gaussian mixture model:A structured model for speech recognition[J]. Computer Speech & Language, 2011, 25(2):404-439.
[6] BURGET L, SCHWARZ P, AGARWAL M, et al. Multilingual acoustic modeling for speech recognition based on subspace Gaussian mixture models[C]//IEEE International Conference on Acoustics Speech and Signal Processing. Dallas, USA, 2010:4334-4337.
[7] STOLCKE A, GREZL F, HWANG M Y, et al. Cross-domain and cross-language portability of acoustic features estimated by multilayer perceptron[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Toulouse, France, 2006:321-324.
[8] VESELý K, KARAFIÁT M, GRÉZL F, et al. The language-independent bottleneck features[C]//2012 Workshop on Spoken Language Technology. Miami, USA, 2012:336-341.
[9] SWIETOJANSKI P, GHOSHAL A, RENALS S. Unsupervised cross-lingual knowledge transfer in DNN-based LVCSR[C]//2012 Workshop on Spoken Language Technology. Miami, USA, 2012:246-251.
[10] SIM K C, LI H. Context-sensitive probabilistic phone mapping model for cross-lingual speech recognition[C]//9th Annual Conference of the International Speech Communication Association. Brisbane, Australia, 2008:2715-2718.
[11] DO V H, XIAO X, CHNG E S, et al. Context dependant phone mapping for cross-lingual acoustic modeling[C]//20128th International Symposium on Chinese Spoken Language Processing. Hong Kong, China, 2012:16-20.
[12] HUANG J T, LI J, YU D, et al. Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada, 2013:7304-7308.
[13] ROBINSON A J. An application of recurrent nets to phone probability estimation[J]. IEEE Transactions on Neural Networks, 1994, 5(2):298-305.
[1] 代鑫, 黄弘, 汲欣愉, 王巍. 基于机器学习的城市暴雨内涝时空快速预测模型[J]. 清华大学学报(自然科学版), 2023, 63(6): 865-873.
[2] 郭世圆, 马为之, 卢瑞麟, 刘晋龙, 杨志刚, 王忠静, 张敏. 基于LSTM神经网络的复杂工况下明渠流量预测[J]. 清华大学学报(自然科学版), 2023, 63(12): 1924-1934.
[3] 陈传刚, 胡瑾秋, 韩子从, 陈怡玥, 肖尚蕊. 恶劣环境条件下海外天然气管道站场事故演化知识图谱建模及预警方法[J]. 清华大学学报(自然科学版), 2022, 62(6): 1081-1087.
[4] 余传明, 原赛, 胡莎莎, 安璐. 基于深度学习的多语言跨领域主题对齐模型[J]. 清华大学学报(自然科学版), 2020, 60(5): 430-439.
[5] 张宇, 张鹏远, 颜永红. 基于注意力LSTM和多任务学习的远场语音识别[J]. 清华大学学报(自然科学版), 2018, 58(3): 249-253.
[6] 易江燕, 陶建华, 刘斌, 温正棋. 基于迁移学习的噪声鲁棒语音识别声学建模[J]. 清华大学学报(自然科学版), 2018, 58(1): 55-60.
[7] 哈里旦木·阿布都克里木, 刘洋, 孙茂松. 神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J]. 清华大学学报(自然科学版), 2017, 57(8): 878-883.
[8] 阿布都克力木·阿布力孜, 江铭虎, 姚登峰, 哈里旦木·阿布都克里木. 形态复杂词加工的认知神经机制[J]. 清华大学学报(自然科学版), 2017, 57(4): 393-398.
[9] 米吉提·阿不里米提, 艾克白尔·帕塔尔, 艾斯卡尔·艾木都拉. 基于层次化结构的语言模型单元集优化[J]. 清华大学学报(自然科学版), 2017, 57(3): 257-263.
[10] 赛牙热·依马木, 热依莱木·帕尔哈提, 艾斯卡尔·艾木都拉, 李志军. 基于不同关键词提取算法的维吾尔文本情感辨识[J]. 清华大学学报(自然科学版), 2017, 57(3): 270-273.
[11] 艾斯卡尔·肉孜, 殷实, 张之勇, 王东, 艾斯卡尔·艾木都拉, 郑方. THUYG-20:免费的维吾尔语语音数据库[J]. 清华大学学报(自然科学版), 2017, 57(2): 182-187.
[12] 热合木·马合木提, 于斯音·于苏普, 张家俊, 宗成庆, 艾斯卡尔·艾木都拉. 基于模糊匹配与音字转换的维吾尔语人名识别[J]. 清华大学学报(自然科学版), 2017, 57(2): 188-196.
[13] 阿不都萨拉木·达吾提, 于斯音·于苏普, 艾斯卡尔·艾木都拉. 类别区分词与情感词典相结合的维吾尔文句子情感分类[J]. 清华大学学报(自然科学版), 2017, 57(2): 197-201.
[14] 哈妮克孜·伊拉洪, 古力米热·依玛木, 玛依努尔·阿吾力提甫, 姑丽加玛丽·麦麦提艾力, 艾斯卡尔·艾木都拉. 维吾尔语感叹句语调起伏度[J]. 清华大学学报(自然科学版), 2017, 57(12): 1254-1258.
[15] 古力米热·依玛木, 姑丽加玛丽·麦麦提艾力, 玛依努尔·阿吾力提甫, 艾斯卡尔·艾木都拉. 维吾尔语韵律建模[J]. 清华大学学报(自然科学版), 2017, 57(12): 1259-1264.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 《清华大学学报(自然科学版)》编辑部
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn