Please wait a minute...
 首页  期刊介绍 期刊订阅 联系我们 横山亮次奖 百年刊庆
 
最新录用  |  预出版  |  当期目录  |  过刊浏览  |  阅读排行  |  下载排行  |  引用排行  |  横山亮次奖  |  百年刊庆
清华大学学报(自然科学版)  2017, Vol. 57 Issue (3): 257-263    DOI: 10.16511/j.cnki.qhdxxb.2017.26.006
  计算机科学与技术 本期目录 | 过刊浏览 | 高级检索 |
基于层次化结构的语言模型单元集优化
米吉提·阿不里米提1,2, 艾克白尔·帕塔尔2, 艾斯卡尔·艾木都拉1,2
1. 新疆大学 科学与技术学院, 乌鲁木齐 830046;
2. 新疆大学 信息科学与工程学院, 乌鲁木齐 830046
Multilayer structure based lexicon optimization for language modeling
Mijit Ablimit1,2, Akbar Pattar2, Askar Hamdulla1,2
1. School of Science and Technology, Xinjiang University, Urumqi 830046, China;
2. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China
全文: PDF(1191 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 对于大词汇量语音识别系统,适当选择基本单元至关重要。虽然以词为基本单元时避免了词边界的确定等复杂过程,但很多派生类结构中(如黏性语言),词比较长,而且很多文字(如中文、日文等)不需要词边界,因而在自然语言处理应用中没有选取基本单元集的固定模式。该文以维吾尔语大词汇量语音识别系统为例,研究基于各个层次化粒度单元的语音识别系统。通过比较各种层次化单元集为基础的语音识别结果,分析错误识别模式,收集被误判的单元序列作为在2层单元序列结构中择优的训练样本库。比较各种单元集的优缺点,提出一种能平衡长单元集和短单元集优点的方法。实验结果表明:该方法不仅可以有效提高语音识别准确率,也大大缩减了词典容量。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 语音识别语言模型单元集优化层次化结构黏着性语言维吾尔语    
Abstract:An appropriate lexicon set must be selected as an important first step in developing large vocabulary continuous speech recognition (LVCSR) systems. The word unit is chosen as the lexicon basis to avoid word boundary detection problems. However, the lexicon basis selection is not as simple for the derivative morphological structure (e.g., agglutinative languages). Furthermore, there are no word boundaries in many languages such as Chinese and Japanese. This paper uses the Uyghur LVCSR system to analyze various particle based automatic speech recognition (ASR) systems with comparisons of the ASR results for various linguistic layers to develop a method to balance the advantages of two layer lexicons. The ASR results for the two layers are aligned and compared to analyze error patterns and extract samples as training data for the alternative selection method. Tests show that this method effectively improves the ASR accuracy with a small lexicon size.
Key wordsspeech recognition    language model    lexicon optimization    multilayer structure    agglutinative language    Uyghur
收稿日期: 2016-06-22      出版日期: 2017-03-15
ZTFLH:  TP391.1  
通讯作者: 艾斯卡尔·艾木都拉,教授,E-mail:askar@xju.edu.cn     E-mail: askar@xju.edu.cn
引用本文:   
米吉提·阿不里米提, 艾克白尔·帕塔尔, 艾斯卡尔·艾木都拉. 基于层次化结构的语言模型单元集优化[J]. 清华大学学报(自然科学版), 2017, 57(3): 257-263.
Mijit Ablimit, Akbar Pattar, Askar Hamdulla. Multilayer structure based lexicon optimization for language modeling. Journal of Tsinghua University(Science and Technology), 2017, 57(3): 257-263.
链接本文:  
http://jst.tsinghuajournals.com/CN/10.16511/j.cnki.qhdxxb.2017.26.006  或          http://jst.tsinghuajournals.com/CN/Y2017/V57/I3/257
  表1 维吾尔语各种基本单元实例
  表2 词词平行语料库中单元统计表
  图1 维吾尔语词素结构
  图2 词素分解准确率及词和词素覆盖率变化
  表3 测试数据统计情况
  表4 以n-Ggram 为基础的归一化困惑度
  表5 语音语料统计数据
  表6 各个基本单元集的语音识别结果(CutoffG-2)
  表7 两层单元为基础的识别结果比较
  图4 辞典容量变化
  图6 二元单元覆盖率
  图5 单元覆盖率
  图7 三元单元覆盖率
  表8 词-词素2层单元的识别结果比较
  表9 各种特征量的效率
  表10 循环式应用误判频率特征
  表11 数据驱动单元优化结果
[1] Kawahara T, Lee A, Kobayashi T, et al. Free software toolkit for Japanese large vocabulary continuous speech recognition[C]//Proceedings of International Conference on Spoken Language Processing (ICSLP). Beijing, China:INTERSPEECH, 2000, 4:476-479.
[2] George S, Mukund P. Data-driven approach to designing compound words for continuous speech recognition[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(4):327-332.
[3] Kwon O W, Park J. Korean large vocabulary continuous speech recognition with morpheme-based recognition units[J]. Speech Communication, 2003, 39(3):287-300.
[4] Kwon O W. Performance of LVCSR with morpheme-based and syllable-based recognition units[C]//International Conference of Acoustics, Speech and Signal Processing (ICASSP). Istanbul, Turkey:IEEE Press, 2000:1567-1570.
[5] Jongtaveesataporn M, Hienlikit I, Wutiwiwatchai C, et al. Lexical units for Thai LVCSR[J]. Speech Communication, 2009, 51(4):379-389.
[6] Hacioglu K, Pellom B, Ciloglu T, et al. On lexicon creation for turkish LVCSR[C]//Eurospeech. Geneva, Switzerland:EUROSPEECH, 2003:1165-1168.
[7] Arisoy E, Sak H, Saraclar M. Language modeling for automatic turkish broadcast news transcription[C]//INTERSPEECH. Antwerp, Belgium:INTERSPEECH, 2007:2381-2384.
[8] Roark B, Saraclar M, Ollins M. Discriminative n-gram language modeling[J]. Computer Speech and Language, 2007, 21(2):373-392.
[9] Mijit Ablimit, Neubig G, Mimura M, et al. Uyghur Morpheme-based language models and ASR[C]//IEEE International Conference of Signal Processing (IEEE-ICSP). Beijing, China:IEEE Press, 2010:581-584.
[10] Mijit Ablimit, Mirigul Eli, Kawahara T. Partly-supervised Uyghur morpheme segmentation[C]//Oriental-COCOSDA Workshop. Kyoto, Japan:OCOCOSDA, 2008:71-76.
[11] 米吉提·阿不里米提, 艾斯卡尔·艾木都拉, 库尔班·吾布力. 维吾尔语中的语音和谐规律及算法的实现[C]//中国科协学术年会论文集, 乌鲁木齐, 中国:中国科学技术出版社, 2005:621-626. Mijit Ablimit, Askar Hamdulla, Kurban Ubul. The Uyghur phonetic harmony rules and their implementation[C]//Annual Conference of China Association for Science. Urumqi, China:Science and technology of China Press, 2005:621-626. (in Chinese)
[12] 米吉提·阿不里米提. 在多文种环境下的维吾尔语文字校对系统的开发研究[J]. 系统工程理论与实践, 2003, 23(5):117-124. Mijit Ablimit. Research on Uighur corrector system in multilingual environment[J]. Systems Engineering-theory & Practice, 2003, 23(5):117-124. (in Chinese)
[13] 古丽拉·阿东别克, 米吉提·阿不里米提. 维吾尔语词切分方法初探[J]. 中文信息学报, 2005, 18(6):61-65. Gulila Adungbieke, Mijit Ablimit. Research on Uighur word segmentation[J]. Journal of Chinese Information Processing, 2005, 18(6):61-65. (in Chinese)
[14] 米吉提·阿不里米提, 艾斯卡尔·艾木都拉, 吐尔地·托合提. 维吾尔语词法分析器研究开发[C]//全国第11届少数民族语言文字信息处理学术研讨会, 西双版纳, 中国:西苑出版社, 2007:408-412. Mijit Ablimit, Askar Hamdulla, Turdy Tohti. Research on Uyghur morphologicalanalyzer[C]//The 11th National Conference on Minority Language Information Processing Symposium. Xishuangbanna, China:Xiyuan Press, 2007:408-412. (in Chinese)
[15] 米热古丽·艾力, 米吉提·阿不里米提, 艾斯卡尔·艾木都拉. 基于词法分析的维吾尔语元音弱化算法研究[J]. 中文信息学报, 2008, 22(4):43-47. Miriguli Aili, Mijit Ablimit, Askar Hamdulla. A morphological analysis based algorithm for Uyghur word weakening identification[J]. Journal of Chinese Information Processing, 2008, 22(4):43-47. (in Chinese)"
[1] 王昀, 胡珉, 塔娜, 孙海涛, 郭毅峰, 周武爱, 郭昱, 张皖哲, 冯建华. 大语言模型及其在政务领域的应用[J]. 清华大学学报(自然科学版), 2024, 64(4): 649-658.
[2] 胡明昊, 王芳, 徐先涛, 罗威, 刘晓鹏, 罗准辰, 谭玉珊. 国防科技领域两阶段开放信息抽取方法[J]. 清华大学学报(自然科学版), 2023, 63(9): 1309-1316.
[3] 努尔麦麦提·尤鲁瓦斯, 刘俊华, 吾守尔·斯拉木, 热依曼·吐尔逊, 达吾勒·阿布都哈依尔. 跨语言声学模型在维吾尔语语音识别中的应用[J]. 清华大学学报(自然科学版), 2018, 58(4): 342-346.
[4] 张宇, 张鹏远, 颜永红. 基于注意力LSTM和多任务学习的远场语音识别[J]. 清华大学学报(自然科学版), 2018, 58(3): 249-253.
[5] 易江燕, 陶建华, 刘斌, 温正棋. 基于迁移学习的噪声鲁棒语音识别声学建模[J]. 清华大学学报(自然科学版), 2018, 58(1): 55-60.
[6] 王建荣, 高永春, 张句, 魏建国, 党建武. 基于Kinect辅助的机器人带噪语音识别[J]. 清华大学学报(自然科学版), 2017, 57(9): 921-925.
[7] 哈里旦木·阿布都克里木, 刘洋, 孙茂松. 神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J]. 清华大学学报(自然科学版), 2017, 57(8): 878-883.
[8] 阿布都克力木·阿布力孜, 江铭虎, 姚登峰, 哈里旦木·阿布都克里木. 形态复杂词加工的认知神经机制[J]. 清华大学学报(自然科学版), 2017, 57(4): 393-398.
[9] 赛牙热·依马木, 热依莱木·帕尔哈提, 艾斯卡尔·艾木都拉, 李志军. 基于不同关键词提取算法的维吾尔文本情感辨识[J]. 清华大学学报(自然科学版), 2017, 57(3): 270-273.
[10] 张鹏远, 计哲, 侯炜, 金鑫, 韩卫生. 小资源下语音识别算法设计与优化[J]. 清华大学学报(自然科学版), 2017, 57(2): 147-152.
[11] 王建荣, 张句, 路文焕, 魏建国, 党建武. 机器人自身噪声环境下的自动语音识别[J]. 清华大学学报(自然科学版), 2017, 57(2): 153-157.
[12] 艾斯卡尔·肉孜, 殷实, 张之勇, 王东, 艾斯卡尔·艾木都拉, 郑方. THUYG-20:免费的维吾尔语语音数据库[J]. 清华大学学报(自然科学版), 2017, 57(2): 182-187.
[13] 热合木·马合木提, 于斯音·于苏普, 张家俊, 宗成庆, 艾斯卡尔·艾木都拉. 基于模糊匹配与音字转换的维吾尔语人名识别[J]. 清华大学学报(自然科学版), 2017, 57(2): 188-196.
[14] 阿不都萨拉木·达吾提, 于斯音·于苏普, 艾斯卡尔·艾木都拉. 类别区分词与情感词典相结合的维吾尔文句子情感分类[J]. 清华大学学报(自然科学版), 2017, 57(2): 197-201.
[15] 哈妮克孜·伊拉洪, 古力米热·依玛木, 玛依努尔·阿吾力提甫, 姑丽加玛丽·麦麦提艾力, 艾斯卡尔·艾木都拉. 维吾尔语感叹句语调起伏度[J]. 清华大学学报(自然科学版), 2017, 57(12): 1254-1258.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 《清华大学学报(自然科学版)》编辑部
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn