基于层次化结构的语言模型单元集优化
米吉提·阿不里米提 1,2 , 艾克白尔·帕塔尔 2 , 艾斯卡尔·艾木都拉 1,2     
1. 新疆大学 科学与技术学院, 乌鲁木齐 830046;
2. 新疆大学 信息科学与工程学院, 乌鲁木齐 830046
摘要:对于大词汇量语音识别系统,适当选择基本单元至关重要。虽然以词为基本单元时避免了词边界的确定等复杂过程,但很多派生类结构中(如黏性语言),词比较长,而且很多文字(如中文、日文等)不需要词边界,因而在自然语言处理应用中没有选取基本单元集的固定模式。该文以维吾尔语大词汇量语音识别系统为例,研究基于各个层次化粒度单元的语音识别系统。通过比较各种层次化单元集为基础的语音识别结果,分析错误识别模式,收集被误判的单元序列作为在2层单元序列结构中择优的训练样本库。比较各种单元集的优缺点,提出一种能平衡长单元集和短单元集优点的方法。实验结果表明:该方法不仅可以有效提高语音识别准确率,也大大缩减了词典容量。
关键词语音识别    语言模型    单元集优化    层次化结构    黏着性语言    维吾尔语    
Multilayer structure based lexicon optimization for language modeling
Mijit Ablimit1,2, Akbar Pattar2, Askar Hamdulla1,2     
1. School of Science and Technology, Xinjiang University, Urumqi 830046, China;
2. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China
Abstract: An appropriate lexicon set must be selected as an important first step in developing large vocabulary continuous speech recognition (LVCSR) systems. The word unit is chosen as the lexicon basis to avoid word boundary detection problems. However, the lexicon basis selection is not as simple for the derivative morphological structure (e.g., agglutinative languages). Furthermore, there are no word boundaries in many languages such as Chinese and Japanese. This paper uses the Uyghur LVCSR system to analyze various particle based automatic speech recognition (ASR) systems with comparisons of the ASR results for various linguistic layers to develop a method to balance the advantages of two layer lexicons. The ASR results for the two layers are aligned and compared to analyze error patterns and extract samples as training data for the alternative selection method. Tests show that this method effectively improves the ASR accuracy with a small lexicon size.
Key words: speech recognition     language model     lexicon optimization     multilayer structure     agglutinative language     Uyghur    

对于派生类 (derivative) 结构的语言,建立大词汇量语音识别 (large vocabulary continuous speech recognition, LVCSR) 系统时,由于词较长、容易出现数据稀疏问题,因此较短的单元被广泛应用到各种语言中如日语、韩语、土耳其语、芬兰语、阿拉伯语等[1-8]。文[1-8]研究表明,长粒度单元与短粒度单元各有优缺点:长单元提供较长的上下文约束关系,但会导致数据稀疏问题;短单元提供高覆盖率,但容易被混淆。通过2层粒度之间的择优方式可以提高识别正确率。以往的单元优化方法是基于最大似然法 (maximum likelihood)、互概率 (mutual probability) 和困惑度 (perplexity) 等方法或标准[3-7]对各类单元进行重组。各种单元集之间互补模式是一种新的研究方法。黏性语言 (如维吾尔语) 清晰的形态学 (morphological) 层次化结构为多层单元粒度为基础的优化方法提供了突破点。

维吾尔文单词是自然分开的,词由词根 (root) 追加附加成分来派生,因此词汇量会呈爆炸性的增长。维吾尔语有较清晰的形态学结构,可以将单词分解成较短的各种子词 (sub-word) 单元如词素 (morpheme)、音节 (syllable)、音素 (phoneme) 以及无监督方法 (unsupervised) 分解出来的准词素 (或类词素)。准词素单元是不带语义信息的统计意义上的单元。

黏着语能被高准确率地分解出各个语言基本单元,便于比较其统计特性和语音识别结果。本文介绍基于规则的和基于统计模型的形态结构分析方法[8]。维吾尔语音素和音节遵循稳定的规则,因此基于规则的分解方法能够高准确率地分解出音素和音节。对词素的分解,则采用统计的切分法。基于统计的方法有监督 (supervised) 和无监督 (unsupervised) 这2种。有监督分解方法需要事先准备大量训练语料库,适合于基本语义单元 (或功能单元) 的分解;无监督方法根据文本的统计特性,通过提高统计模型的预测能力进行准词素单元的分解。

对于大词汇量语音识别系统,通过单元间组合方法,一定程度上提高了语音识别正确率。准词素单元也应用于多种语言中,有效提高了识别正确率[7-8]。韩国和土耳其语等语中,可以通过分析单元间的统计特性以及一些语音和词法规则尝试词素单元的链接,不同程度上降低了识别错误率[4, 6]。泰语中,通过一些短单元的重组来优化单元集[5]。但是这些方法是在一层语言粒度上进行连接或分解技术来进行优化,没有考虑各层粒度结构间的互补式优化。此外,互信息 (mutual information)、互概率 (mutual probability) 和困惑度等为单元优化提供了标准,并已被成功应用到多个派生类结构的语言的研究当中[6-9]。此处派生类的概念是相对于孤立性 (isolated) 结构而言,其形态学结构或多或少地级联 (concatenate)。除了黏性语言外,像芬兰语、阿拉伯语、伊朗语等有着不同程度上的单元派生。

以往单元集优化方面的研究主要集中在看似对立的2种方法上。其一,链接 (concatenation):拼接高同现 (co-occurrence) 频率的单元,使其变成新的长单元来减少混淆。在多种语言的语音识别研究中已被证明能够提高识别正确率[2]。其二,分解 (segmentation):分解低频率且较长的单元可以减少OOV (out-of-vocabulary) 并提高覆盖率,进而提高统计模型的效率[6]

本文比较了各种语义单元为基础的单元集的统计特性和语音识别结果,在此基础上提出一种单元集优化方法。与其他常用的有效粒度优化方法相比,该方法直接和各个单元集的语音识别结果关联,能够自动处理单元间的协同发音、短单元的混淆等问题。

1 维吾尔语形态结构分析

维吾尔语由32个基本音素构成,其中有8个元音和24个辅音。文本中每一个音素可以用一个字符来表示,以每一个元音为中心构成音节单元[10]。由于遵循稳定的语音规则,基于规则的分解法可以高准确率地分解出音节和音素单元。词是自然分开的并由各个词素 (如词根、词缀) 派生。词素之间没有标记且出现协同发音替代 (substitution)、脱落 (deletion)、插入 (insertion) 等语言现象[11-15]

本文开发了基于规则的音素及音节分析器,对测试文本进行切分后,分别达到了100%和99.5%的准确率[10]

1.1 基于统计模型的有监督词素分解方法

实现基于统计的维吾尔文词素分解算法,并充分分析替代、脱落、插入等语言现象。人工准备1万多条句的词-词素平行语料作为训练语料库,这些句子取自不同题材,句子间无关联。除此之外,独立收集3万多个词干,用于新的词汇OOV的分解。除此之外,全面收集并根据语言功能规范化108类附加成分,每一类有多个不同的表现形式 (surface form)。黏着语中前缀很少,其形态比较固定。表 1是各种基本语言单元实例。在训练语料中保留了同一种词素的不同分解形式和形态,如词干“ishci”在有些上下文被分解成词根“ish”。这种做法会增大词干库容量,但是可能对语法及语义分析带来方便。表 2是词素训练语料库中的各个粒度单元统计。

表 1 维吾尔语各种基本单元实例
各种单元 实例
自然句子 Müshükning kelginini korgen chashqan hoduqu p qachti.
词素串 Müshük+ning kelgvn+i+ni kor+gen chashqan hoduq+up qach+ti
音节串 Mü+shük+ningkel+gi+ni+nikor+genchash+qan…
音素串 M+ü+sh+ü+k+n+i+ngk+e+l+g+i+n+i+n+i k+o+r+g+e+n…
中文翻译 老鼠看见猫在走过来就仓惶逃窜。

表 2 词-词平行语料库中单元统计表
类型 词条数 词汇量
1.39×105 3.54×104
词素 2.62×105 1.18×104
字符 9.37×105
句子 10 025

词素分解方法分为2步:首先以词干 (stem) 库和词缀 (suffix) 库为参照,通过匹配算法将词分解成词干和词尾 (word-ending),如图 1所示。词干和词尾的边界的确定最重要。其次,词尾可以再次切分成单个词缀串。

图 1 维吾尔语词素结构

每个词素特别是词缀有多种形态,所以需要一个词素原型和变形之间的转换机制。以下是各种词素形态以及切分时出现的歧义现象实例:

1) almini=alma+ni, almiliring=alma+lar+ing (同化);

2) oghli=oghul+i, kaspi=kasip+i (脱落);

3) qalmaytti=qal+may+[t]+ti, binaying=bina+[y]+ing (插入);

4) yurttin=yurt+tin; watandin=watan+din (协同);

5) hesablinidu=hesab+la+n+idu=hesab+lan+idu; berish=bar (go/have)+ish, berish=br (give)+ish (歧义)。

词的各种可能的分解形式以词素原型复原后,逐个计算每个分解结果的概率,然后输出可能性最大的结果。本文设计bi-gram为基础的模型来计算候选词素串的概率。

$\left\{ \begin{align} & P\left( \text{ste}{{\text{m}}_{i}},\text{first}\ \ \text{Suffix} \right) \\ & P'\left( \text{ste}{{\text{m}}_{i}} \right)P\left( \text{any}\ \ \text{Suffix }\!\!|\!\!\text{ ste}{{\text{m}}_{i}} \right)\text{for}\ \ \text{smoothing}\text{.} \\ \end{align} \right.$ (1)

其中

$P'\left( \text{ste}{{\text{m}}_{i}} \right)=\frac{\text{stem}\ \ \text{Frequency}}{\left( \text{stem}\ \ \text{Token+stem}\ \ \text{Vocabulary} \right)}.$ (2)

P(any Suffix|stemi) 是词干stemi被任何词缀追加的可能性。算法中,将由语音协同、插入、脱落等引起的各种变化复原后再计算概率。

本文将准备好的10 025条人工切分的句子分成2部分即9 025句训练语料和1 000句测试语料。词覆盖率为86.8%,词素覆盖率为98.4%。当自动分解的词素串和人工分解词素串匹配时,准确率达到了97.8%。按比例调整训练语料时,准确率稳步增长并趋于饱和,如图 2所示。

图 2 词素分解准确率及词和词素覆盖率变化

从实验结果看,错误分解主要由语音协同和歧义引起。消除歧义需要更多上下文分析。虽然该方法能够分析同一个词的不同分解形式,但目前只能输出一个概率最高的结果。以上结果是在没有拼写错误的情况下获得的,但是由于各种方言的影响,很多文本语料中,特别是网上语料中,存在大量拼写错误,这会降低准确率。

2 各种粒度单元的统计特性及语音识别 2.1 各种单元为基础语言模型

缺乏高质量语料是维吾尔自然语言处理研究中的难题。从单一资源 (如报纸) 很难获得规范的大量语料。本文从各个出版社、报纸、教科书等资源获得了较多的文本语料。由于这些语料包含很多重复内容,最终筛选出无重复的63万条句子,并将该文本分解成词素、音节、音素等粒度单元。空格和标点符号用统一符号代替,既能在每种单元中保留词边界,也能确保在随后分析的统计特性和语音识别系统中保持一致。

维吾尔语中,发音和文本要对应,单元形态的变化反映了其协同发音的变化。为了便于在语音识别中的应用,本文没有对分解后的语素单元形态进行复原,各种单元分解前后都保持形态一致,这种处理不会降低单元分解的准确率。除此之外,只要保留了词边界,通过直接串联就可以恢复词单元。

为了保留词边界信息,对音素和音节串中多插入了一个单独的词边界符号,如图 3所示。对词素进行前缀、词干、词缀标注,因此语音识别系统输出的词素串直接拼接就能复原成词串,避免了子词单元中确定词边界的复杂过程,且便于词单元和词素单元的性能比较。

图 3 词边界符号的插入

本文分别以各个单元集为基础建立n-gram模型,采用Kneser-Ney平滑方法。语料库中频率少于2的单元被当作未知词汇 (unknown) 处理。比较了各个粒度单元的词典容量、覆盖率、困惑度等统计信息。

作为测试文本,本文从文本语料库中随机抽取1.18万多条句子,其统计数据如表 3所示。剩余62万句作为训练语料,图 47表 4为辞典容量、覆盖率和困惑度的实验结果。从统计结果看出,平均一个词被分解为1.8个词素和2.7个音节。本文以困惑度为标准 (以词为标准归一化) 对各个单元计算困惑度,结果见表 4。由于计算机的能力限制,对词和词素、音节、音素分别计算到5-gram、6-gram、10-gram。可以看出,词素单元在覆盖率、困惑度等方面表现超过词单元。

表 3 测试数据统计情况
词/103 词素/103 音节/103
单元 217 408.6 592.6
词典 47 15.34 3.64

图 4 辞典容量变化

图 5 单元覆盖率

图 6 二元单元覆盖率

图 7 三元单元覆盖率

表 4n-gram为基础的归一化困惑度
模型 词素 音节 字符
1-gram 2.1×104 4.3×105 1.1×108 3.0×1010
2-gram 2 210 5.6×103 1.8×103 1.4×108
3-gram 1 408 1 860 1.1×104 4.5×106
4-gram 1 260 1 183 3 349 2.2×105
5-gram 1 234 985 1 901 2.9×104
6-gram 1 425 9.2×103
7-gram 4.7×103
8-gram 3 113
9-gram 2 397
10-gram 2 032

2.2 各种单元为基础的语音识别系统

本文采用Julius框架,以各个单元集为基础建立了维吾尔语大词汇连续语音识别系统。Julius开放工具为各种语音模型和语言模型提供方便的嵌入功能,适合于各种语言以及领域的语音识别应用。

为了建立语音模型,本文准备了一个较大的语音语料库,取材于各种内容,自主完成录音工作。对于测试语音语料,取材于不同的报纸文本,选择不同的说话人进行录制,语音语料统计数据见表 5

表 5 语音语料统计数据
语音语料 句子数 人数 朗读语句 时间/h
训练语料 1.37×104 353 6.2×104 158.6
测试语料 550 23 1 468 2.4

基于tri-phone HMM的3 000共享状态的16个Gauss混合模型建立在34个音素 (8个元音,24个辅音,2个静音) 上。

本文以错误率和词典容量作为标准,比较各种单元集的语音识别结果。各类子词粒度单元当中,词素单元由于带有标志,通过直接拼接就能复原成词单元。因此,词错误率 (word error rate,WER) 是本文评价的统一标准。此外,筛选低频率单元当作未知单元时,也会对识别结果有影响。本文以Cutoff-F来表示筛选策略,即频率小于F的单元被视为未知单元。词和词素单元的识别结果见表 67

表 6 各个基本单元集的语音识别结果 (Cutoff-2)
语言模型 WER/% 词素错误率/% 词典容量/103
3-gram 25.72 18.88 227.9
4-gram 25.93 19.02 227.9
3-gram 28.96 22.73 55.2
词素 4-gram 27.92 21.64 55.2
5-gram 29.31 22.98 55.2

表 7 两层单元为基础的识别结果比较
模型的粒度 WER/% 容量/103 OOV/%
词素 Cutoff-2 27.92 55.2 0.3
(4-gram) Cutoff-5 28.11 27.4 0.7
Cutoff-2 25.72 227.9 2.8
(3-gram) Cutoff-5 26.64 108.1 4.4

从结果可以看出,词单元错误率低于其他单元。但是词素单元集容量很小、覆盖率高、较稳定 (对Cutoff-F不敏感)。对于音节单元,由于单元太小,且不易恢复成词,因此不太适合于语言模型,其识别结果低于词和词素单元的[9]

3 层次结构为基础的单元优化方法 3.1 词-词素两层间的优化方法

从词和词素单元的语音识别结果看出,词单元的识别结果较好,词素单元的词典容量很小、覆盖率高,但词素单元容易被混淆。因此本文将词和词素单元的识别结果对齐,构成双层序列,从中抽取所有被误判的词-词素串,将容易被混淆的词素串拼接成词 (或较长的子词) 单元,就有可能提高识别准确率。表 8为词-词素双层单元语音识别实例。对齐的词-词素样本有4种类型:“OO” “OX” “XO”“XX”,其中“O”为正确结果,“X”为误判结果。第一字符代表词单元,第二字符代表词素单元。被错误识别样本有“OX” “XO”和“XX”3种。2层都正确识别的“OO”一种。只有一个层次正确时,即“OX”或“XO”时,可以从2层单元序列中择优地选取正确单元,达到优化目的。

表 8 词-词素2层单元的识别结果比较
参考词序列 Yash cheghinglarda bilim elishinglar ker∂k
参考词素序列 Yash chegh_ing_lar_da bilim el_ish_ing_lar ker∂k
词识别结果
词素识别结果

通过分析这些2层样本,本文认为影响识别结果的原因包括语音协同、歧义和短单元容易混淆等。本文通过3个有效的特征来尝试进行优化,分别是误判频率 (error frequency)、单元长度 (length) 和单元属性 (attribute)。

通过对样本空间的分析,本文发现:样本“XO”出现的可能性较小 (3.5%) 选择可以忽略不计。所以样本“OX” (28.5%),即长单元 (词) 正确但短单元 (词素) 错误,作为本文的训练样本。

1) 误判频率特征。对齐样本库中,以出现的频率数作为特征量。以某个样本频率大于2作为有效特征,满足该特征的词素串被拼接成对应的词单元表示如下:

${{\mathit{\Phi} }_{\text{error }\!\!\_\!\!\text{ freq }\!\!\_\!\!\text{ 2}}}\left( \text{word} \right)=\left\{ \begin{align} & \text{true,word}\ \ 被误判2次以上; \\ & \text{false},其他. \\ \end{align} \right.$ (3)

2) 长度特征。从样本中抽取所有长度较短的词素单元,将其拼接到前一个词素,构成更长的子词 (词) 单元,来减少混淆现象。长度小于等于2个音素的特征表示如下:

${{\mathit{\Phi} }_{\text{length}\_2}}\left( \text{morph} \right)=\left\{ \begin{align} & \text{true,length}\left( \text{morph} \right)\le 2; \\ & \text{false},其他. \\ \end{align} \right.$ (4)

3) 单元属性 (词干-词尾) 特征。本文将词素串转换成词干-词尾两种单元。从样本中以词干-词尾形式抽取新特征。这些特征的误判频率和长度作为特征量的参数值,这些经常被误判的词素串重新被拼接成词单元,来减少错误率。词干属性特征和词尾属性特征的具体表达式分别表示如下:

${{\mathit{\Phi} }_{\text{short-stem}}}\left( \text{ste}{{\text{m}}_{i}} \right)=\left\{ \begin{align} & \text{true,ste}{{\text{m}}_{i}}被误判10次以上 \\ & 且\text{length}\left( \text{ste}{{\text{m}}_{i}} \right)\le 4 \\ & \text{false},其他. \\ \end{align} \right.$ (5)
${{\mathit{\Phi} }_{\text{word-ending}}}\left( \text{w }\!\!\_\!\!\text{ endin}{{\text{g}}_{i}} \right)=\left\{ \begin{align} & \text{true,w }\!\!\_\!\!\text{ endin}{{\text{g}}_{i}}和\text{ste}{{\text{m}}_{i}} \\ & 同事被误判; \\ & \text{false},其他. \\ \end{align} \right.$ (6)

4) 综合特征。以上3种特征分别验证其有效性,随后研究其综合效率。以循环方式将3种特征逐个应用到训练文本语料库中,比较语音识别效果。

从训练样本中,通过上述4种特征收集所有词素单元特征后,满足该特征的所有词素在文本语料库中重新组合成新的中间单元 (词或子词) 序列,构成了新的基于混合粒度单元集的文本语料库,用来建立新的优化单元集为基础的语言模型。

3.2 数据驱动的优化方法

本文也考察了一些常见、有效的数据驱动模型,这些方法已被广泛应用[2-5]。在词素单元基础上,本文分别实现了如下数据驱动的方法:

1) 词干-词尾模式。由于大多单独词缀都很短,容易被混淆,本文将单个词缀串拼接,构成词尾,以词干-词尾形式建立语言模型。

2) 互概率。以互概率是以前向和反向bi-gram概率的几何平均来计算的。当相邻2个单元的互概率MP超过某个阈值时,将其拼接成一个单元:

$\text{MP}\left( {{m}_{i}}{{m}_{j}} \right)=\sqrt{{{P}_{f}}\left( {{m}_{i}}|{{m}_{j}} \right){{P}_{r}}\left( {{m}_{j}}|{{m}_{i}} \right)}.$ (7)

可以看出,这些方法都基于相同的概念,即拼接同现概率高的相邻单元。本文在词素单元序列的基础上融入2个数据驱动的优化方法并建立新的语言模型,与基于层次结构的优化方法进行比较。

4 语音识别实验结果

把节3.1讨论的优化方法应用到维吾尔语大词汇量语音识别系统。为了公平比较,所有的实验用了同一个语音模型,且所有的语音识别结果都以“词”形式归一化,再进行词错误率计算。所有的实验默认选用Cutoff-5的结果,除非特别给出的。

语音模型建立时用到了大量语音语料库,该语料可以分别输入到词和词素为基础的识别系统中。分别获得词-词素双层对齐识别结果,作为层次化结构为基础的优化方法的训练样本库,结果见表 9。可以看出,每一个特征量及其各种组合都能有效降低错误率。

表 9 各种特征量的效率
特征 WER/% ΔWER/% 词典容量/103
词素 (基准) 28.11 0 27.4
误判频率 26.11 2.00 40.4
单元长度 27.19 0.92 32.9
单元属性 26.74 1.36 36.3
单元属性+单元长度 25.80 2.31 41.3
单元属性+单元长度+误判频率 24.89 3.22 56.7

除此之外,误判频率特征可以循环式的反复应用,直到饱和为止。表 10为二次循环后的结果,二次循环后基本达到饱和状态。

表 10 循环式应用误判频率特征
循环次数 WER/% 词典容量/103
基准系统 28.11 27.4
一次循环 26.11 40.4
二次循环 25.82 46.1

表 11为基于数据驱动方法的单元优化的结果。其中词干-词尾法受Cutoff-F的影响较大,所以给出了Cutoff-2结果。互概率方式为了确定最佳阈值,需进行反复实验,而且最好的结果也不如本文提出的方法的。

表 11 数据驱动单元优化结果
方法 WER/% 词典容量/103
词干-词尾 (Cutoff-2) 28.13 74.5
互概率 25.60 53.3

5 结论

在黏性语层次化形态结构的基础上,本文分析了维吾尔语各种粒度单元的分解方法及其统计特性。并在每一种单元集上实现大词汇量语音识别系统,以词错误率和词典容量为标准比较各种粒度单元的表现。提出了一种基于层次化结构的单元集优化方法,该方法在词-词素2层单元序列的基础上择优的选择中间粒度单元。由于从语音识别结果中取样并优化,因此自动考虑到语音协同、混淆等原因引起的问题。结果表明:该方法效率超过了其他数据驱动的优化方法的,不会对识别系统带来过多负担,没有过多参数调整过程且优化单元的辞典容量仅是词单元的1/4左右。

参考文献
[1] Kawahara T, Lee A, Kobayashi T, et al. Free software toolkit for Japanese large vocabulary continuous speech recognition[C]//Proceedings of International Conference on Spoken Language Processing (ICSLP). Beijing, China:INTERSPEECH, 2000, 4:476-479.
[2] George S, Mukund P. Data-driven approach to designing compound words for continuous speech recognition[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(4): 327–332. DOI:10.1109/89.917678
[3] Kwon O W, Park J. Korean large vocabulary continuous speech recognition with morpheme-based recognition units[J]. Speech Communication, 2003, 39(3): 287–300.
[4] Kwon O W. Performance of LVCSR with morpheme-based and syllable-based recognition units[C]//International Conference of Acoustics, Speech and Signal Processing (ICASSP). Istanbul, Turkey:IEEE Press, 2000:1567-1570.
[5] Jongtaveesataporn M, Hienlikit I, Wutiwiwatchai C, et al. Lexical units for Thai LVCSR[J]. Speech Communication, 2009, 51(4): 379–389. DOI:10.1016/j.specom.2008.11.006
[6] Hacioglu K, Pellom B, Ciloglu T, et al. On lexicon creation for turkish LVCSR[C]//Eurospeech. Geneva, Switzerland:EUROSPEECH, 2003:1165-1168.
[7] Arisoy E, Sak H, Saraclar M. Language modeling for automatic turkish broadcast news transcription[C]//INTERSPEECH. Antwerp, Belgium:INTERSPEECH, 2007:2381-2384.
[8] Roark B, Saraclar M, Ollins M. Discriminative n-gram language modeling[J]. Computer Speech and Language, 2007, 21(2): 373–392. DOI:10.1016/j.csl.2006.06.006
[9] Mijit Ablimit, Neubig G, Mimura M, et al. Uyghur Morpheme-based language models and ASR[C]//IEEE International Conference of Signal Processing (IEEE-ICSP). Beijing, China:IEEE Press, 2010:581-584.
[10] Mijit Ablimit, Mirigul Eli, Kawahara T. Partly-supervised Uyghur morpheme segmentation[C]//Oriental-COCOSDA Workshop. Kyoto, Japan:OCOCOSDA, 2008:71-76.
[11] 米吉提·阿不里米提, 艾斯卡尔·艾木都拉, 库尔班·吾布力. 维吾尔语中的语音和谐规律及算法的实现[C]//中国科协学术年会论文集, 乌鲁木齐, 中国: 中国科学技术出版社, 2005: 621-626. Mijit Ablimit, Askar Hamdulla, Kurban Ubul. The Uyghur phonetic harmony rules and their implementation[C]//Annual Conference of China Association for Science. Urumqi, China:Science and technology of China Press, 2005:621-626. (in Chinese)
[12] 米吉提·阿不里米提. 在多文种环境下的维吾尔语文字校对系统的开发研究[J]. 系统工程理论与实践, 2003, 23(5): 117–124. Mijit Ablimit. Research on Uighur corrector system in multilingual environment[J]. Systems Engineering-theory & Practice, 2003, 23(5): 117–124. (in Chinese)
[13] 古丽拉·阿东别克, 米吉提·阿不里米提. 维吾尔语词切分方法初探[J]. 中文信息学报, 2005, 18(6): 61–65. Gulila Adungbieke, Mijit Ablimit. Research on Uighur word segmentation[J]. Journal of Chinese Information Processing, 2005, 18(6): 61–65. (in Chinese)
[14] 米吉提·阿不里米提, 艾斯卡尔·艾木都拉, 吐尔地·托合提. 维吾尔语词法分析器研究开发[C]//全国第11届少数民族语言文字信息处理学术研讨会, 西双版纳, 中国: 西苑出版社, 2007: 408-412. Mijit Ablimit, Askar Hamdulla, Turdy Tohti. Research on Uyghur morphologicalanalyzer[C]//The 11th National Conference on Minority Language Information Processing Symposium. Xishuangbanna, China:Xiyuan Press, 2007:408-412. (in Chinese)
[15] 米热古丽·艾力, 米吉提·阿不里米提, 艾斯卡尔·艾木都拉. 基于词法分析的维吾尔语元音弱化算法研究[J]. 中文信息学报, 2008, 22(4): 43–47. Miriguli Aili, Mijit Ablimit, Askar Hamdulla. A morphological analysis based algorithm for Uyghur word weakening identification[J]. Journal of Chinese Information Processing, 2008, 22(4): 43–47. (in Chinese)