维吾尔语韵律建模

引用本文

古力米热·依玛木, 姑丽加玛丽·麦麦提艾力, 玛依努尔·阿吾力提甫, 艾斯卡尔·艾木都拉. 维吾尔语韵律建模[J]. 清华大学学报（自然科学版）, 2017, 57(12): 1259-1264. 复制到剪切板

Gulmire Imam, Guljamal Mamateli, Maynur Ablitip, Askar Hamdulla. Prosody modeling for Uyghur TTS[J]. Journal of Tsinghua University (Science and Technology), 2017, 57(12): 1259-1264. 复制到剪切板

维吾尔语韵律建模

古力米热·依玛木 ¹ , 姑丽加玛丽·麦麦提艾力 ² , 玛依努尔·阿吾力提甫 ³ , 艾斯卡尔·艾木都拉 ⁴

1. 新疆师范大学文学院, 乌鲁木齐 830054;
2. 新疆师范大学数学科学学院, 乌鲁木齐 830054;
3. 新疆师范大学图书馆, 乌鲁木齐 830054;
4. 新疆大学信息科学与工程学院, 乌鲁木齐 830046

收稿日期：2016-06-22

基金项目：教育部社科基金资助项目（10YJA740027）；教育部新世纪优秀人才支持计划资助项目（NCET-10-0969）；国家自然科学基金地区项目（61462087，61065005）

作者简介：古力米热·依玛木(1969-), 女, 副教授

通信作者：姑丽加玛丽·麦麦提艾力, 副教授, E-mail:guljamal123@sohu.com

摘要：对维吾尔语的韵律结构进行了全面的研究，从维吾尔语语音合成（text to speech，TTS）语音库中提取了音节的时长、能量、基频均值、最大值、最小值和基频范围等韵律特征参数，分析了其在音节处于不同韵律层次时的变化规律。提取了语音数据中韵律边界前后的音节延长量、音高重置和无声段等声学特征参数，并对它们的分布规律进行了统计分析。实验结果表明：不同韵律层级之间时长延长量和音高差值随着边界层级的提高而增加；韵律词边界之间没有显著地停顿，韵律短语和语调短语层级边界之间的平均停顿时长分别是154.2和212.8 ms。

关键词：维吾尔语语音合成韵律结构声学特征分析

Prosody modeling for Uyghur TTS

Gulmire Imam¹, Guljamal Mamateli², Maynur Ablitip³, Askar Hamdulla⁴

1. School of Literature, Xinjiang Normal University, Urumqi 830054, China;
2. School of Mathematical Sciences, Xinjiang Normal University, Urumqi 830054, China;
3. Xinjiang Normal University Library, Urumqi 830054, China;
4. Institute of Information Science and Engineering, Xinjiang University, Urumqi 830046, China

Abstract: The prosodic features of syllables such as duration, energy, mean pitch, maximum pitch, minimum pitch and pitch range were extracted from a Uyghur text to speech (TTS) database with analyses of their variations for different prosodic hierarchies. The pitch reset, pre-boundary lengthening, and silence duration of different prosodic boundaries were also analyzed. The results of acoustic experiments show that the pitch reset and pre-boundary lengthening are much greater as the prosodic boundary degree increases. No obvious pause can be perceived at the prosodic word (PW) boundary and the average silence duration at the prosodic phrase (PP) and intonation phrase (INP) boundaries are 154.2 and 212.8 ms.

Key words: Uyghur text to speech (TTS) prosody structure acoustic analysis

大语料库波形拼接式语音合成(text to speech, TTS)系统(见图 1)中，韵律处理及控制工作包括3部分：1)从文字到高层面的韵律信息的描述(如韵律的层次结构和边界位置、语句重音的位置及其等级、语调和语气等)的转换；2)从韵律信息描述到韵律的声学参数(如音高、时长、音强、停顿等)的转换，也就是韵律模型的功能；3)在合成时根据韵律模型参数进行韵律调整。文[1]主要解决了维吾尔语语音合成系统中，从文本到韵律层级结构的预测问题。本文主要讨论维吾尔语语音合成系统韵律特征预测问题中，合成单元在自然语流中的不同韵律特征变化规律以及不同韵律边界处的声学特征变化规律。

图 1 本文大语料库波形拼接式语音合成系统结构

图选项

在维吾尔语音节声学特征方面，文[2]从实验语音学角度上分析了维吾尔语的“辅音+元音+辅音”(consonant vowel consonant, CVC)型音节的韵律特征分析。

在维吾尔语重音研究方面，学者们比较共认的看法是维吾尔语的词重音，尤其是维吾尔语固有词的重音，一般均落在单词的最后一个音节上。当词缀追加词干时，重音后移，即仍落在最后一个音节上^[3]。文[4-5]以音节为基本单位分别研究了维吾尔语的双音节词和三音节词中音长、音高和音强特征的分布模式，并在声学特征分析方面进一步论证了“维吾尔语词重音均落在词末音节”的看法。

文[3-5]分别给出了维吾尔语CVC型音节及音节内部的元音和辅音的声学特征变化，以及音节的声学特征在双音节词和三音节词中的分布情况。但维吾尔语中有6种常用的基本音节格式(V、VC、CV、CVC、VCC、CVCC)和5种从其他语言中引进的音节格式(CCV、CCVC、CCVCC、CVV、CVVC)。据语料的统计，维吾尔语中的语法词可以由1至11个音节构成。以上文献只分析了其中的部分情况，而且所分析的音节从单独发音的单词语音中提取出来的。实际上，在连续的语流中音节的韵律特征参数不仅受前后音节和词重音的影响，而且还会受自然语流中的不同上下文语境环境，语调以及句重音等因素的影响。因此在维吾尔语研究方面，对所有音节格式和音节在不同语法和韵律层级结构的声学特征方面没有系统而全面的研究工作及结论。

本文从语音数据库(包括8 993个自然发音风格的句子)中提取音节时长、能量、基频均值、基频最大值、最小值以及基频范围等韵律特征参数，并对音节在单词、韵律词、韵律短语、语调短语以及句子层次中首、中、尾3个不同位置上的韵律特征参数的变化情况进行分析。除此之外，提取了不同韵律边界处的时长，时长延长量和音高重置等声学特征参数，并对维吾尔语韵律边界的声学特征变化情况进行分析。

1 维吾尔语韵律结构的分析

在音系学中，韵律层级从小到大依次分为：莫拉、音节、音步、音系词、附着语速词组、音系短语、语调短语和韵律语句。一般情况下，都省略为3个基本层级：韵律词(prosodic word, PW)、韵律短语(prosodic phrase, PP)和语调短语(intonation phrase, INP)。一个较小的韵律成分包含在一个更大的韵律成分中，由此生成了韵律的层级结构。

在维吾尔语的韵律结构研究方面，通过与语言学家进行多次探讨、考察大量的文本和语音数据的结构，一致认为维吾尔语的韵律结构也可以分为韵律词、韵律短语和语调短语3个层次^[6]。图 2是维吾尔语句子“这篇论文讲述了语音合成技术”的韵律层级结构图。

图 2 维吾尔语句子韵律结构实例

图选项

根据韵律边界标注规则，PW和PP是根据句子成分、短语结构、助动词和独立成分分析进行标注得到的。INP是简单句或者复合句中的子句，并且通常以标点符号分割。对韵律边界标注的40 630个句子语料进行统计，维吾尔语语法词(lexical word, LW)的平均长度为2.78个维吾尔语音节，韵律词的平均长度为5.29个维吾尔语音节、韵律短语的平均长度为13.1个维吾尔语音节。图 3是维吾尔语语法词、韵律词和韵律短语长度分布图。可以看出维吾尔语中存在大量的双音节和三音节语法词，单音节和四音节语法词也较多，单音节语法词主要是由1个元音组成的单词，比如“”等。标注语料中4到5个音节的韵律词的出现次数最多，这样可以认为维吾尔语韵律词一般由2个语法词组成。同时小于2个音节的和大于8个音节的韵律词很少，可以看作是特殊的情况，这样维吾尔语中单个语法词也可以作为韵律词，也有三个语法词组成一个韵律词的情况。

图 3 维吾尔语各韵律层次的长度分布图

图选项

维吾尔语中，韵律短语的长度可以认为有7到14个音节，其中8个音节的韵律短语出现次数最多，可以认为韵律短语由4到5个语法词组成。图 3中明显看出各韵律结构的长度分布很分散，其主要原因可能是维吾尔语的形态变化中，单词词干后面可以追加多个词缀组成语法词。

2 TTS语音数据库概况

表 1所示的是标注数据中各层次的统计结果。表 2所示的是维吾尔语的11个音节格式在语音数据库中的出现次数。

表 1 语音数据库的统计结果

层次	个数	句中平均数
语调短语	16 070	1
韵律短语	23 037	2
韵律词	55 389	6
单词	103 810	12
音节	289 900	32

表选项

表 2 维吾尔语音节格式的统计结果

音节格式	出现次数
CV	143 449
CVC	118 212
V	12 784
VC	12 475
CVCC	1 299
CCVC	375
CCV	318
CVVC	312
CVV	258
VCC	238
CCVCC	7

表选项

图 4所示的是语音数据库中的音节和音素(元音和辅音)样本的统计结果。从图 4中可以看出，有超过2 000个音节在语音数据库中的出现次数在10以内，占整个音节类型的59%。因为维吾尔语中音节数量很大，所以为了覆盖更多不同的音节样本，在语音数据库建设过程中尽量保留了不同的音节样本。虽然，音节样本的统计结果在一定程度上体现了语音数据库中冗余信息所占的比例低，但是由于语料规模的限制，音节的覆盖率还不是很完备。而音素的覆盖率比较好。音素样本的统计结果中可以看出，仅有1个基元的样本出现次数在1 000以下。实际上，辅音“”的样本数量在200左右，其他31个音素的都在1 000以上，元音“”的样本出现次数在10万以上。

图 4 音节与音素样本统计结果

图选项

3 维吾尔语音节韵律特征的分析

首先对维吾尔语合成系统中最基本的合成单位音节在不同上下文环境中的韵律特征参数的变化规律进行了全面的分析。分析的韵律特征主要包括时长、能量、基频均值、基频最大值、基频最小值和基频变化范围。

图 5是维吾尔语音节在不同语法和韵律层级中，基频相关特征的变化情况的分析结果。

图 5 音节基频特征

图选项

从图 5中可以看出，音节在各边界首和中部时，基频均值没有明显的区别，基本上都保持相同的趋势；但在边界尾部的变化比较显著。音节在单词和韵律词尾部时，因受词重音的影响其基频均值呈上升的趋势；但在韵律短语、语调短语尾部时因受韵律的影响，其基频均值随着边界等级的提高而逐步下降。

音节在单词和韵律词中部时，基频最大值有明显下降，但音节在单词和韵律词尾部时因受词重音的影响，基频最大值急剧增高。而音节在韵律短语、语调短语和句子尾部时，其基频最大值仍保持下降的趋势。通过这个结果可以看出，维吾尔语音节的基频最大值不仅与重音有关，而且也与韵律有关。

音节在边界尾部时，基频最小值随着边界等级的提高仍保持下降趋势，而音节在韵律短语、语调短语尾部时基频最小值的下降趋势更明显。通过这个结果可以看出，基频最小值几乎与词重音无关。音节出现在各边界尾部时的基频变化范围为最大，出现在首部时的为次之，出现在中部时的为最小。

图 6是音节在不同的语法和韵律层次时，时长特征的变化情况。可以看出，无论出现在不同层次边界的首、中、尾部，音节的时长都随着不同层级的提高而提高。对于每个层次而言，尾部的提高最明显。

图 6 维吾尔语音节时长变化

图选项

图 7是音节在不同层级边界首、中、尾部时，短时能量的变化结果。可以看出，音节在各层次边界的首部和中部时，能量随着不同层级的提高而提高，而中部的提高很小。在单词和韵律词尾部，能量因受词重音的影响也呈微小的提高趋势；但在韵律短语、语调短语层级尾部时能量呈下降的趋势，而且变化范围很小。

图 7 维吾尔语音节能量变化

图选项

从以上分析可以看出，本文所分析的韵律特征很明显地解释音节在不同语法和韵律层次中的韵律特征的变化情况：基频特征的影响很大，其次是时长；能量对韵律分析有一定的贡献，但很小。

4 维吾尔语不同韵律层次结构边界的声学分析

为了研究维吾尔语韵律层级结构边界的声学表现，本文对语音数据进行韵律层次结构标注，提取了不同韵律边界的时长和音高等声学特征参数，并对维吾尔语的韵律层次结构的声学特征变化情况进行分析。

4.1 韵律层级边界的时长分析

时长对区分不同韵律边界具有重要贡献，在韵律边界的表现是音步延时、边界前音节延长、各音节时长比改变、停顿长度的变化等^[7]。通常认为静音段(停顿)越长，边界的知觉等级也越高。表 3是维吾尔语不同韵律层级边界前音节的时长平均值和时长延长量(increased percentage of duration, IPD)。

表 3 不同韵律层级边界前音节时长平均值及IPD

韵律层级边界	音节时长/ms	IPD/%
语法词(无边界)	208.86	-5.97
韵律词	268.23	9.18
韵律短语	280.44	32.88
语调短语	290.23	42.92

表选项

${\rm{IPD}} = \left( {{d_i} - \frac{1}{N}\sum\limits_{i = 1}^N {{d_i}} } \right)/\frac{1}{N}\sum\limits_{i = 1}^N {{d_i}} .$

(1)

其中：d_i是边界前音节的时长，N是音节数量。

从表 3可以看出，在维吾尔语的韵律层级结构中，随着韵律边界层级的提高，边界前音节的时长显著加长，单因素方差分析结果表明无边界和韵律词层级之间(F(1, 5 654)=1 182.2, P＜0.001)、韵律词和韵律短语层级之间(F(1, 2 414)=22.34, P＜0.001)、韵律短语和语调短语层级之间(F(1, 1 343)=9.16, P＜0.05)的前边界音节时长都有显著性差异。不同韵律层级之间时长延长量也随着边界层级的提高而增加。

4.2 韵律层级边界处静音段

通过对不同韵律层级之间的停顿进行统计得出，韵律词边界之间没有显著的停顿，韵律短语和语调短语层级边界之间的平均停顿时长分别是154.2和212.8 ms。

4.3 韵律层级边界的音高分析

为了研究维吾尔语不同韵律层级之间的音高重置，本文分析了不同韵律层级边界前后高音点和低音点。虽然有些研究表明低音点与节奏群有关，而高音点与重音有关^[7]。但还没有研究表明这个观点是否符合维吾尔语的韵律结构。因此音高分析时，本文都考察了高音点和低音点的变化。表 4是维吾尔语不同韵律层级边界前后的低音点和高音点特征。

表 4 不同韵律层级边界前后音节的低音点、高音点及音高差值

音高	边界类型	边界前	边界后	音高差
低音点	无边界	239.11	208.73	-30.38
	韵律词	228.03	218.95	-9.08
	韵律短语	220.05	220.88	0.84
	语调短语	215.23	221.96	6.74
高音点	无边界	286.83	242.69	-44.14
	韵律词	274.50	256.91	-17.59
	韵律短语	265.67	260.26	-5.41
	语调短语	256.84	260.74	3.90

表选项

从表 4可以看出：随着韵律层级的提高，边界前后的低音差值逐渐增大；无边界时，边界后音节的低音点低于边界前音节的低音点。这反映了低音线的下倾趋势。在韵律词边界也具有下倾趋势，但音高差值比无边界的高，单因素方差分析结果表明它们之间低音点差值具有显著性差异(F(1, 5 570)=158.54, P＜0.001)。到了韵律短语边界，后音节的低音点略高于前音节的低音点，这表明在韵律词边界出现低音线的不连续性，韵律词和韵律边界之间低音点差值也具有显著性差异(F(1, 2 414)=33.36, P＜0.001)。在语调短语边界，后音节的低音点明显高于前音节的，出现低音线重置，语调短语边界处的低音线重置程度也显著性大于韵律边界的(F(1, 1 343)=6.56, P＜0.05)。

边界前后高音点差值也随着韵律层级的提高而增大。无边界和韵律词边界高音点差值(F(1, 5 570)=163.98, P＜0.001)、韵律词和韵律短语边界高音点差值(F(1, 2 414)=28.48, P＜0.001)以及韵律短语和语调短语边界高音点差值(F(1, 1 343)=9.84, P＜0.001)之间都有显著性差异。不同韵律边界前音节的高音点也具有显著性差异(F(2, 2 909)=46.94, P＜0.001)。

5 结论

韵律结构边界声学特征的统计分析是语音合成系统中最重要的基础性工作，针对维吾尔语的分层韵律结构，本文首先以维吾尔语的最小发音单位以及维吾尔语大语料库语音合成系统的基本合成单位“音节”作为基本单位，对音节在不同韵律层级以及不同位置的韵律特征参数进行分析。在此基础上，对维吾尔语中不同韵律边界的声学特征参数进行统计分析并得出了其变化规律。结果对维吾尔语语音合成系统中韵律边界自动预测和韵律参数自动预测等工作奠定了很好的基础。下一步将研究如何改善语料库的质量，并找出更多影响韵律的声学特征参数和韵律变化规律。

参考文献

[1]	姑丽加玛丽·麦麦提艾力. 基于二级语音基元及其韵律参数的UTTS技术研究与实现[D]. 乌鲁木齐: 新疆大学. 2009. Guljamal Mamateli. The Two Level Speech Unit and Their Prosodic Feature Based UTTS Technologies and Implementations[D]. Urumqi:Xinjiang University, 2009. (in Chinese)
[2]	热娜古丽·达古提, 艾斯卡尔·艾木都拉, 地里木拉提·吐尔逊. 维吾尔语CVC型音节韵律特征声学分析[J]. 计算机工程, 2011, 37(9): 193–195. Ranagul Dagut, Askar Hamdull, Dilmurat Tursun. Acoustic analysis on prosodic feature of CVC type syllables in Uyghur language[J]. Computer Engineering, 2011, 37(9): 193–195. (in Chinese)
[3]	江海燕, 刘岩, 卢莉. 维吾尔语词重音实验研究[J]. 民族语文, 2010(3): 67–71. JIANG Haiyan, LIU Yan, LU Li. Experimental study on Uyghur accent[J]. Minority Languages of China, 2010(3): 67–71. (in Chinese)
[4]	祖丽皮亚·阿曼, 艾斯卡尔·艾木都拉. 维吾尔语双音节词韵律特征声学分析[J]. 中文信息学报, 2009, 23(5): 104–107. Zulpiya Aman, Askar Hamdulla. Acoustic analysis of the prosodic features of the disyllabic words in Uyghur language[J]. Journal of Chinese Information Processing, 2009, 23(5): 104–107. (in Chinese)
[5]	祖丽皮亚·阿曼, 艾斯卡尔·艾木都拉, 地里木拉提·吐尔逊. 维吾尔语三音节词韵律特征声学分析[J]. 计算机应用, 2009(7): 2032–2034. Zulpiya Aman, Askar Hamdulla, Dilmurat Tursun. Acoustic analysis of prosodic features of trisyllabic words in Uyghur language[J]. Journal of Computer Application, 2009(7): 2032–2034. (in Chinese)
[6]	古力米热·依玛木, 艾斯卡尔·艾木都拉. 维吾尔语句韵律层级的人工标注规则研究[C]//第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集. 乌鲁木齐, 2010: 179-182. Imam Gulmire, Hamdulla Askar. Research on the rules and regulation for manual labeling of prosody levels in Uyghur sentence[C]//The Research and Development of Natural Language Processing Technology Among the Minority Youth -Proceedings of the Third National Minority Youth Natural Language Information Processing and the Second National Multi-lingual Knowledge Base Construction. Urumqi, 2010:179-182.(in Chinese)
[7]	王蓓, 吕士楠, 杨玉芳. 汉语语句中重读音节音高变化模式研究[J]. 声学学报, 2002, 27(3): 234–240. WANG Bei, LV Shinan, YANG Yufang. The pitch movement of stressed syllable in Chinese sentences[J]. Acta Acustica, 2002, 27(3): 234–240. (in Chinese)

文章信息

工作空间