2. 新疆师范大学 数学科学学院, 乌鲁木齐 830054;
3. 新疆师范大学 图书馆, 乌鲁木齐 830054;
4. 新疆大学 信息科学与工程学院, 乌鲁木齐 830046
2. School of Mathematical Sciences, Xinjiang Normal University, Urumqi 830054, China;
3. Xinjiang Normal University Library, Urumqi 830054, China;
4. Institute of Information Science and Engineering, Xinjiang University, Urumqi 830046, China
大语料库波形拼接式语音合成(text to speech, TTS)系统(见图 1)中,韵律处理及控制工作包括3部分:1)从文字到高层面的韵律信息的描述(如韵律的层次结构和边界位置、语句重音的位置及其等级、语调和语气等)的转换;2)从韵律信息描述到韵律的声学参数(如音高、时长、音强、停顿等)的转换,也就是韵律模型的功能;3)在合成时根据韵律模型参数进行韵律调整。文[1]主要解决了维吾尔语语音合成系统中,从文本到韵律层级结构的预测问题。本文主要讨论维吾尔语语音合成系统韵律特征预测问题中,合成单元在自然语流中的不同韵律特征变化规律以及不同韵律边界处的声学特征变化规律。
在维吾尔语音节声学特征方面,文[2]从实验语音学角度上分析了维吾尔语的“辅音+元音+辅音”(consonant vowel consonant, CVC)型音节的韵律特征分析。
在维吾尔语重音研究方面,学者们比较共认的看法是维吾尔语的词重音,尤其是维吾尔语固有词的重音,一般均落在单词的最后一个音节上。当词缀追加词干时,重音后移,即仍落在最后一个音节上[3]。文[4-5]以音节为基本单位分别研究了维吾尔语的双音节词和三音节词中音长、音高和音强特征的分布模式,并在声学特征分析方面进一步论证了“维吾尔语词重音均落在词末音节”的看法。
文[3-5]分别给出了维吾尔语CVC型音节及音节内部的元音和辅音的声学特征变化,以及音节的声学特征在双音节词和三音节词中的分布情况。但维吾尔语中有6种常用的基本音节格式(V、VC、CV、CVC、VCC、CVCC)和5种从其他语言中引进的音节格式(CCV、CCVC、CCVCC、CVV、CVVC)。据语料的统计,维吾尔语中的语法词可以由1至11个音节构成。以上文献只分析了其中的部分情况,而且所分析的音节从单独发音的单词语音中提取出来的。实际上,在连续的语流中音节的韵律特征参数不仅受前后音节和词重音的影响,而且还会受自然语流中的不同上下文语境环境,语调以及句重音等因素的影响。因此在维吾尔语研究方面,对所有音节格式和音节在不同语法和韵律层级结构的声学特征方面没有系统而全面的研究工作及结论。
本文从语音数据库(包括8 993个自然发音风格的句子)中提取音节时长、能量、基频均值、基频最大值、最小值以及基频范围等韵律特征参数,并对音节在单词、韵律词、韵律短语、语调短语以及句子层次中首、中、尾3个不同位置上的韵律特征参数的变化情况进行分析。除此之外,提取了不同韵律边界处的时长,时长延长量和音高重置等声学特征参数,并对维吾尔语韵律边界的声学特征变化情况进行分析。
1 维吾尔语韵律结构的分析在音系学中,韵律层级从小到大依次分为:莫拉、音节、音步、音系词、附着语速词组、音系短语、语调短语和韵律语句。一般情况下,都省略为3个基本层级:韵律词(prosodic word, PW)、韵律短语(prosodic phrase, PP)和语调短语(intonation phrase, INP)。一个较小的韵律成分包含在一个更大的韵律成分中,由此生成了韵律的层级结构。
在维吾尔语的韵律结构研究方面,通过与语言学家进行多次探讨、考察大量的文本和语音数据的结构,一致认为维吾尔语的韵律结构也可以分为韵律词、韵律短语和语调短语3个层次[6]。图 2是维吾尔语句子“这篇论文讲述了语音合成技术”的韵律层级结构图。
根据韵律边界标注规则,PW和PP是根据句子成分、短语结构、助动词和独立成分分析进行标注得到的。INP是简单句或者复合句中的子句,并且通常以标点符号分割。对韵律边界标注的40 630个句子语料进行统计,维吾尔语语法词(lexical word, LW)的平均长度为2.78个维吾尔语音节,韵律词的平均长度为5.29个维吾尔语音节、韵律短语的平均长度为13.1个维吾尔语音节。图 3是维吾尔语语法词、韵律词和韵律短语长度分布图。可以看出维吾尔语中存在大量的双音节和三音节语法词,单音节和四音节语法词也较多,单音节语法词主要是由1个元音组成的单词,比如“
维吾尔语中,韵律短语的长度可以认为有7到14个音节,其中8个音节的韵律短语出现次数最多,可以认为韵律短语由4到5个语法词组成。图 3中明显看出各韵律结构的长度分布很分散,其主要原因可能是维吾尔语的形态变化中,单词词干后面可以追加多个词缀组成语法词。
2 TTS语音数据库概况表 1所示的是标注数据中各层次的统计结果。表 2所示的是维吾尔语的11个音节格式在语音数据库中的出现次数。
音节格式 | 出现次数 |
CV | 143 449 |
CVC | 118 212 |
V | 12 784 |
VC | 12 475 |
CVCC | 1 299 |
CCVC | 375 |
CCV | 318 |
CVVC | 312 |
CVV | 258 |
VCC | 238 |
CCVCC | 7 |
图 4所示的是语音数据库中的音节和音素(元音和辅音)样本的统计结果。从图 4中可以看出,有超过2 000个音节在语音数据库中的出现次数在10以内,占整个音节类型的59%。因为维吾尔语中音节数量很大,所以为了覆盖更多不同的音节样本,在语音数据库建设过程中尽量保留了不同的音节样本。虽然,音节样本的统计结果在一定程度上体现了语音数据库中冗余信息所占的比例低,但是由于语料规模的限制,音节的覆盖率还不是很完备。而音素的覆盖率比较好。音素样本的统计结果中可以看出,仅有1个基元的样本出现次数在1 000以下。实际上,辅音“
3 维吾尔语音节韵律特征的分析
首先对维吾尔语合成系统中最基本的合成单位音节在不同上下文环境中的韵律特征参数的变化规律进行了全面的分析。分析的韵律特征主要包括时长、能量、基频均值、基频最大值、基频最小值和基频变化范围。
图 5是维吾尔语音节在不同语法和韵律层级中,基频相关特征的变化情况的分析结果。
从图 5中可以看出,音节在各边界首和中部时,基频均值没有明显的区别,基本上都保持相同的趋势;但在边界尾部的变化比较显著。音节在单词和韵律词尾部时,因受词重音的影响其基频均值呈上升的趋势;但在韵律短语、语调短语尾部时因受韵律的影响,其基频均值随着边界等级的提高而逐步下降。
音节在单词和韵律词中部时,基频最大值有明显下降,但音节在单词和韵律词尾部时因受词重音的影响,基频最大值急剧增高。而音节在韵律短语、语调短语和句子尾部时,其基频最大值仍保持下降的趋势。通过这个结果可以看出,维吾尔语音节的基频最大值不仅与重音有关,而且也与韵律有关。
音节在边界尾部时,基频最小值随着边界等级的提高仍保持下降趋势,而音节在韵律短语、语调短语尾部时基频最小值的下降趋势更明显。通过这个结果可以看出,基频最小值几乎与词重音无关。音节出现在各边界尾部时的基频变化范围为最大,出现在首部时的为次之,出现在中部时的为最小。
图 6是音节在不同的语法和韵律层次时,时长特征的变化情况。可以看出,无论出现在不同层次边界的首、中、尾部,音节的时长都随着不同层级的提高而提高。对于每个层次而言,尾部的提高最明显。
图 7是音节在不同层级边界首、中、尾部时,短时能量的变化结果。可以看出,音节在各层次边界的首部和中部时,能量随着不同层级的提高而提高,而中部的提高很小。在单词和韵律词尾部,能量因受词重音的影响也呈微小的提高趋势;但在韵律短语、语调短语层级尾部时能量呈下降的趋势,而且变化范围很小。
从以上分析可以看出,本文所分析的韵律特征很明显地解释音节在不同语法和韵律层次中的韵律特征的变化情况:基频特征的影响很大,其次是时长;能量对韵律分析有一定的贡献,但很小。
4 维吾尔语不同韵律层次结构边界的声学分析为了研究维吾尔语韵律层级结构边界的声学表现,本文对语音数据进行韵律层次结构标注,提取了不同韵律边界的时长和音高等声学特征参数,并对维吾尔语的韵律层次结构的声学特征变化情况进行分析。
4.1 韵律层级边界的时长分析时长对区分不同韵律边界具有重要贡献,在韵律边界的表现是音步延时、边界前音节延长、各音节时长比改变、停顿长度的变化等[7]。通常认为静音段(停顿)越长,边界的知觉等级也越高。表 3是维吾尔语不同韵律层级边界前音节的时长平均值和时长延长量(increased percentage of duration, IPD)。
${\rm{IPD}} = \left( {{d_i} - \frac{1}{N}\sum\limits_{i = 1}^N {{d_i}} } \right)/\frac{1}{N}\sum\limits_{i = 1}^N {{d_i}} .$ | (1) |
其中:di是边界前音节的时长,N是音节数量。
从表 3可以看出,在维吾尔语的韵律层级结构中,随着韵律边界层级的提高,边界前音节的时长显著加长,单因素方差分析结果表明无边界和韵律词层级之间(F(1, 5 654)=1 182.2, P<0.001)、韵律词和韵律短语层级之间(F(1, 2 414)=22.34, P<0.001)、韵律短语和语调短语层级之间(F(1, 1 343)=9.16, P<0.05)的前边界音节时长都有显著性差异。不同韵律层级之间时长延长量也随着边界层级的提高而增加。
4.2 韵律层级边界处静音段通过对不同韵律层级之间的停顿进行统计得出,韵律词边界之间没有显著的停顿,韵律短语和语调短语层级边界之间的平均停顿时长分别是154.2和212.8 ms。
4.3 韵律层级边界的音高分析为了研究维吾尔语不同韵律层级之间的音高重置,本文分析了不同韵律层级边界前后高音点和低音点。虽然有些研究表明低音点与节奏群有关,而高音点与重音有关[7]。但还没有研究表明这个观点是否符合维吾尔语的韵律结构。因此音高分析时,本文都考察了高音点和低音点的变化。表 4是维吾尔语不同韵律层级边界前后的低音点和高音点特征。
音高 | 边界类型 | 边界前 | 边界后 | 音高差 |
低音点 | 无边界 | 239.11 | 208.73 | -30.38 |
韵律词 | 228.03 | 218.95 | -9.08 | |
韵律短语 | 220.05 | 220.88 | 0.84 | |
语调短语 | 215.23 | 221.96 | 6.74 | |
高音点 | 无边界 | 286.83 | 242.69 | -44.14 |
韵律词 | 274.50 | 256.91 | -17.59 | |
韵律短语 | 265.67 | 260.26 | -5.41 | |
语调短语 | 256.84 | 260.74 | 3.90 |
从表 4可以看出:随着韵律层级的提高,边界前后的低音差值逐渐增大;无边界时,边界后音节的低音点低于边界前音节的低音点。这反映了低音线的下倾趋势。在韵律词边界也具有下倾趋势,但音高差值比无边界的高,单因素方差分析结果表明它们之间低音点差值具有显著性差异(F(1, 5 570)=158.54, P<0.001)。到了韵律短语边界,后音节的低音点略高于前音节的低音点,这表明在韵律词边界出现低音线的不连续性,韵律词和韵律边界之间低音点差值也具有显著性差异(F(1, 2 414)=33.36, P<0.001)。在语调短语边界,后音节的低音点明显高于前音节的,出现低音线重置,语调短语边界处的低音线重置程度也显著性大于韵律边界的(F(1, 1 343)=6.56, P<0.05)。
边界前后高音点差值也随着韵律层级的提高而增大。无边界和韵律词边界高音点差值(F(1, 5 570)=163.98, P<0.001)、韵律词和韵律短语边界高音点差值(F(1, 2 414)=28.48, P<0.001)以及韵律短语和语调短语边界高音点差值(F(1, 1 343)=9.84, P<0.001)之间都有显著性差异。不同韵律边界前音节的高音点也具有显著性差异(F(2, 2 909)=46.94, P<0.001)。
5 结论韵律结构边界声学特征的统计分析是语音合成系统中最重要的基础性工作,针对维吾尔语的分层韵律结构,本文首先以维吾尔语的最小发音单位以及维吾尔语大语料库语音合成系统的基本合成单位“音节”作为基本单位,对音节在不同韵律层级以及不同位置的韵律特征参数进行分析。在此基础上,对维吾尔语中不同韵律边界的声学特征参数进行统计分析并得出了其变化规律。结果对维吾尔语语音合成系统中韵律边界自动预测和韵律参数自动预测等工作奠定了很好的基础。下一步将研究如何改善语料库的质量,并找出更多影响韵律的声学特征参数和韵律变化规律。
[1] |
姑丽加玛丽·麦麦提艾力. 基于二级语音基元及其韵律参数的UTTS技术研究与实现[D]. 乌鲁木齐: 新疆大学. 2009. Guljamal Mamateli. The Two Level Speech Unit and Their Prosodic Feature Based UTTS Technologies and Implementations[D]. Urumqi:Xinjiang University, 2009. (in Chinese) |
[2] |
热娜古丽·达古提, 艾斯卡尔·艾木都拉, 地里木拉提·吐尔逊.
维吾尔语CVC型音节韵律特征声学分析[J]. 计算机工程, 2011, 37(9): 193–195.
Ranagul Dagut, Askar Hamdull, Dilmurat Tursun. Acoustic analysis on prosodic feature of CVC type syllables in Uyghur language[J]. Computer Engineering, 2011, 37(9): 193–195. (in Chinese) |
[3] |
江海燕, 刘岩, 卢莉.
维吾尔语词重音实验研究[J]. 民族语文, 2010(3): 67–71.
JIANG Haiyan, LIU Yan, LU Li. Experimental study on Uyghur accent[J]. Minority Languages of China, 2010(3): 67–71. (in Chinese) |
[4] |
祖丽皮亚·阿曼, 艾斯卡尔·艾木都拉.
维吾尔语双音节词韵律特征声学分析[J]. 中文信息学报, 2009, 23(5): 104–107.
Zulpiya Aman, Askar Hamdulla. Acoustic analysis of the prosodic features of the disyllabic words in Uyghur language[J]. Journal of Chinese Information Processing, 2009, 23(5): 104–107. (in Chinese) |
[5] |
祖丽皮亚·阿曼, 艾斯卡尔·艾木都拉, 地里木拉提·吐尔逊.
维吾尔语三音节词韵律特征声学分析[J]. 计算机应用, 2009(7): 2032–2034.
Zulpiya Aman, Askar Hamdulla, Dilmurat Tursun. Acoustic analysis of prosodic features of trisyllabic words in Uyghur language[J]. Journal of Computer Application, 2009(7): 2032–2034. (in Chinese) |
[6] |
古力米热·依玛木, 艾斯卡尔·艾木都拉. 维吾尔语句韵律层级的人工标注规则研究[C]//第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集. 乌鲁木齐, 2010: 179-182. Imam Gulmire, Hamdulla Askar. Research on the rules and regulation for manual labeling of prosody levels in Uyghur sentence[C]//The Research and Development of Natural Language Processing Technology Among the Minority Youth -Proceedings of the Third National Minority Youth Natural Language Information Processing and the Second National Multi-lingual Knowledge Base Construction. Urumqi, 2010:179-182.(in Chinese) |
[7] |
王蓓, 吕士楠, 杨玉芳.
汉语语句中重读音节音高变化模式研究[J]. 声学学报, 2002, 27(3): 234–240.
WANG Bei, LV Shinan, YANG Yufang. The pitch movement of stressed syllable in Chinese sentences[J]. Acta Acustica, 2002, 27(3): 234–240. (in Chinese) |