普通话塞擦音的声学特性研究
李善鹏 , 顾文涛     
南京师范大学 文学院, 南京 210097
摘要:该文考察了普通话6个塞擦音的声学参数与其语音特征之间的关系。通过Praat软件提取时长、振幅、频谱能量分布、后接元音第二共振峰(F2)起始频率等9个声学参数。通过方差分析,揭示了统计上分别区分3个发音部位、2个送气状态以及2个后接元音的声学参数;判别分析结果显示,9个声学参数的组合对6个塞擦音的辨别率为85.9%;主成分分析结果显示,前5个主成分可以表征塞擦音86.3%的信息。综合3种统计分析结果表明:摩擦段的频谱能量分布是普通话塞擦音最重要的一组声学参数,有些主要表征了发音部位,有些主要表征了送气状态;摩擦段的时长和振幅主要表征了送气状态及后接元音;后接元音的F2起始频率也会受到塞擦音发音部位的影响。
关键词普通话     塞擦音     声学参数     语音特征    
Acoustic characteristics of Mandarin affricates
LI Shanpeng , GU Wentao     
School of Chinese Language and Culture, Nanjing Normal University, Nanjing 210097, China
Abstract:This study investigated the relationships between acoustic parameters and phonetic features for six Mandarin affricates. The nine acoustic parameters including the duration, amplitude, spectral energy distribution, and F2 onset of the following vowel were extracted by Praat. An ANOVA analysis was used to show which acoustic parameters that can statistically distinguish the three places of articulation, two states of aspiration, and two following vowels. A discriminant analysis showed that the combination of all nine acoustic parameters gave a 85.9% recognition rate for the six affricates. A principle component analysis showed that the first five components contributed 86.3% of the information for the affricates. The spectral energy distribution parameters of the frication are the most important acoustic parameters for Mandarin affricates, some of which mainly contribute to the articulation location while others mainly contribute to the state of aspiration. The normalized duration and amplitude of the frication are the next important parameters, contributing to both the state of aspiration and to the following vowel. The F2 onset of the following vowel is affected by the place of articulation of the affricate.
Key words: Mandarin speech     affricate     acoustic parameter     phonetic feature    

言语交流的主要载体是语音信号,语音的各种声学参数传递了不同的信息。对于普通话来说,与元音的声学研究相比,擦音、 塞擦音的声学研究较为薄弱。本文主要探究了普通话塞擦音的众多声学参数与普通话各个语音特征之间的关系。

Svantesson[1]最早对普通话擦音、 塞擦音进行了声学研究,基于临界带谱提取了谱重心、 分散度和平均强度级3个参数,用以构建擦音格局,该方法也被用于汉语方言及民族语(如文[2-3]),但还不能精确地区分不同的擦音、 塞擦音。

孙锐欣[4]提取了普通话6个擦音在2~16 kHz频率范围内162个等间隔频段的能量值,通过主成分分析,前3个主成分可表征擦音94.8% 的信息。Jongman等[5]利用频谱、 振幅、 时长等10个声学参数对英语中8个擦音进行分析,发现频谱和振幅的6个参数可以有效区分擦音的4个发音部位。Lee等[6]借鉴文[5]的研究方法,使用11个声学参数,考察了普通话4个清擦音(f、 s、 sh、 x)的发音部位和性别差异,发现没有一个参数可以单独区分普通话擦音的4个发音部位,在普通话里可以区分擦音的声学参数,不一定能区分英语里的擦音。但是该文的结论是从小规模语料中得出的,还需进一步验证。

本文的研究方法和文[5-6]类似,同时借鉴文[7-10]的研究方法,以普通话塞擦音(z、 c、 zh、 ch、 j、 q)为对象,利用方差分析、 判别分析和主成分分析等统计方法,研究不同声学参数与塞擦音的发音部位、 送气状态和后接元音之间的对应关系。

1 语料设计与录制

塞擦音可以看成是塞音和擦音的组合。普通话有6个塞擦音,分别是齿龈音z//、 c//,卷舌音zh //、 ch //以及龈腭音j /tC/、 q /tCh/。其中z、 zh、 j不送气,c、 ch、 q送气。

将6个塞擦音分别后接元音a和i,组成12个音节。其中i接在齿龈音、 卷舌音、 龈腭音后的实际发音分别是//、 //、 /i/,可看作同一音位的不同变体。j和q后接a时,由于是齐齿呼,所以在汉语拼音方案里加韵头i标为jia、 qia。

为了消除声调的影响,每个音节都包含了4个声调的拼合。由于ca2、 ca4、 za4、 zi2这4个音节没有对应的汉字,因此这4个音节使用拼音,发音人提前进行训练,保证能够真实自然地发音。

为了测量闭塞段时长,在目标音节前加一个字“阿”(a1),组成双音节词。每个词由8名发音人(4男4女)重复录制3遍,共计1 152个音节。

录音在专业隔音室进行,使用Neumann U87Ai话筒、 Daking Mic Pre One前置放大器和RME Fireface 800声卡。录音前发音人先熟悉发音词表,以便准确、 自然地发音; 录音时发音人对着发音词表,以正常语速读3遍。

2 参数定义

分别提取闭塞段的相对时长、 摩擦段的相对时长、 相对振幅、 谱顶点、 谱重心、 标准差、 偏度、 峰度以及后接元音第二共振峰F2起始频率等9个声学参数。因爆破段容易缺失,难以保证参数提取,所以未予考察。各参数的定义如下:

2.1 时长

分别提取塞擦音的闭塞段(closure)和摩擦段(frication)时长。闭塞段定义为前邻元音F2结束至爆破段冲直条开始的时段。摩擦段定义为爆破段冲直条结束至后接元音的第一个清晰脉冲或F1开始的时段; 如果没有爆破段冲直条出现,闭塞段终点和摩擦段起点重合,定义为波形图上能量从无到有切换的位置,即零交叉点。

为了消除语速对时长的影响,本文计算相对时长,即闭塞段和摩擦段在音节中所占的时长百分比。

2.2 振幅

利用Praat语音分析软件提取摩擦段振幅的均方根值。为了消除绝对音量的影响,对振幅进行归一化处理,即计算摩擦段振幅减去元音段振幅得到的差值。其中元音段振幅定义为元音段振幅最大点所在脉冲及前后两个相邻脉冲的振幅平均值。

2.3 频谱能量分布

摩擦性音段最重要的声学参数是频谱能量分布,它与前共振腔的长度密切相关。频谱能量分布主要包含2组参数,即谱顶点和谱矩。其中谱矩又包含谱重心(1阶原点矩)、 标准差(2阶中心矩的平方根)、 偏度(归一化的3阶中心矩)和峰度(归一化的4阶中心矩)。

1) 谱顶点

谱顶点定义为摩擦段中点位置的频谱函数振幅最大的频率值。为了避免低频和高频噪音的干扰,只在2 800~12 000 Hz的频段上计算。

2) 谱矩

根据摩擦段中间80%时段的频谱函数,计算出谱重心(即均值)、 标准差、 偏度和峰度。其中,谱重心表征了能量的中心位置; 标准差表征了频谱的分散程度; 偏度表征了能量主要分布在高频还是低频,偏度为正,则能量更多分布在低频,偏度为负,则能量更多分布在高频; 峰度表征了能量集中区的陡缓程度。

2.4 后接元音F2起始频率

后接元音F2弯头携带有辅音发音部位的信息。本文设计a、 i 这2个后接元音,用于验证后接元音F2起始频率对塞擦音发音部位的区分作用。后接元音F2起始频率的提取采用Praat软件的共振峰跟踪算法。

3 方差分析

使用SPSS 20.0的一般线性模型进行重复测量的方差分析,事后检验使用Bonferroni修正。以发音部位、 送气状态和后接元音为自变量,9个声学参数分别作为因变量,方差分析结果见表 1

表 1 方差分析结果
参数发音部分送气状态后接元音发音部位×送气状态发音部位×后接元音
Fpη2Fpη2Fpη2Fpη2Fpη2
闭塞段相对时长 45.550.000**0.88 113.790.000**0.95 0.290.608 0.052.100.166 0.2617.390.000**0.74
摩擦段相对时长5.830.017*0.493 001.60.000**1.00686.490.000**0.994.030.046*0.401.320.3040.18
相对振幅97.910.000**0.94573.650.000**0.99180.790.000**0.972.140.1610.263.600.0600.38
谱顶点246.790.000**0.9821.070.004*0.7873.140.000**0.920.990.3990.146.040.015*0.50
谱重心1 206.990.000**0.99108.350.000**0.95699.180.000**0.9951.260.000**0.9032.020.000**0.84
标准差205.740.000**0.97506.990.000**0.9939.110.001*0.8778.790.000**0.9334.820.000**0.85
偏度439.630.000**0.980.370.5650.065.890.0510.504.090.044*0.412.310.1420.28
峰度24.180.000**0.809.890.020*0.622.190.1890.271.090.3680.159.720.003*0.62
元音F2起始频率210.720.000**0.972.340.1770.2852.420.000**0.8912.570.001*0.6833.020.000**0.85
注: F为检验统计值,p为显著水平,η2为效应量。*表示0.001≤ p < 0.05,差异显著;**表示p < 0.001,差异极显著。

3.1 时长

闭塞段和摩擦段相对时长的统计均值,如表 2所示。

表 2 相对时长的统计均值(%)
发音部位塞擦音闭塞段摩擦段
-a-i-a-i
齿龈音z18.519.014.519.1
c12.613.627.234.8
卷舌音zh21.220.412.418.6
ch15.713.527.334.9
龈腭音j15.617.316.120.2
q12.012.628.035.2

1) 闭塞段时长

发音部位具有显著的主效应,卷舌音zh、 ch的闭塞段(17.7%)比齿龈音z、 c(15.9%)、 龈腭音j、 q(14.4%)的更长,但是齿龈音和龈腭音之间没有显著性差异。

送气状态具有显著的主效应。不送气塞擦音的闭塞段(18.7%)比送气塞擦音的(13.3%)更长。发音部位和后接元音具有显著的交互效应。齿龈音、 龈腭音后接i比后接a时闭塞段更长,而卷舌音后接i比后接a时闭塞段更短。

2) 摩擦段时长

发音部位有显著的主效应。龈腭音j、 q的摩擦段(24.9%)长于卷舌音zh、 ch的(23.3%),但是齿龈音z、 c(23.9%)和卷舌音、 龈腭音之间没有显著性差异。

送气状态具有显著的主效应。送气音摩擦段时长(31.2%)大于不送气音摩擦段时长(16.8%)。后接元音具有显著的主效应,后接i时摩擦段时长(27.1%)大于后接a时摩擦段时长(20.9%)。发音部位和送气状态有显著的交互效应,不送气时,龈腭音的摩擦段(18.1%)比齿龈音、 卷舌音的摩擦段更长,而齿龈音和卷舌音的摩擦段时长没有显著差异; 送气时,3种发音部位的摩擦段时长没有显著差异。

3.2 振幅

摩擦段相对振幅的统计均值,如表 3所示。

表 3 摩擦段相对振幅的统计均值(dB)
发音部位塞擦音后接元音
-a-i
齿龈音z-10.9-8.6
c-7.2-3.7
卷舌音zh-8.0-7.3
ch-6.3-1.9
龈腭音j-7.0-6.1
q-3.3-0.5

发音部位具有显著的主效应。齿龈音z、 c(-7.59 dB)、 卷舌音zh、 ch(-5.88 dB)和龈腭音j、 q(-4.22 dB)3组之间的振幅均有显著性差异,发音部位越靠后,振幅越大。送气状态具有显著的主效应,送气塞擦音的振幅(-3.81 dB)大于不送气塞擦音的(-7.99 dB)。后接元音具有显著的主效应,后接a时塞擦音振幅(-7.12 dB)小于后接i时的振幅(-4.68 dB)。

3.3 频谱能量分布

频谱能量分布的统计均值,如表 4所示。

表 4 频谱能量分布的统计均值
发音部位塞擦音谱顶点/Hz谱重心/Hz标准差/Hz偏度峰度
齿龈音z7 424.49 498.32 347.9-0.222.70
c8 422.47 829.32 946.9-0.031.28
卷舌音zh4 269.44 833.32 064.41.194.28
ch4 843.64 531.72 148.81.223.74
龈腭音j5 714.27 278.01 911.80.934.17
q6 679.36 792.72 004.10.803.17

1) 谱顶点

发音部位有显著的主效应。齿龈音z、 c(7 923.4 Hz)、 卷舌音zh、 ch(4 556.5 Hz)和龈腭音j、 q(6 196.8 Hz)这3组之间谱顶点均有显著性差异。

送气状态具有显著的主效应。不送气塞擦音的谱顶点(5 802.6 Hz)比送气塞擦音的谱顶点(6 628.4 Hz)更低。 后接元音具有显著的主效应。后接i时谱顶点(6 961.8 Hz)比后接a时的(5 489.3 Hz)更高。

发音部位和后接元音之间具有显著的交互效应。后接a和i造成的谱顶点差异,齿龈音比卷舌音、 龈腭音的效应更大。不同发音部位和后接元音的谱顶点分布,如图 1所示(箱型图,下同)。

图 1 不同发音部位和后接元音的谱顶点分布

2) 谱矩

a) 谱重心

发音部位具有显著的主效应。齿龈音z、 c(8 663.8 Hz)、 卷舌音zh、 ch(4 682.5 Hz)和龈腭音j、 q(7 035.3 Hz)3组之间谱重心均有显著性差异。送气状态具有显著的主效应。送气塞擦音谱重心(6 384.6 Hz)低于不送气塞擦音的(7 203.2 Hz)。后接元音具有显著的主效应。后接a时谱重心(6 331.8 Hz)比后接i时的(7 255.9 Hz)更低。

发音部位和送气状态具有显著的交互效应。不送气和送气造成的谱重心差异,齿龈音比卷舌音、 龈腭音的效应更大。不同发音部位和送气状态的谱重心分布,如图 2所示。

发音部位和后接元音具有显著的交互效应,后接元音i和a造成的谱重心差异,齿龈音比卷舌音的效应更大。

图 2 不同发音部位和送气状态的谱重心分布

b) 标准差

发音部位具有显著的主效应。齿龈音z、 c(2 647.4 Hz)、 卷舌音zh、 ch(2 100.6 Hz)和龈腭音j、 q(1 957.9 Hz)之间标准差均有显著差异,随着发音部位后移,标准差变小,即能量变得集中。

送气状态具有显著的主效应。送气音的标准差(2 366.6 Hz)比不送气音的(2 108.1 Hz)更大。后接元音具有显著的主效应。后接a时标准差(2 309.6 Hz)比后接i时的(2 164.9 Hz)更大。发音部位和送气状态具有显著的交互效应。送气和不送气造成的标准差差异,齿龈音的比卷舌音、 龈腭音的效应更大。

发音部位和后接元音具有显著的交互效应。齿龈音后接a时标准差(2 867.7 Hz)比后接i时的(2 427.1 Hz)更大,而卷舌音、 龈腭音后接i和a时,标准差没有显著差异。不同发音部位和后接元音的标准差分布,如图 3所示。

图 3 不同发音部位和后接元音的标准差分布

c) 偏度

发音部位具有显著的主效应。齿龈音z、 c (-1.26)、 卷舌音zh、 ch(1.21)和龈腭音j、 q(0.86)3组之间的偏度均有显著差异。

发音部位和送气状态具有显著的交互效应。如图 4所示,齿龈音不送气时(-0.22)比送气时(-0.03)能量更集中在高频,而卷舌音、 龈腭音送气和不送气时,偏度没有显著差异。

图 4 不同发音部位和送气状态的偏度分布

d) 峰度

发音部位具有显著的主效应。齿龈音z、 c的峰度(1.99)显著低于卷舌音zh、 ch的(4.00)和龈腭音j、 q的(3.67),但是卷舌音和龈腭音之间没有显著差异。送气状态具有显著的主效应。不送气塞擦音的峰度(3.71)比送气塞擦音的(2.73)更高。

发音部位和后接元音具有显著的交互效应。齿龈音后接i时峰度(2.31)比后接a时的(1.66)更高,而卷舌音、 龈腭音后接i与后接a时的峰度没有显著差异。不同发音部位和后接元音的峰度,如图 5所示。

图 5 不同发音部位和后接元音的峰度分布

3.4 后接元音F2起始频率

后接元音F2起始频率的统计均值,如表 5所示。

表 5 后接元音F2起始频率的统计均值(Hz)
发音部位塞擦音后接元音
-a-i
齿龈音z1 571.41781.2
c1 651.11 748.5
卷舌音zh1 859.82 358.8
ch1 651.72 110.9
龈腭音j2 158.92 275.1
q2 153.32 320.0

发音部位具有显著的主效应。齿龈音z、 c(1 674.9 Hz)、 卷舌音zh、 ch(2 014.4 Hz)和龈腭音j、 q(2 251.3 Hz)之间均有显著差异,随着发音部位的后移,后接元音F2起始频率逐步增大。后接元音具有显著的主效应。元音a的F2起始频率低于元音i,显然这是由元音舌位的前后决定的。

发音部位和后接元音具有显著的交互效应。后接元音a的F2起始频率,龈腭音显著高于卷舌音,而卷舌音显著高于齿龈音。后接元音i的F2起始频率,龈腭音和卷舌音之间没有显著差异,但是两者都显著高于齿龈音。不同发音部位和后接元音的F2起始频率分布,如图 6所示。

图 6 不同发音部位和后接元音的F2起始频率分布

发音部位和送气状态有显著的交互效应。对于送气音,龈腭音的后接元音F2起始频率,显著高于卷舌音,而卷舌音又显著高于齿龈音。对于不送气音,龈腭音和卷舌音之间没有显著差异,但是二者的后接元音F2起始频率都显著高于齿龈音。不同发音部位和送气状态的F2起始频率分布,如图 7所示。

图 7 不同发音部位和送气状态的F2起始频率分布

4 判别分析和主成分分析

用9个声学参数进行判别分析,结果显示,对6个塞擦音的辨别率为85.9%。其中辨别率最低的是送气卷舌音ch(80.2%,有9.4%误判为zh,8.9%误判为q),辨别率最高的是不送气卷舌音zh(91.7%,有5%误判为q)。

具体来看,对3个发音部位的辨别率为89.5%,其中辨别率最高的是卷舌音(92.2%),辨别率最低的是龈腭音(87.8%); 对送气状态的辨识率为94.6%,其中送气的辨识率为93.9%,不送气的辨识率为95.3%; 对后接元音a和i的辨别率为79.3%,其中a的辨别率为81.8%,i的辨别率为76.7%。判别分析结果说明,9个声学参数可以有效地区分塞擦音的3种发音部位、 2种送气状态和2种后接元音。

对9个声学参数的主成分分析结果显示,前5个主成分对塞擦音的方差贡献率为86.3%,其中每个成分的贡献率如表 6所示。同时,表 6还列出了正交旋转得到的主成分载荷矩阵。由该矩阵可见: 第一个主成分主要包含谱重心、 谱顶点、 偏度,和发音部位关系密切(因为根据前述的方差分析,这些参数在3个发音部位之间均有显著差异,以下分析类似); 第二个主成分主要包含摩擦段相对时长和相对振幅,和送气状态及后接元音关系密切; 第三个主成分主要包含标准差和峰度,和送气状态关系密切; 第四个主成分主要包含元音F2起始频率,和发音部位及后接元音关系密切; 第五个主成分主要是闭塞段相对时长,和送气状态关系密切。

表 6 正交旋转后的主成分载荷矩阵及方差贡献率
参数主成分
12345
谱重心 0.92-0.10-0.04-0.01 0.07
谱顶点0.830.34-0.03-0.050.02
偏度-0.810.200.40-0.010.04
摩擦段时长0.080.89-0.09-0.03-0.19
振幅-0.080.860.160.230.00
峰度-0.200.090.88-0.140.13
标准差0.070.07-0.78-0.460.06
F2起始频率-0.020.160.050.930.12
闭塞段时长0.05-0.150.070.110.97
方差贡献率/%24.9919.4617.6512.8911.28

5 讨论与结论

本文考察了普通话塞擦音的9个声学参数与发音部位、 送气状态及后接元音之间的对应关系。结果表明,这9个声学参数可以对塞擦音的发音部位、 送气状态以及后接元音进行有效的区分。

虽然发音部位对9个声学参数均有显著的主效应,但是只有摩擦段的振幅、 谱顶点、 谱重心、 标准差、 偏度以及后接元音的F2起始频率这6个参数在统计上可以显著区分所有3个发音部位。主成分分析的结果进一步表明,构成第一与第三主成分的频谱能量分布参数是表征发音部位的主要参数,而后接元音F2起始频率也对发音部位有一定的表征作用。3个发音部位在这些参数上的变化趋势相似,总体上看,发音部位越靠后,前腔就越长,特征频率值就越低。

除了后接元音F2起始频率和偏度,其余7个声学参数均可区分送气音和不送气音。送气时,闭塞段更短而摩擦段更长,摩擦段振幅更大,谱顶点更高,谱重心更低,频谱更分散,能量分布也更尖锐。主成分分析的结果表明,构成第二主成分的摩擦段相对时长和相对振幅,以及构成第五主成分的闭塞段相对时长,是表征送气状态的主要参数。

除了闭塞段相对时长、 偏度和峰度,其余6个声学参数均可区分后接元音i和a。后接元音a时,元音F2起始频率更低,而且摩擦段时长更短、 振幅更大,同时谱顶点和谱重心也更低,频谱的标准差更大。这表明后接元音不仅影响塞擦音的频谱,也会影响其振幅和时长。其中,后接元音的舌位高低对塞擦音时长的影响和以往研究结果一致[11-12],即后接元音越低(如/a/),塞擦音的摩擦段时长越短。这可解释为,低元音开口度大,发音动作更耗时,因此塞擦音更早结束进入元音段。

Lee等[6]的研究对象是擦音f、 s、 sh、 x,其中s、 sh、 x的发音部位和本文的z、 c,zh、 ch,j、 q的发音部位大致相同。本文的谱顶点、 谱重心、 标准差、 后接元音F2起始频率的分析结果和文[6]一致,这些参数是区分塞擦音、 擦音最重要的声学参数; 而偏度、 峰度、 相对振幅、 摩擦段时长的分析结果与文[6]不一致,其中振幅和时长的差异可能与采用了不同的归一化方法有关。

综合方差分析、 判别分析和主成分分析的结果,普通话塞擦音最重要的声学参数是摩擦段的一组频谱能量分布参数(包括谱顶点和谱距),其中一些主要表征了塞擦音的发音部位,而另一些主要表征了塞擦音的送气状态; 摩擦段的时长和振幅,主要表征了塞擦音的送气状态和后接元音; 后接元音的F2起始频率,也会受到塞擦音发音部位的影响。

参考文献
[1] Svantesson J. Acoustic analysis of Chinese fricatives and affricates[J]. Journal of Chinese Linguistics , 1986, 14 : 53–70.
[2] 冉启斌, 石锋. 北京话擦音格局分析[J]. 华文教学与研究 , 2012, 45 (1) : 67–72. RAN Qibin, SHI Feng. On fricative pattern in Beijing Mandarin[J]. TCSOL Studies , 2012, 45 (1) : 67–72. (in Chinese)
[3] 宝音. 现代蒙古语喀喇沁土语擦音谱重心研究[J]. 满语研究 , 2014, 58 (1) : 75–78. BAO Yin. Research on modern Mongolian Harqin dialect fricative spectrum's focus[J]. Manchu Studies , 2014, 58 (1) : 75–78. (in Chinese)
[4] 孙锐欣. 基于频谱主成分分析的音素摩擦性音质研究[J]. 声学学报 , 2011, 36 (4) : 427–434. SUN Ruixin. A study of the fricative quality based on spectral principal components[J]. Acta Acoustica , 2011, 36 (4) : 427–434. (in Chinese)
[5] Jongman A, Wayland R, Wong S. Acoustic characteristics of English fricatives[J]. The Journal of Acoustical Society of America , 2000, 125 (6) : 3962–3973.
[6] Lee C Y, ZHANG Yu, LI Ximing. Acoustic characteristics of voiceless fricatives in Mandarin Chinese[J]. Journal of Chinese Linguistics , 2014, 42 (1) : 150–171.
[7] Maniwa K, Jongman A, Wade T. Acoustic characteristics of clearly spoken English fricatives[J]. The Journal of the Acoustical Society of America , 2009, 125 (6) : 3962–3973. DOI:10.1121/1.2990715
[8] Al-Khairy M A. Acoustic Characteristics of Arabic Fricatives[D]. Gainesville:University of Florida, 2005. http://cn.bing.com/academic/profile?id=2183498159&encoded=0&v=paper_preview&mkt=zh-cn
[9] Nirgianaki E. Acoustic characteristics of Greek fricatives[J]. The Journal of the Acoustical Society of America , 2014, 135 (5) : 2964–2976. DOI:10.1121/1.4870487
[10] Paschen L. An acoustic study of fricatives in Temirgoy Adyghe.[C]//Proc 18th International Congress of Phonetic Sciences, Glasgow, UK, 2015.
[11] 齐士钤, 张家騄. 汉语普通话辅音音长分析[J]. 声学学报 , 1982, 7 (1) : 8–13. QI Shiqian, ZHANG Jialu. A study of duration of Chinese consonants[J]. Acta Acoustica , 1982, 7 (1) : 8–13. (in Chinese)
[12] 顾文涛. 汉语文语转换系统中音长模型的说话人自适应方法[D]. 上海:上海交通大学, 1999. GU Wentao. Speaker Adaptation for Duration Model in Mandarin Text-to-Speech Synthesis[D]. Shanghai:Shanghai Jiaotong University, 1999. (in Chenese)