语言冗余和韵律结构对普通话音节时长的影响
刘晓旺1,2, 郝韵3, 张劲松1,2    
1. 北京语言大学 信息科学学院, 北京 100083, 中国;
2. 北京语言大学 语言智能学习研究所, 北京 100083, 中国;
3. 格罗宁根大学 语言与认知中心, 格罗宁根 9700 AB, 荷兰
摘要:语音信息论主要研究语言信息冗余和声学特征之间的关系。目前的研究结论主要来自印欧语系的语言, 而在汉语普通话方面的研究较少, 尤其是在语言冗余与韵律结构(边界和重音)的对应关系问题上, 还缺乏研究。该文运用信息理论中的惊异度(surprisal)概念表示语言冗余程度, 通过计算汉语朗读语篇语料库(ASCCD)中汉字层级的一元惊异度(unigram surprisal)和二元惊异度(bigram surprisal), 考察普通话中语言冗余、韵律结构和音节时长三者之间的关系。结果表明:给定前字的二元惊异度与重音程度有关, 给定后字的二元惊异度与边界层级存在对应关系; 在控制韵律结构因素后, 语言冗余能够独立解释音节时长的变化, 从而支持弱化版的平稳信号冗余假设。
关键词语言冗余    音节时长    韵律结构    平稳信号冗余假设    
Effects of language redundancy and prosodic structure on syllable duration in Mandarin Chinese
LIU Xiaowang1,2, HAO Yun3, ZHANG Jinsong1,2    
1. School of Information Science, Beijing Language and Culture University, Beijing 100083, China;
2. Institute of Intelligent Language Learning, Beijing Language and Culture University, Beijing 100083, China;
3. Center for Language and Cognition, University of Groningen, Groningen 9700 AB, Netherlands
Abstract: [Objective] Information theory in phonetics primarily investigates the relationship between language redundancy and acoustic features. Language redundancy refers to the predictability of linguistic information, which arises from lexical, syntactic, and semantic contextual factors. The more predictable the information, the higher its redundancy. Numerous studies suggest that when spoken, linguistic units with higher redundancy tend to be shorter in duration. The smooth signal redundancy hypothesis posits that the influence of language redundancy on duration is modulated by prosodic structures. These structures adjust acoustic features by assigning stress and boundaries to elements with lower language redundancy, thus achieving an inverse relationship between language redundancy and duration. However, these conclusions are predominantly based on Indo-European languages, leaving a research gap for Mandarin Chinese. Moreover, there is a lack of research on the correspondence between linguistic redundancy and prosodic structure. Thus, this study aims to investigate the relationships among language redundancy, prosodic structure, and syllable duration, specifically within the context of Mandarin Chinese. [Methods] This study quantifies language redundancy using the concept of surprisal, a principle derived from information theory. A large-scale textual corpus was used to train a 2-gram Chinese character-level language model, which was used to estimate unigram and bigram surprisal. Additionally, The corpus employed in this study comprises Annotated Speech Corpus of Chinese Discourse (ASCCD). The Chinese Tone and Break Index(C-ToBI) annotation system is employed to represent prosodic structures in terms of boundaries and stress. Concurrently, the duration of each syllable and its corresponding stress and boundary levels were recorded. A linear mixed-effect model was employed to explore the effects of language redundancy factors and prosodic structure on syllable duration. To verify whether language redundancy directly explains changes in syllable duration, prosodic structure factors were initially introduced as control variables in the baseline model. Subsequently, the factors of language redundancy were added. By comparing changes in the model's log-likelihood values, any substantial effects of language redundancy on syllable duration can be identified. [Results] The experimental findings revealed a consistent relationship between language redundancy and syllable duration across different Mandarin speakers. Moreover, a moderate correspondence between language redundancy and prosodic structure was observed. However, different redundancy factors were associated with distinct aspects of the prosodic structure. Based on these experimental results, a correlation existed between forward surprisal and stress levels, whereas backward surprisal correlated with boundary levels. Specifically, higher forward surprisal indicated lower redundancy, leading to more salient syllables during speech production. Conversely, elevated backward surprisal corresponded to higher boundary levels. The successive inclusion of prosodic structure factors and language redundancy factors when examining the effects on Mandarin syllable duration enhanced the model's fit. This indicated that controlling for prosodic structure factors allowed language redundancy factors to independently account for changes in syllable duration. [Conclusions] The experimental results of this study support a weak version of the smooth signal redundancy hypothesis. Prosodic structures are confirmed to modulate language redundancy, whereas language redundancy directly accounts for changes in syllable duration. Given that this study relies on read speech data, it opens up an avenue for future research on spontaneous speech. It will also be beneficial to explore the relationship between different methods of measuring language redundancy and prosodic structure. Moreover, understanding their effect on other acoustic features, such as the fundamental frequency, presents another promising research direction.
Key words: language redundancy    syllable duration    prosodic structure    smooth signal redundancy hypothesis    

语言冗余指基于词汇、句法、语义等语境因素的语言信息的可预测性,可预测性越高,冗余程度越大[1]。在言语交际过程中,说话人会根据语言单元(音节、词等)在话语中的冗余程度调整其声学特征的产出[1]。例如,Lieberman[2]通过填空任务的正确率衡量一个单词在句子语境中的可预测性,发现可预测性高的单词在语音产出时具有更短的时长及更弱的强度。在Shannon[3]提出信息论后,一些学者开始利用信息论的方法衡量某个语言单元在给定语境下的冗余程度。这些学者的研究基本都观察到语言冗余和声学特征(如时长)之间成反比的关系[4-12]

Aylett等[1]和Turk[13]提出了平稳信号冗余假设(smooth signal redundancy hypothesis),用以解释上述反比关系。该假设的主要观点为:语言冗余和声学冗余(声音的凸显程度)之间存在反比关系;韵律结构(prosodic structure)是调制两者关系的手段。通过对语言冗余程度较低的要素赋予重音和边界,并通过调整声学相关物达到语言冗余和声学冗余之间的反比关系,即所谓的平稳信号冗余。强化版的平稳信号冗余假设认为语言冗余解释的声学特征变化完全被韵律结构调制,冗余和声学特征之间的关系是间接的。而在某些学者的研究中,语言冗余可以直接解释声学特征的变化[11],这支持弱化版的平稳信号冗余假设。

目前已有一系列的研究考察了语言冗余和韵律结构的对应关系。例如,Pan等[14]使用词汇bigram概率表示语言冗余程度,探究词汇bigram概率和短语重音位置的关系,发现低概率的词汇组合可预测部分短语重音。在英语自然口语中,约70%的实词重音落在第一个音节上,而与其他位置相比,起始音节所承载的信息更难预测[15]。在许多语言中,焦点作为句子中重要的低可预测性成分也往往获得重音[16]

关于语言冗余、韵律结构和声学特征之间关系的研究主要集中在印欧语系的语言方面。在对汉语普通话的研究中,很多学者考察了韵律结构对声学特征的影响,较少考虑语言信息冗余与韵律结构和声学特征的关系[17-25]。Tang等[9]基于语料库和bigram语言模型考察词汇信息量对时长、音高和强度的影响。郝韵等[26]进一步探究了更细粒度的韵母和声调的信息量与韵律特征的关系。Tang等[9]和郝韵等[26]的研究仅着眼于语言信息量和声学特征的关系,而未充分关注韵律结构在这一关系中所起的作用。由上述内容可知:在对声学特征的影响方面,学者们从语言冗余和韵律结构2个角度进行考察,较少关注基于信息理论计算的语言冗余和韵律结构的关系,以及两者共同对声学特征的影响。

基于此,本文试图探究普通话中基于信息理论计算的语言冗余和韵律结构的对应关系,以及语言冗余和韵律结构对普通话音节时长的影响,同时检验平稳信号冗余假设在普通话中的应用。本文主要考察以下2个问题。

1) 冗余因素和韵律结构(边界和重音)有什么样的对应关系,边界和重音是否分别对应不同的冗余因素?

2) 在控制韵律结构因素后,冗余因素是否能够直接解释音节时长的变化,即支持弱化版的平稳信号冗余假设?

1 实验方法 1.1 语音语料

本文所使用的语音语料库为中国社会科学院语言所语音研究室设计的汉语朗读语篇语料库(Annotated Speech Corpus of Chinese Discourse,ASCCD)[27]。该语料库由10位(5男5女)北京地区标准普通话发音人录制而成,录音内容包括18篇各种文体的文章,共约8 800个音节。语料库中的标注信息采用Chinese Tone and Break Index (C-ToBI)符号集中的符号标注,共4层,分别为声韵母层(DE)、拼音层(PY)、间断指数层(BI)和重音层(ST)。间断指数层和重音层的标注规范见表 1

表 1 间断指数层和重音层标注规范
标注层级 BI ST
0 韵律词内的音节边界 韵律词内非重音节
1 韵律词边界 韵律词中最重的音节
2 次要韵律短语边界 次要韵律短语中最重的音节
3 主要韵律短语边界 主要韵律短语中最重的音节
4 语调组边界

本文使用Python脚本程序对标注文件进行参数提取,包括音节和声韵母信息、音节时长、间断指数和重音等级。

1.2 语言冗余和语言模型

本文利用信息论的惊异度[3]评价一个单元在语境中的冗余程度。惊异度I(surprisal)指一个单元在给定语境下出现使人惊讶的程度,等价于该事件发生的信息量。惊异度高说明该单元在给定语境下的语言冗余程度低。本文使用的惊异度包括汉字一元惊异度I′(unigram surprisal)、给定前字的二元惊异度I″和给定后字的二元惊异度I'''(bigram surprisal)。一元惊异度、二元惊异度的计算如式(1)—(3)所示。除了使用惊异度衡量语言冗余外,本文还使用已知性G(givenness)表示说话者朗读到某一段落中的某个字时,该字在前文出现的次数。

利用语言模型对一元惊异度和二元惊异度进行衡量。本文使用的训练语料为CLUECorpusSmall[28]中的评论数据部分,约包含2.3 G的文本,共约10亿字。KenLM工具包被用来训练汉字层级的bigram语言模型[29]

i个汉字ci的一元惊异度I′为

$ \begin{equation*} I^{\prime}=-\log _{2} P\left(c_{i}\right) . \end{equation*} $ (1)

其中P(ci)为汉字ci在语料库中出现的概率。给定前字的二元惊异度I″为

$\begin{equation*} I^{\prime \prime}=-\log _{2} P\left(c_{i} \mid c_{i-1}\right) . \end{equation*} $ (2)

其中P(ci|ci-1)为给定前一个汉字ci-1的情况下,ci出现的概率。

给定后字的二元惊异度I'''为

$\begin{equation*} I^{\prime \prime \prime}=-\log _{2} P\left(c_{i} \mid c_{i+1}\right) \end{equation*}. $ (3)

其中P(ci|ci+1)为给定后一个汉字ci+1的情况下,ci出现的概率。

1.3 数据分析

本文使用R语言lme4包中的线性混合效应模型建模冗余因素和韵律结构因素对音节时长的影响[30]。为消除语速和音节类型对实验结果的潜在影响,首先对语速和每种音节在语料中的时长均值进行回归,将其作为基线模型,随后加入韵律结构因素,以考察边界和重音对音节时长的影响,最后加入语言冗余因素。本文利用对数似然值表示模型拟合的良好度,通过比较加入某变量后的模型与原始模型之间对数似然值的变化,考察加入的变量是否对音节时长的拟合效果有显著的提升。对数似然值越大,说明加入的因素对音节时长的解释效果越好。对数似然值的计算如式(4)所示。

$ \begin{equation*} \ln L(\theta)=\sum\limits_{j=1}^{n} \ln f\left(y_{j} \mid \theta\right) \end{equation*}. $ (4)

其中:lnL(θ)为对数似然值,即在给定参数θ下观测数据的出现概率的对数总和;参数θ为待估计的参数,是某个模型中的未知参数;索引j为数据的编号;yj为观测到的第j个数据;函数f(yj|θ)为给定参数θ下观测到数据yj的条件概率密度函数,即观测数据yj的概率密度。

2 实验结果与分析 2.1 惊异度与音节时长在不同话者内的相关性

本文首先考察了I′、I″与音节时长在每个说话人中的相关关系。如图 1所示(F001—F005表示5位女性发音人,M001—M005表示5位男性发音人),惊异度与音节时长在所有发音人中均呈显著的正相关关系,即音节信息量越大,说话人在产出时使用的时长越长。根据Pearson相关系数计算的结果,I′与音节时长的相关性约为0.30;I″与音节时长的相关性略低一些,约为0.20。同时,I′与音节时长的相关性更稳定一些,10位发音人的相关性都在0.27~0.33之间,而和音节时长的相关性波动更大一些,在10位发音人中,相关性范围为0.13~0.32。总的来说,在汉语普通话中,惊异度和音节时长在不同说话者中都具有较稳定的正相关关系。

图 1 惊异度与音节时长在不同话者中的相关关系

2.2 语言冗余与韵律结构的对应关系

由2.1节可知,在汉语普通话中,惊异度与音节时长具有比较稳定的正相关关系,惊异度越大,语言冗余程度越低,说话人在语音产出时往往选择使用更长的时长。接下来将使用F001发音人的数据进行分析。

平稳信号冗余假设认为语言冗余和声学特征之间的关系是间接的,由韵律结构调制,即当话语中某个信息的冗余程度较低时,该信息会先被赋予一定程度的韵律结构(重音或边界),进而调制韵律结构的声学相关物。由此来看,冗余因素和韵律结构应该具有一定的联系,当语言信息较难被预测时,就会被赋予较高层级的重音或边界。

图 2是ASCCD中不同重音等级下I″和I'''的平均值(±1.96个标准误)。当重音等级为0时(韵律词内非重的音节),惊异度最小。为了考察不同重音等级间的惊异度是否存在显著性差异,本文进行Shapiro-Wilk检验,以评估数据是否服从正态分布。结果显示:各重音等级下的统计值接近1。这表明:本文的数据分布与正态分布相似或拟合良好。方差分析(analysis of variance,ANOVA)检验结果表明:重音的主效应具有统计上的显著性(F(3, 8082)=501.60, p < 0.001)。其中,F为组间方差与组内方差的比值;p为观察到的F值在零假设下的概率。为了进一步探索不同重音等级之间的差异,本文进行了Tukey's事后比较。结果显示:0级重音处的平均信息量与1、2、3级重音处存在显著差异(p < 0.001),1级重音与2、3级重音处的平均信息量也存在显著差异(1与2,p < 0.05;1与3,p < 0.01)。然而,2级重音和3级重音处的平均信息量没有观察到显著差异(p>0.05)。不同重音等级下给定后字的二元惊异度均值如图 2(b)所示,ANOVA检验结果表明:这些均值之间无显著差异。

图 2 不同重音等级下的二元惊异度均值

图 3是ASCCD中不同边界层级下I″和I'''的平均值(±1.96个标准误)。在图 3(a)中,0边界(韵律词内)处的I″均值远大于其他边界处,ANOVA结果显示:边界0处的I″均值显著大于其他层级(p < 0.001),其他层级两两之间没有观察到显著差异。图 3(b)是不同边界层级下给定后字的二元惊异度均值,0和1边界处(对应于韵律词内音节边界和韵律词边界)给定后字的信息量低于韵律短语、语调组处的信息量,ANOVA检验和事后分析结果显示:0和1边界处的平均信息量显著低于2、3、4边界处的平均信息量(p < 0.05)。I″和I'''与边界的对应关系表现出较大的差异,这将在讨论部分进行进一步解释。

图 3 不同边界层级下的二元惊异度均值

图 23所示,惊异度和韵律结构确实存在一定程度的对应关系,就本实验结果来看,给定前字的二元惊异度值和重音等级具有一定的对应关系,而给定后字的惊异度值与边界层级有联系。

2.3 语言冗余和韵律结构对音节时长的影响

在检验语言冗余和韵律结构对音节时长的影响之前,首先进行各个变量的相关性分析,结果如图 4所示,在语言冗余因素中,I′、I″、I'''与音节时长的关系在预期的方向(正相关关系)。在韵律结构因素中,边界和重音与音节时长的关系都是正相关,即随着边界和重音等级的升高,音节时长相对更长。

图 4 语言冗余、韵律结构和音节时长的相关性

本研究利用线性混合效应模型考察语言冗余因素和韵律结构对音节时长的影响。根据图 2(a)图 3(b),本文将等级为1、2、3的音节归类为重,而等级为0的音节则视为弱。边界等级为2、3、4的被归类为较大的边界,而等级为0和1的则归类为较小的边界。最终,模型的固定效应包括语速、音节时长均值、韵律边界、重音、I′、I″、I'''、G。同时,将汉字作为随机截距。对模型进行方差膨胀因子(variance inflation factor, VIF)检验发现VIF在1~1.55之间,说明模型不存在多重共线性。在相继加入韵律结构因素和语言冗余因素后,模型所解释的音节时长方差及对数似然值的变化情况如表 2所示:加入韵律结构因素后,对音节时长的解释达72.2%,对数似然值增加了1 928。检验结果表明:加入韵律结构因素后,模型拟合效果显著提升。在加入语言冗余因素后,对音节时长的解释达72.8%,对数似然值增加了58,检验结果表明:加入语言冗余因素后,模型拟合效果显著提升。由此说明,在控制韵律结构因素后,语言冗余因素依然能够直接解释音节时长的变化。

表 2 相继加入韵律结构因素和语言冗余因素的模型表现
模型 R2 lnL(θ) ΔlnL(θ) p
基线模型 0.548 -38 506
加入韵律结构 0.722 -36 578 +1 928 ***
加入语言冗余 0.728 -36 520 +58 ***
注:* * *表示p < 0.001。

音节时长模型的固定效应结果如表 3所示,其中,β表示各固定因素对音节时长影响的大小和方向,标准误表示估计值的标准误差,p值表示效应的显著性。

表 3 音节时长模型的固定效应结果总结
固定效应 β 标准误 p
截距 93.24 6.92 < 0.001
平均音节时长 0.78 0.01 < 0.001
语速 -16.23 0.81 < 0.001
边界(强) 70.11 0.98 < 0.001
重音(强) 12.81 0.94 < 0.001
I 5.63 1.78 0.002
I 2.70 0.36 < 0.001
I''' -0.65 0.45 0.147
G -1.71 0.59 0.004

在控制变量中,语速和音节时长均值对音节时长都有显著影响。在韵律结构因素中,较高层级的边界和重音处的音节时长显著更长(边界,β=70.11,p < 0.001;重音,β=12.81,p < 0.001)。在语言冗余因素中,I′和I″对音节时长都有正的估计值,即信息量越大,说话的时长越长。G对音节时长的影响也在预期的方向,当该字在前文出现次数较多时,音节时长更短。I'''在这里并没有一个显著的效应(β=-0.65,p=0.147)。

3 讨论

首先,本研究考察语言冗余和音节时长在不同话者中的相关性问题。基于I′衡量的语言冗余在不同话者中与音节时长的相关性都维持在0.30的水平。基于I″衡量的语言冗余和音节时长的相关性范围较大,说明不同话者应对这种语言冗余的方式不同。语言冗余和音节时长相关性低的说话者是否会在其他声学维度(如元音空间、基频等)有较高的相关性也是未来研究的方向。在Malisz等[11]的研究中,惊异度和声学特征的相关性也大多在0.10~0.30的范围内。整体来看,语言冗余和音节时长的相关性都在一个较低但显著的水平:一方面是由于数据量相对较大,另一方面是由于一些潜在的其他因素也对音节时长有影响。

衡量语言冗余的方式有很多种,本文仅考虑汉字层级的惊异度和已知性。Lieberman[2]的研究通过完形填空的范式让多个被试者填写对应的词,以最终的正确率作为语言的冗余程度,正确率越高,说明该信息越容易被预测出来,相应的语言冗余程度越高。此外,一些学者研究了词汇的音系邻域密度对词汇产出的影响[31]:具有高邻域密度的词存在较多潜在的竞争,在产出时更偏向于更用力的发音。由于衡量语言冗余的方式较多,且不同的学者都从自己所关心的角度出发,因此,大多数基于语料的研究不能完全控制其他因素的影响,本文也是如此。未来可以使用精心设计的实验句考察语言冗余和产出间的关系。

其次,本研究考察语言冗余因素和韵律结构间的对应关系。Aylett等[1]认为,重音是调节语言冗余的手段,而边界在其中不起作用。Turk[13]将边界也考虑为调节语言冗余的手段,并认为文[1]之所以没有得出边界对语言冗余的调节,是因为只考虑给定前语境的惊异度,一些其他冗余因素可能受到边界的调制。在本文中,I″与重音等级有较好的对应关系,而I'''与边界存在对应关系。这说明,尽管多种冗余手段都导致声学特征的增强或弱化,但是调制它们的中间手段是不一致的,有些通过重音表现出来,而有些则通过边界表现。

如图 5—6所示,I″、I'''与边界的关系呈现出较大差异,边界0处的I″远大于其他边界层级。这是因为0边界处的汉字常常处于韵律单元的起始或比较靠前的位置,而它前面的汉字为前一个韵律单元末尾的位置,这2个字分属于2个不同的韵律单元,它们共同出现的概率相对较低,因此惊异度较高。而1、2、3、4边界处的汉字处于所在韵律层级的末尾位置,与前一个汉字常常属于一个韵律单元,它们共同出现的概率相对较大,因此惊异度较低。I'''的情况与I″相反,小边界处汉字的I'''小于大边界处的汉字,小边界处的汉字常常处于韵律单元起始位置,与后一个汉字所属同一个韵律单元,共同出现的概率较高,因此惊异度较低。大边界处则相反,常与后一个汉字分属于2个不同的韵律单元,共同出现的概率较小,因此惊异度较大。各种冗余因素与韵律结构的对应关系是待深入考察的问题。

最后,本研究考察冗余因素和韵律结构对音节时长的贡献。在回归结果中,给定后字的二元惊异度对时长没有影响,但是在相关性分析中,它们之间有一个显著的相关关系,且给定后字的二元惊异度与另外2个惊异度指标也有比较显著的相关关系,本研究认为,在回归过程中,给定后字的二元惊异度所解释的时长变化可能被另外2个惊异度指标解释。平稳信号冗余假设认为语言冗余和声学特征之间的关系是间接的,受韵律结构调制。在本文的实验中,控制韵律结构因素后,冗余因素可以直接解释音节时长的变化。这与Malisz等[11]的研究结果一致,即支持弱化版的平稳信号冗余假设。本文的韵律模型采用C-ToBI标注体系,其边界和重音是范畴性的,而基于惊异度衡量的语言冗余值是连续的,这种连续的语言冗余和范畴性的韵律结构可能会对时长的回归结果造成一定影响,这也是未来需要特别关注的一个问题。

4 结论

本文在前人研究的基础上考察汉语普通话中语言冗余、韵律结构与音节时长之间的关系。结果表明:冗余因素和韵律结构呈现一定程度的相关性,给定前字的二元惊异度与重音存在关联,给定后字的二元惊异度与边界层级相关。在考察语言冗余和韵律结构对音节时长的影响时,韵律结构因素被控制后,冗余因素也可以直接解释音节时长的变化,这支持弱化版的平稳信号冗余假设。未来,本研究团队将进一步探索语言冗余和韵律结构之间的复杂关系,以及两者对其他声学特征(如基频)的影响。

参考文献
[1]
AYLETT M, TURK A. The smooth signal redundancy hypothesis: A functional explanation for relationships between redundancy, prosodic prominence, and duration in spontaneous speech[J]. Language and Speech, 2004, 47(1): 31-56. DOI:10.1177/00238309040470010201
[2]
LIEBERMAN P. Some effects of semantic and grammatical context on the production and perception of speech[J]. Language and Speech, 1963, 6(3): 172-187. DOI:10.1177/002383096300600306
[3]
SHANNON C E. A mathematical theory of communication[J]. The Bell System Technical Journal, 1948, 27(3): 379-423. DOI:10.1002/j.1538-7305.1948.tb01338.x
[4]
ZIPF G K. Relative frequency as a determinant of phonetic change[J]. Harvard Studies in Classical Philology, 1929, 40: 1-95. DOI:10.2307/310585
[5]
JURAFSKY D, BELL A, GREGORY M, et al. Probabilistic relations between words: Evidence from reduction in lexical production[M]//BYBEE J, HOPPER P. Frequency and the emergence of linguistic structure. Amsterdam: John Benjamins Publishing Company, 2001: 229-254.
[6]
AYLETT M, TURK A. Language redundancy predicts syllabic duration and the spectral characteristics of vocalic syllable nuclei[J]. The Journal of the Acoustical Society of America, 2006, 119(5): 3048-3058. DOI:10.1121/1.2188331
[7]
BELL A, BRENIER J M, GREGORY M, et al. Predictability effects on durations of content and function words in conversational English[J]. Journal of Memory and Language, 2009, 60(1): 92-111. DOI:10.1016/j.jml.2008.06.003
[8]
PIANTADOSI S T, TILY H, GIBSON E. Word lengths are optimized for efficient communication[J]. Proceedings of the National Academy of Sciences of the United States of America, 2011, 108(9): 3526-3529.
[9]
TANG K, SHAW J A. Prosody leaks into the memories of words[J]. Cognition, 2021, 210: 104601. DOI:10.1016/j.cognition.2021.104601
[10]
VAN SON R J J H, VAN SANTEN J P H. Duration and spectral balance of intervocalic consonants: A case for efficient communication[J]. Speech Communication, 2005, 47(1-2): 100-123. DOI:10.1016/j.specom.2005.06.005
[11]
MALISZ Z, BRANDT E, MÖBIUS B, et al. Dimensions of segmental variability: Interaction of prosody and surprisal in six languages[J]. Frontiers in Communication, 2018, 3: 25. DOI:10.3389/fcomm.2018.00025
[12]
BRANDT E, MÖBIUS B, ANDREEVA B. Dynamic formant trajectories in German read speech: Impact of predictability and prominence[J]. Frontiers in Communication, 2021, 6: 643528. DOI:10.3389/fcomm.2021.643528
[13]
TURK A. Does prosodic constituency signal relative predictability? A smooth signal redundancy hypothesis[J]. Laboratory Phonology, 2010, 1(2): 227-262.
[14]
PAN S M, HIRSCHBERG J. Modeling local context for pitch accent prediction[C]//Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics. Hong Kong, China: ACL, 2000: 233-240.
[15]
CUTLER A, CARTER D M. The predominance of strong initial syllables in the English vocabulary[J]. Computer Speech & Language, 1987, 2(3-4): 133-142.
[16]
LADD D R. Intonational phonology[M]. Cambridge: Cambridge University Press, 1996.
[17]
冯勇强, 初敏, 贺琳, 等. 汉语话语音节时长统计分析[C]//新世纪的现代语音学: 第五届全国现代语音学学术会议论文集. 北京, 中国: 清华大学出版社, 2001: 74-77.
FENG Y Q, CHU M, HE L, et al. Statistical analysis of Chinese speech syllable duration[C]//Modern Phonetics in the New Century: Proceedings of the Fifth National Conference on Modern Phonetics. Beijing, China: Tsinghua University Press, 2001: 74-77. (in Chinese)
[18]
熊子瑜. 韵律单元边界特征的声学语音学研究[J]. 语言文字应用, 2003(2): 116-121.
XIONG Z Y. An acoustic study of the boundary features of prosodic unit[J]. Applied Linguistics, 2003(2): 116-121. (in Chinese)
[19]
倪崇嘉, 刘文举, 徐波. 汉语韵律短语的时长与音高研究[J]. 中文信息学报, 2009, 23(4): 82-87.
NI C J, LIU W J, XU B. Durational characteristics and pitch characteristics of the prosodic phrase in mandarin Chinese[J]. Journal of Chinese Information Processing, 2009, 23(4): 82-87. (in Chinese)
[20]
梅晓, 熊子瑜. 普通话韵律结构对声韵母时长影响的分析[J]. 中文信息学报, 2010, 24(4): 96-103.
MEI X, XIONG Z Y. Analysis of duration of mandarin prosodic structures[J]. Journal of Chinese Information Processing, 2010, 24(4): 96-103. (in Chinese)
[21]
殷治纲. 再论韵律边界的声学特征及其形成机制[J]. 中国语音学报, 2020(1): 38-50.
YIN Z G. Revisiting the acoustic characteristics and the generation mechanism of prosodic boundary[J]. Chinese Journal of Phonetics, 2020(1): 38-50. (in Chinese)
[22]
赵元任. 汉语口语语法[M]. 吕叔湘, 译. 北京: 商务印书馆, 1979.
ZHAO Y R. A grammar of spoken Chinese[M]. LV S X, Trans. Beijing: The Commercial Press, 1979. (in Chinese)
[23]
许洁萍, 初敏, 贺琳, 等. 汉语语句重音对音高和音长的影响[J]. 声学学报, 2000, 25(4): 335-339.
XU J P, CHU M, HE L, et al. The influence of Chinese sentence stress on pitch and duration[J]. Acta Acustica, 2000, 25(4): 335-339. (in Chinese)
[24]
贾媛. 普通话焦点的语音实现及音系分析[D]. 天津: 南开大学, 2009.
JIA Y. Phonetic realization and phonological analysis of focus in standard Chinese[D]. Tianjin: Nankai University, 2009. (in Chinese)
[25]
曹文. 汉语焦点重音的韵律实现: 普通话同文异焦句的实验研究[M]. 北京: 北京语言大学出版社, 2010.
CAO W. Prosodic realization of Chinese focus stress: An experimental study on same-sentence different-focus constructions in Mandarin Chinese[M]. Beijing: Beijing Language and Culture University Press, 2010. (in Chinese)
[26]
郝韵, 解焱陆, 林炳怀, 等. 基于GPT-2和互信息的语言单位信息量对韵律特征的影响[C]//第二十一届中国计算语言学大会. 南昌, 中国: 中国中文信息学会, 2022: 46-55.
HAO Y, XIE Y L, LIN B H. Prosodic effects of speech unit's information based on GPT-2 and mutual information[C]// Proceedings of the 21st Chinese National Conference on Computational Linguistics. Nanchang, China: Chinese Information Processing Society of China, 2022: 46-55. (in Chinese)
[27]
LI A J, LIN M C, CHEN X X, et al. Speech corpus of Chinese discourse and the phonetic research[C]// Proceedings of the 6th International Conference on Spoken Language Processing. Beijing, China: China Military Friendship Publish, 2000: 13-18.
[28]
XU L, ZHANG X W, DONG Q Q. CLUECorpus2020: A large-scale Chinese corpus for pre-training language model[Z]. arXiv Preprint, arXiv: 2003.01355, 2020.
[29]
HEAFIELD K. KenLM: Faster and smaller language model queries[C]//Proceedings of the Sixth Workshop on Statistical Machine Translation. Edinburgh, Scotland: Association for Computational Linguistics, 2011: 187-197.
[30]
BATES D, MÄCHLER M, BOLKER B, et al. Fitting linear mixed-effects models using lme4[J]. Journal of Statistical Software, 2015, 67(1): 1-48.
[31]
MUNSON B, SOLOMON N P. The effect of phonological neighborhood density on vowel articulation[J]. Journal of Speech, Language, and Hearing Research, 2004, 47(5): 1048-1058.