基于静音时长和文本特征融合的韵律边界自动标注

引用本文

傅睿博, 陶建华, 李雅, 温正棋. 基于静音时长和文本特征融合的韵律边界自动标注[J]. 清华大学学报(自然科学版), 2018, 58(1): 61-66, 74. 复制到剪切板

FU Ruibo, TAO Jianhua, LI Ya, WEN Zhengqi. Automatic prosodic boundary labeling based on fusing the silence duration with the lexical features[J]. Journal of Tsinghua University (Science and Technology), 2018, 58(1): 61-66, 74. 复制到剪切板

基于静音时长和文本特征融合的韵律边界自动标注

傅睿博 ^1,2 , 陶建华 ^1,2,3 , 李雅 ¹ , 温正棋 ¹

1. 中国科学院自动化研究所, 模式识别国家重点实验室, 北京 100190;
2. 中国科学院大学人工智能技术学院, 北京 100190;
3. 中国科学院自动化研究所, 中国科学院脑科学与智能技术研究中心, 北京 100190

收稿日期：2017-09-29

基金项目：国家“八六三”高技术项目（2015AA016305）；国家自然科学基金面上项目（61425017，61403386）；中国科学院战略性先导科技专项（GrantXDB02080006）；中国社会科学基金重大项目（13 & ZD189）

作者简介：傅睿博(1993-), 男, 博士研究生

通信作者：陶建华, 研究员, E-mail:jhtao@nlpr.ia.ac

摘要：韵律边界标注对于语料库建设和语音合成有着至关重要的作用，而自动韵律标注可以克服人工标注中耗时、不一致的缺点。仿照人工标注流程，该文运用循环神经网络分别对文本和音频两个通道训练子模型，对子模型的输出采用模型融合的方法，从而获得最优标注。以词为单位提取了静音时长，与传统以帧为单位的声学特征相比更具有明确的物理意义，与韵律边界的联系更加紧密。实验结果表明：相比传统声学特征，该文所采用的静音时长特征使自动韵律标注的性能有所提高；相比直接特征层面的方法，决策融合方法更好地结合了声学和文本的特征，进一步提高了标注的性能。

关键词：韵律边界标注决策融合静音时长语料库构建语音合成

Automatic prosodic boundary labeling based on fusing the silence duration with the lexical features

FU Ruibo^1,2, TAO Jianhua^1,2,3, LI Ya¹, WEN Zhengqi¹

1. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China;
2. School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing 100190, China;
3. CAS Center for Excellence in Brain Science and Intelligence Technology, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China

Abstract: Automatic prosodic boundary labeling is important in the construction of a speech corpus for speech synthesis. Automatic labeling of prosodic boundaries gives more consistent results than manual labeling of prosodic boundaries which is time consuming and inconsistent. Manual labeling method is modelled here using a recurrent neural network to train two sub-models which use lexical features and acoustic features to label the prosodic boundaries. Model fusion is then used to combine the outputs of the two sub-models to obtain the optimal labeling results. The silence durations for each word give clearer physical meanings and better correlations with the prosodic boundaries than the acoustic features used in traditional methods extracted frame-by-frame. Tests show that the silence durations extracted using the current acoustic features and the model fusion method improve the prosodic boundary labeling compared with previous feature fusion methods.

Key words: prosodic boundary labeling ensemble strategy silence duration corpus construction speech synthesis

语料库建设，特别是语音合成音库的建设，在语音相关技术中占有重要的地位。在目前主流的语音合成方法中，参数语音合成方法和波形拼接合成方法都需要精细的语料库标注。这些标注工作将直接影响到最后合成语音的音质、表现力等。

语音合成中语料库标注主要包括音段标注和韵律标注：音段标注针对的是音素序列标注对应的起始和结束时间；韵律标注是对与语言相关的韵律信息进行标注，对于中文合成音库，韵律信息的标注主要是指在韵律层级进行标注。考虑到目前音段的自动标注技术已经相对成熟，基本可以满足系统构建的需求，本文将以语料库建设中韵律标注为研究的入手点。韵律信息在合成中被用于模型的上下文文本信息，其精度直接影响到语音合成的质量，通常需要专业标注人员进行标注。然而，随着目前语料库的加大，人工进行韵律边界的标注比较耗时，而且存在一定主观性，不同人乃至同一人在不同状况下的标注结果都会存在不一致性，通常需要多人重复标注并采用投票的方式来保证一致性。因此，如何精确自动地对语料库进行韵律边界标注已经成为目前一个需解决的问题。

汉语的韵律边界通常被分为3类：韵律词、韵律短语和语调短语^[1]。已有的韵律边界自动标注方法可以大致分为3类：第一类采用文本特征进行韵律边界自动标注，该方法包括采用分类回归树^[2]、采用条件随机场^[3]、深度回归学习^[4]、基于记忆学习^[5]等方式，主要以词性、字词的位置和数量等信息为特征进行分类。该类方法主要依靠自然语言处理技术，适用于仅有文本的语料库标注。对于相同的文本，有可能存在不同的表达方式，其所对应的韵律标注也不唯一，若存在对应的音频语料，该方法不能保证给出最切合音频发音节奏的标注。第二类采用声学特征进行韵律边界自动标注，如Wightman等提取了每个音节的时长、基频、能量相关特征，利用决策树和隐Markov模型(hidden Markov model, HMM)对英文语料库采用ToBI体系进行标注^[6]。该类方法需借助语音识别或大量人工音频处理，其准确率很大程度上取决于切分精度，同时不同的音节由于时长不同，声学参数的提取及其归一化也存在一定困难。第三类结合文本和声学特征进行韵律边界自动标注，如Hasegawa-Johnson等采用多层神经网络(multilayer perceptron，MLP)分类器对基频和时长特征建模，采用支持向量机(support vector machine, SVM)对文本和句法特征建模^[7]；Chen等采用文本相关的HMM(CD-HMM)和N-Gram语言模型联合文本和声学特征对韵律边界进行建模^[8]；此类方法可以综合文本和音频两个通道的特征，其难点在于文本和声学特征的提取单元存在不一致性，同时每类特征各自所对应的数据类型不同。前两类方法分别聚焦于文本或音频单个通道，基于文本特征的韵律标注适用于语音合成前端的韵律预测模块；基于声学特征的韵律标注适用于语音识别中的韵律停顿识别。然而，对于语音合成语料库构建而言，音频是由专业录音人在录音室录制，比语音识别中的实际应用场景噪声小，同时有较为精准的文本。因此，第三类结合文本和声学特征对韵律边界建模的方法更适用于语料库的构建。结合文本和声学特征不仅仅是简单地对前两类方法的综合，文本特征和声学特征存在一定相关性，因此本文的研究核心是如何更好地将文本和声学特征融合并用于对韵律边界的建模。

在研究文本和声学特征融合之前，首先要考虑的是文本和声学特征的选取。随着自然语言技术的发展，以往的研究对韵律边界建模所采用的文本特征已经较为丰富，词向量等被神经网络所采用的特征已经被用于韵律建模研究中^[9]，然而在声学特征的选取上，大部分研究还采用语音识别技术中所采用的声学参数(如基频、能量、谱参数等)^[10]，由于语音识别的声学前端首要目的是识别发音的基元，而后端语言模型才会对韵律等较高层面信息进行分析识别，在识别过程中所采用的声学特征更倾向于刻画发音等浅层次信息，这点与韵律边界的检测标注是不一致的。因此，本文的出发点是挖掘深层次且与韵律标注目的一致的声学特征，并探究所选取的声学特征与文本特征的融合方式。

本文主要探索了静音时长特征的引入和音频、文本2个通道的韵律边界标注模型决策融合方法，重点研究了静音时长作为深层次抽象特征提升韵律边界自动标注精度作用，并采用无标注数据判别静音模型来提高模型的鲁棒性。

1 模拟人工标注的自动标注系统

本文构建的模拟人工标注的自动标注系统整体框架如图 1所示，分为文本和音频2个通道，在文本分析的基础之上，通过提取音频的声学参数来实现对静音时长特征的提取，采用基于长短时记忆模型(long short-term memory, LSTM)的循环神经网络，分别训练基于文本特征和基于静音声学特征的韵律层级标注模型。

图 1 整体系统框架

图选项

本文系统的构建仿照人工标注的流程，如图 2所示。人工韵律标注的方法大致可归纳为：在机器自动分词对文本预处理的基础上，标注人员对照文本和音频的频谱图，在听取音频过程中，根据语法词所在的位置结构和实际发音情况微调生成韵律词，如发现频谱中有较大的“空隙”，则参考边界两侧音高和边界调，此外在对应的文本中结合自身经验和频谱“空隙”大小对韵律短语和语调短语进行标注。

图 2 韵律标注各环节类比

图选项

在静音时长特征提取过程中，传统方法采用基频、能量等参数以帧为单位建模，刻画短时发音能力较强，在以字或词为单位的归一化过程中会受噪声和音段切分精度不高的影响，削弱其刻画词间、短语间韵律关系的能力，属于较浅层的信息。本文所采用的静音判别模型，在结合自动音段切分与文本自动语法词分析的基础上，提取静音时长，将浅层以帧为单位的mel频率倒谱系数(mel frequency cepstrum coefficient，MFCC)转化为较深层次以词为单位的静音时长。在时长的提取及归一化过程中，将静音判别模型的输出概率和词的时长结合到对静音时长不同层面的描述过程中，共提取74维的静音时长信息。由于经过人工校对过的音段标注较少，且标注精度和一致性不高，本文采用无标注数据判别静音模型来提高模型的鲁棒性：先用小语料预训练，根据预训练的模型得到大的未标注的语料标签，对该大语料进行再训练。

在韵律标注模型训练过程中，采用层级预测的方式，运用基于LSTM的循环神经网络分别训练基于文本和声学特征的标注模型。声学参数静音时长已经过一系列处理，其特征的维度较低；而文本特征采用独热编码(one-hot)归一化的形式较为稀疏。因此，本文采用了对两通道分别训练，对模型的输出层采用决策融合的方式，相比直接将文本和声学层面在特征层面上融合的方式，韵律边界标注的效果有所提高。

2 静音时长特征提取

静音时长特征的提取涉及图 1的声学参数提取、文本分析和静音时长提取3部分，具体流程如图 3所示，将提取好的39阶MFCC和经过预校对的文本使用音素自动切分工具得到音素的时间边界。文本通过语法词分析工具得到以语法词为单位的文本。但由此难以得到每个语法词间的静音段时长，因此在该环节加入一个静音判别模型以得到以帧为单位的静音段位置信息，结合音素时间边界和以语法词为单位的文本，得到最终的语法词间的静音段时长。

图 3 整体静音时长特征提取流程

图选项

2.1 静音判别模型

静音判别模型的主要目的是将语料中各字之间的静音识别出来，然而本文面临的一个问题就是精确标注的每个字后带有静音标注的语料较少。同时，少量经过人工标注的语料也存在标注不准确的现象，其原因是部分字间的静音段长度较短和人工观察音频频谱存在一定的误差。用该数据训练出来的判别模型极易出现“过拟合”现象。

为了解决有标注数据较少的问题，本文采用了2轮训练的方式来扩充训练数据。第1轮运用已有的少量有标注数据训练一个静音标注模型，用该模型对大量无标注数据进行标注。第2轮训练使用第1轮扩充后的语料进行训练。此方法具有可拓展性，对某个特定需要标注的语料，该方法可以更加有针对性地训练静音判别模型。

2.2 静音时长提取

本文对语法词间静音时长提取如下：

假定一句话由m个语法词组成，表示为[w₁, w₂, …, w_m]。

设定第i个词：第1个字的起始时刻为f_i^S，终止时刻为f_i^E；最后1个字的起始时刻为l_i^S，终止时刻为l_i^E。则对于第i个词，其静音段搜索区间为$\left[{\frac{{l_i^{\rm{S}} + l_i^{\rm{E}}}}{2}, \frac{{f_{i + 1}^{\rm{S}} + f_{i + 1}^{\rm{E}}}}{2}} \right]$。

设在该区间内共有t帧，对于第j帧音频，静音段判别模型的输出为o_j^α，则

$ o_j^\alpha = \left\{ {\begin{array}{*{20}{c}} {1, }&{{p_j} \ge \alpha ;}\\ {0, }&{{p_j} < \alpha. } \end{array}} \right. $

(1)

其中：p_j为第j帧为静音段的概率；α为置信度系数，0＜α＜1，默认情况为α=0.5。

对于第i个词与第i+1个词之间的绝对静音段时长为

$ H_{{\rm{ab}}}^\alpha \left( i \right) = \sum\limits_{j = 1}^t {o_j^\alpha } . $

(2)

将模型输出概率信息融入时长信息，定义加权绝对时长为

$ H_{{\rm{wab}}}^\alpha \left( i \right) = \sum\limits_{j = 1}^t {{p_j}o_j^\alpha } . $

(3)

考虑到长句和短句在实际发音时的静音时长有所差别，以句子为单位进行归一化处理，归一化后的时长为：

$ H_{\mathit{n}{\rm{ab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{ab}}}^\alpha \left( i \right)}}{{\overline {H_{{\rm{ab}}}^\alpha } }}, $

(4)

$ H_{\mathit{n}{\rm{wab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{wab}}}^\alpha \left( i \right)}}{{\overline {H_{{\rm{wab}}}^\alpha } }}. $

(5)

其中：$\overline {H_{{\rm{ab}}}^\alpha } $和$\overline {H_{{\rm{wab}}}^\alpha } $分别代表一句话的每个静音段的平均绝对时长和平均加权绝对时长。

考虑到静音时长与当前字整体时长比例，定义相对时长1为：

$ H_{\mathit{r}{\rm{lab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{ab}}}^\alpha \left( i \right)}}{{{D_{\rm{E}}}\left( i \right)}}, $

(6)

$ H_{\mathit{r}{\rm{lwab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{wab}}}^\alpha \left( i \right)}}{{{D_{\rm{E}}}\left( i \right)}}. $

(7)

考虑到静音时长会受到静音段前后相邻2个字的时长影响，定义相对时长2为：

$ H_{\mathit{r}{\rm{2ab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{ab}}}^\alpha \left( i \right)}}{{{D_{\rm{E}}}\left( i \right) + {D_{\rm{S}}}\left( {i + 1} \right)}}, $

(8)

$ H_{\mathit{r}{\rm{2wab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{wab}}}^\alpha \left( i \right)}}{{{D_{\rm{E}}}\left( i \right) + {D_{\rm{S}}}\left( {i + 1} \right)}}. $

(9)

其中：D_E(i)代表第i个词最后一个字的时长，D_S(i+1)代表第i+1个词开头第一个字的时长。

静音段特征应该对不同韵律层级的标注更有针对性：在比较严格的判别条件下，只有语调短语等较大的静音段才会被识别，此时的时长特征更易于区分语调短语；在判别条件比较宽松的情况下，词之间的静音时长中更加细微的差异得到体现，更加易于区分韵律词与非韵律词。因此，本文取α范围为0.1~0.9，以0.1为间隔递增，得到9组特征。

3 模型决策融合

声学特征是连续特征，文本特征是离散特征；且静音时长这组声学特征已经过一系列处理，具有明显的物理意义，而文本特征属于浅层特征。因此，直接将文本和声学特征在特征层面融合不太合理。本文采用的是模型决策融合的方式，即分别使用文本特征和声学特征训练韵律边界标注模型，在决策层面根据2个模型的输出判别结果概率和模型整体正确率作为决策依据，其决策过程具体为

$ f\left( {{x_{\rm{a}}}, {x_{\rm{t}}}} \right) = \left\{ \begin{array}{l} {f_{\rm{a}}}\left( {{x_{\rm{a}}}} \right), \;\;\;{P_{\rm{a}}}\left( C \right) > {P_{\rm{t}}}\left( C \right); \\ {f_{\rm{t}}}\left( {{x_{\rm{t}}}} \right), \;\;\;{P_{\rm{t}}}\left( C \right) > {P_{\rm{a}}}\left( C \right). \end{array} \right. $

(10)

其中：

$ {P_{\rm{a}}}\left( C \right) = {P_{\rm{a}}}\left( {C|{f_{\rm{a}}}\left( {{x_{\rm{a}}}} \right)} \right){P_{\rm{a}}}\left( {{f_{\rm{a}}}\left( {{x_{\rm{a}}}} \right)} \right), $

(11)

$ {P_{\rm{t}}}\left( C \right) = {P_{\rm{t}}}\left( {C|{f_{\rm{t}}}\left( {{x_{\rm{t}}}} \right)} \right){P_{\rm{t}}}\left( {{f_{\rm{t}}}\left( {{x_{\rm{t}}}} \right)} \right). $

(12)

f_a(x_a)和f_t(x_t)分别是基于声学和文本特征的分类器，P_a(C)和P_t(C)表示分类器模型整体正确率，P_a(C|f_a(x_a))和P_t(C|f_t(x_t))表示分类器的先验概率即输出判别结果概率。

4 实验及结果分析 4.1 实验语料

本文采用由专业女性录音人录制的用于语音合成的语料。该语料总共20 000句，总字数大于40 000，韵律边界(如韵律词、韵律短语、语调短语边界等)由2位专业标注人员对照音频和文本标注，有较高的一致性。语料使用语音合成前端语法词和词性分析工具完成，语法词切分正确率为96.6%，词性分析正确率为96.4%。语料被分为训练集、验证集和测试集3部分，其比例分别为80%、10%和10%。用于静音段判别模型训练的、人工标注好时间边界的语料占大语料的10%，共2 000句。

4.2 静音时长特征提取及对比

1) 系统构建。

静音段判别模型依次使用小语料和扩充后的大语料训练，均采用DNN进行训练，网络输入均为39阶MFCC，小语料训练网络为2层128个隐含层节点数，大语料训练网络为2层256个隐含层节点，输出均含有2个softmax节点单元。

网络使用Rmsprop算法^[11]训练10代，batch-size为128, dropout^[12]系数为0.2。

2) 静音切分结果评价。

小语料和扩充后的大语料训练的静音判别模型准确率分别为97.4%和98.7%，原因是第1轮小语料训练相当于对原始人工标注的结果进行了修正，修正后重新标注的语料更加易于判别。

静音判别模型的准确率不足以说明通过该模型提取的特征对韵律标注的贡献。本文对提取的每一维特征采用一维线性分类器进行训练，计算单个特征进行韵律边界标注的准确率、召回率和F₁值，将第1和第2轮训练的静音判别模型所提取的参数进行对比实验，本文以韵律短语这一层级为例，实验结果如表 1所示。

表 1 各特征在一维线性分类器中评价结果(韵律短语)

α	H_ab^α(i)	H_wab^α(i)	H_r1ab^α(i)	H_r1wab^α(i)	H_r2ab^α(i)	H_r2wab^α(i)	H_nab^α(i)	H_nwab^α(i)
0.1	+0.2/76.1	+0.1/75.9	+0.3/72.3	+0.2/74.1	+0.2/75.0	+0.2/75.6	+0.3/74.5	+0.3/74.4
0.2	+0.3/75.8	+0.3/75.8	+0.4/73.4	+0.1/74.1	+0.1/74.9	+0.1/75.6	+0.2/74.8	+0.2/74.3
0.3	+0.3/76.4	+0.2/76.6	+0.3/73.8	+0.3/74.1	+0.3/75.5	+0.3/75.4	+0.3/74.5	+0.2/74.2
0.4	+0.6/76.2	+0.1/76.1	+0.5/73.6	+0.2/74.1	+0.4/75.2	+0.4/75.2	+0.1/73.9	+0.3/74.4
0.5	+0.4/75.6	+0.0/76.1	+0.3/73.8	+0.3/74.3	+0.2/75.3	+0.2/75.2	+0.3/74.4	+0.2/74.1
0.6	+0.6/75.8	+0.2/76.0	+0.2/74.0	+0.2/74.2	+0.2/75.2	+0.2/75.0	+0.3/74.7	+0.2/74.8
0.7	+0.2/75.8	+0.2/75.8	+0.3/73.9	+0.3/74.1	+0.3/74.9	+0.3/74.9	+0.2/75.8	+0.1/75.6
0.8	+0.3/75.2	-0.1/75.3	+0.3/74.2	+0.2/74.3	+0.3/74.5	+0.4/74.7	+0.3/75.9	+0.3/75.5
0.9	+0.2/75.5	+0.1/75.2	+0.2/74.6	+0.3/74.6	+0.2/75.0	+0.3/74.8	+0.2/75.9	+0.2/75.6
均值	+0.34/75.8	+0.12/75.9	+0.31/73.7	+0.31/74.2	+0.24/75.1	+0.24/75.2	+0.24/74.9	+0.22/74.8

表选项

表 1中所列的数据斜杠右侧为第2轮静音判别模型训练后所提取的静音时长特征各自在一维线性分类器中的评价效果，以F₁值作为评价指标；斜杠左侧为第2轮相比第1轮提取该特征后分类器评价指标F₁的变化值，正数代表提高，负数代表下降。

第2轮采用扩充标注数据训练后提高了静音段识别精度，各个静音时长特征单独用于韵律边界检测的F₁值有所提高了。

从该实验结果还可以观察到，将提取到的时长进行归一化处理，结合输出概率及考量静音段占发音音节时长的方式，可以更加全面地反映音节间的静音段在全句中声学时长的分布。

4.3 韵律边界标注系统构建及评价

本节所有实验中，韵律词、韵律短语和语调短语边界的标注都采用层级标注的方式，低一级的韵律标注结果会作为高一级韵律标注模型的输入。

为了将文本特征和声学特征更好地结合以提高韵律层级自动标注的精度，本文尝试了2种方式：1)将文本和声学特征直接在特征层面融合；2)分别训练基于文本特征和声学特征的标注模型，在决策层面融合。

1) 基于传统声学特征的系统构建。

将传统方法中所采用的包括时长(音节时长、静音时长、相邻音节时长比例等)、基频(拟合参数、极值、区间、均值、梯度等)、能量(极值、均值、比例等)共20维特征，用基于LSTM的循环神经网络训练基于声学特征的韵律边界标注模型。

2) 基于静音时长声学特征的系统构建。

将音节时长和节2.2中介绍的一系列静音时长特征共74维，用基于LSTM的循环神经网络训练基于声学特征的韵律边界标注模型。

3) 基于文本特征的系统构建。

文本特征包括了词性、字和词层面的数量和位置信息、音调，还有根据5度标音法给出的字之间基频的差异。所有文本特征均采用独热编码的方式进行归一化，文本特征共214维。

4) 基于特征融合的系统构建。

将文本和静音时长声学特征直接组成一个288维的向量作为网络的输入，采用两层基于LSTM的循环神经网络进行训练。

5) 决策融合的系统构建。

将基于静音时长声学特征和文本特征分别训练得到模型，用节3的决策策略进行融合。

6) 实验中的超参数设置。

本文实验所采用的超参数如表 2所示。

表 2 实验中的超参数设置

系统	隐含层节点数	隐含层层数	学习率	输出层节点类型
基于传统声学特征	256	1	0.001	softmax
基于本文声学特征	256	2	0.001	softmax
基于文本特征	256	2	0.001	softmax
基于特征融合	512	2	0.001	softmax

表选项

7) 实验结果。

表 3为5个系统的评价效果，本文使用F₁值作为对各个韵律层级预测的评价指标。

表 3 韵律自动标注F₁评价结果

韵律层级	传统声学特征	本文声学特征	文本特征	特征融合	决策融合
韵律词	83.72	85.98	95.10	95.08	96.35
韵律短语	72.31	85.64	69.43	87.70	87.85
语调短语	74.62	84.81	84.24	85.66	85.83

表选项

8) 分析与讨论。

相比传统声学特征，本文所采用的静音时长等一系列声学特征对韵律标注的准确度有明显提高，其原因是本文所采用的是边界自动切分，其切分精度的误差会传递给后续基频、能量等参数的提取，会给传统方法所用到的声学参数带来较大误差。本文采用静音时长特征的出发点就是考虑到自动音节切分精度不高的问题，因此所提取的静音时长特征受切分不准的影响较小。从另一个角度看，传统声学特征中所涉及的关于基频的参数已经在文本特征中的声调信息有所体现；传统声学特征更多体现了某个音节的发音状况，而不是音节间的停顿。

声学特征对韵律短语这一层级的预测效果提高明显。在人工韵律标注中，这一层级是最难标注的，有较大的不一致性，本文所采用的静音时长对各音节间的停顿进行了较为细致的度量，弥补了本文所采用的文本特征对句内各音节间停顿关系描述的不足。

对于直接在特征层面对文本和声学特征进行融合的方法，本文发现：就韵律短语和语调短语这两个层级而言，特征融合提高了自动标注的性能；但是，对于韵律词这一层级，融合未能提高该层级标注的性能，其原因是静音时长对于韵律短语和语调短语这两个层级的判别区分度较大，而静音时长对韵律词这一层级的区分度较小，只要依靠文本特征就可以达到较好的识别效果。

决策融合的方式比特征融合的方式在各个韵律层级的标注效果都有所提高，其原因在于本文目前采用的特征融合方式对于静音时长和文本这2类不同特征不能进行有效的区分训练：静音时长特征比文本特征有着更大的贡献，但无法应用于目前的网络结构，同时该网络不能凸显较高韵律层级的标注。决策融合的方法由于考虑了各子模型的先验概率，更加易于“取长补短”，在每个标注过程中都综合给出最优的判别结果，从而获得较好的效果。

5 结论

本文研究了静音时长特征的提取及其比传统声学特征在韵律边界自动标注性能上的提升。实验结果表明：在音频采用自动音节切分未经过人工校对的情况下，本文所采用的静音时长特征对韵律边界的检测性能有明显提升。同时，特征直接融合和模型决策融合的对比实验表明：模型决策融合更加适用于2类不同数据类型、不同抽象程度的特征，决策融合的方式可以进一步提高中文韵律边界标注的精度。

下一步将改进文本特征，如加入词向量等语义、语法结构特征等；同时，采用其他更合适网络拓扑结构，使文本特征和声学特征在模型中融合得更加合理。

参考文献

[1]	CHU M, QIAN Y. Locating boundaries for prosodic constituents in unrestricted Mandarin texts[J]. Computational Linguistics and Chinese Language Processing, 2001, 6(1): 61–82.
[2]	WANG M Q, HIRSCHBERG J. Automatic classification of intonational phrase boundaries[J]. Computer Speech & Language, 1992, 6(2): 175–196.
[3]	LEVOW G A. Automatic prosodic labeling with conditional random fields and rich acoustic features[C]//International Joint Conference on Natural Language Processing (IJCNLP). Hyderabad, India: 2008: 217-224.
[4]	ROSENBERG A, FERNANDEZ R, RAMABHADRAN B. Modeling phrasing and prominence using deep recurrent learning[C]//Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH). Dresden, Germany, 2015: 136-141.
[5]	BUSSER B, DAELEMANS W, BOSCH A. Predicting phrase breaks with memory-based learning[C]//4th ISCA Tutorial and Research Workshop (ITRW) on Speech Synthesis. Edinburgh, UK: University of Edinburgh, 2001: 29-34.
[6]	WIGHTMAN C W, OSTENDORF M. Automatic labeling of prosodic patterns[J]. IEEE Transactions on Speech and Audio Processing, 1994, 2(4): 469–481. DOI:10.1109/89.326607
[7]	HASEGAWA-JOHNSON M, CHEN K, COLE J, et al. Simultaneous recognition of words and prosody in the boston university radio speech corpus[J]. Speech Communication, 2005, 46(3): 418–439.
[8]	CHEN Q, LING Z H, YANG C Y, et al. Automatic phrase boundary labeling of speech synthesis database using context-dependent HMMs and N-Gram prior distributions[C]//Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH). Dresden, Germany, 2015: 227-234.
[9]	DING C, XIE L, YAN J, et al. Automatic prosody prediction for Chinese speech synthesis using BLSTM-RNN and embedding features[C]//Automatic Speech Recognition and Understanding (ASRU). Scottsdale, USA, 2015: 98-102.
[10]	LIN C K, LEE L S. Improved spontaneous Mandarin speech recognition by disfluency interruption point (IP) detection using prosodic features[C]//Ninth European Conference on Speech Communication and Technology. Lisbon, Portuguese, 2005: 78-85.
[11]	TIELEMAN T, HINTON G. Lecture 6. 6-Rmsprop: Divide the gradient by a running average of its recent magnitude[Z/OL]. [2017-01-01]. https://www.coursera.org/learn/neural-networks.
[12]	HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4): 212–223.

文章信息

工作空间