基于音高映射合成语音的汉语双字调声调训练

引用本文

解焱陆, 张蓓, 张劲松. 基于音高映射合成语音的汉语双字调声调训练[J]. 清华大学学报(自然科学版), 2017, 57(2): 170-175. 复制到剪切板

XIE Yanlu, ZHANG Bei, ZHANG Jinsong. Tone training for Mandarin two-syllable words based on pitch projection synthesized speech[J]. Journal of Tsinghua University (Science and Technology), 2017, 57(2): 170-175. 复制到剪切板

基于音高映射合成语音的汉语双字调声调训练

解焱陆 ¹ , 张蓓 ² , 张劲松 ^1,2

1. 北京语言大学信息科学学院, 北京 100083;
2. 北京语言大学对外汉语研究中心, 北京 100083

收稿日期: 2016-06-19

基金项目: 国家自然科学基金项目（61175019）；北京语言大学梧桐创新平台项目（中央高校基本科研业务费专项资金资助）（16PT05）

通信作者: 解焱陆(1980-), 男, 副教授。E-mail:xieyanlu@blcu.edu.cn

摘要：该文使用音高映射方法，通过选择合适的标准语音，合成出音段、音色保持不变，而只是声调变为标准语音声调的教学语音用于声调训练，减少了语音信号中声调信息之外的复杂变化带来的信息冗余与干扰。以汉语双字调的合成语音为实验材料，对日本被试进行了声调训练实验。训练结果表明：合成语音方法在声调的感知和产出的相对进步率，以及泛化产出的效果上都优于标准语音方法，远好于没有训练的对照组，大部分实验结果差异在统计上具有显著性。实验结果佐证了语音学习时存在人脑的选择性注意机制，为将合成语音方法集成到计算机辅助汉语声调教学系统，提供了实验和理论依据。

关键词：语音教学语音习得语音合成音高映射声调

Tone training for Mandarin two-syllable words based on pitch projection synthesized speech

XIE Yanlu¹, ZHANG Bei², ZHANG Jinsong^1,2

1. College of Information Science, Beijing Language and Culture University, Beijing 100083, China;
2. Center for Studies of Chinese as a Second Language, Beijing Language and Culture University, Beijing 100083, China

Abstract:This study uses the pitch projection method to synthesize teaching speech with the appropriate standard voice. The teaching speech is synthesized by turning lexicon tones in the learners' speech into standard tones, while keeping the segments and timbie unchanged. This simplifies the complex variations in the speech signal except for the tones. Then, the system is used for tone training Japanese students based on the synthesized Mandarin two-syllable words. The training results show that this synthesized speech method is superior to a standard voice method with improved perception and production, as well as generalized production. The training results for the synthesized speech method are far better than a control group without training. Most of the results are statistically significant. Tests also show the existence of a selective attention mechanism in the human brain when learning speech. Thus, this study provides an experimental and theoretical basis for speech synthesized methods to be integrated into computer-assisted Mandarin tone learning systems.

Key words: phonetic teaching language learning speech synthesis pitch projection tone

外国人对汉语声调的理解和学习经常面临很大的困难。汉语语音学习一般通过对音段发音的模仿进行，而标准发音变化范围较大。如果随机挑选标准语音库中两个不同说话人的语音，尽管两个说话人在个性信息、语速、音色上差别较大，母语者仍能够很容易地感知出两段语音具有相同的声调和内容，但汉语学习者很可能会将其“感知”为不同的声调。

语音处理技术已被广泛应用到了计算机辅助语言学习(CALL) 系统中，其中语音识别被广泛用于学习者的发音水平检测和评估，语音合成以及语音的感知和理解技术被用于学习系统的反馈和指导。鉴于计算机处理语音的便利性，有学者提出了修改语音参数、利用合成语音进行教学的方法。声音转换技术提出之初，有学者就预测了该技术对于学习第二语言语音的作用。由于转换后的声音剔除了很多无关信息，用转换之后的语音作为练习范本，比用母语者的发音作为范本更加有效，有利于学习者把精力集中在正确的韵律特征上^[1]。Probst等研究发现，对语言习得学生而言，教师发音越接近于学生本人，学生习得的效果越好^[2]。教师发音接近于学生本人，实际上是降低了标准发音变化的复杂性。这也符合人脑的选择性注意机制。根据Nosofsky关于多维视觉刺激的识别和范畴化的实验^[3]，选择性注意在学习中起到了至关重要的作用：对于一个刺激维度的选择性注意，可使范畴内的相似度最大化，使范畴间的相似度最小化，即受注意维度的刺激彼此差别扩大，非注意维度刺激的差别减小。因此，很多合成的反馈语音都致力于拉近教师和学生语音之间距离。

这一理论在外语学习的重音和口音习得问题上取得了一定进展，如Felps等通过声音转换技术，合成出一种标准重音发音的语音，该方法合成语音减少了美式英语重音的偏误，但因为修改参数过多，语音质量有较大下降，平均意见值(mean opinion score, MOS) 约为2.7^[4]，用来教学会导致其他的发音偏误。Rodríguez等在残疾人学习西班牙语发音的PreLingua系统中，通过规整声道长度，减少说话人之间的差别，在发声时间、重音、声强等指标上取得了一定的教学结果^[5]。ZHAO等通过修改语音的韵律，在一定程度上解决了英语学习者的重音习得问题^[6]。

汉语声调的变化要比重音和口音复杂得多，目前研究者们已提出了一些修改参数合成教学语音的方法和理论，但较少有合成语音用于声调教学的研究，目前的研究大多侧重于如何提高合成语音质量，或是如何提高合成语音的声调相似度。例如：本文作者前阶段的研究主要致力于合成语音的语音质量和声调质量的提高^[7]；Peabody等的方法可使合成语音在声调上更接近于母语者，而声学特性更类似于学习者自身^[8]。但上述研究都未将合成语音用于声调的习得训练。目前，在大多数CALL系统中，针对声调的习得，一般是提供给发音者基频曲线的对比，让其根据曲线纠正发音问题^[9-10]；或者是在决策树中给出一些简单反馈^[11]。合成语音能否在教学上真正提高声调学习的效果，对学习者的感知和产出有何影响，用于CALL系统中是否合适，尚需进一步研究。

针对以上的问题，本文在使用音高映射方法合成教学语音的基础之上，以日本学生为例，验证比较了合成语音、自然语音对汉语双字调声调学习感知和产出的影响。

1 音高映射合成语音方法

音高映射合成语音是指根据学习者声调发音特点，根据映射规则，通过改变学习者发音的音高和时长，以学习者自身的声学模型，合成出音色类似于学习者语音、声调为标准语音的训练语音。

具体流程图如图 1所示，具体实现可参考文[7]。其中，学习者语音判别模块根据学习者语音的声学参数和韵律参数，判断其和标准语音库中哪个标准发音最为接近，将该标准语音选择为进行声调映射的基准声调。教学语音合成模块根据已选定的基准声调、映射算法以及学习者自身发音的声学参数，通过合成算法，合成出音段和音色保持不变而声调为标准声调的反馈教学语音。主要的模块功能说明如下：

图 1 声调映射框图

图选项

相似度判决模块：在标准语音库中有多个不同性别、不同语速、不同发音特点的标准语音，根据感知学习理论，和学习者最相似的语音教学效果最好^[2]。相似度判决模块用来衡量哪个标准语音和学习者语音最为接近。根据相似度判决模块的结果，选择标准语音库中的相应语料作为语音参数转换的标准语音。标准语音的音高信息将作为学习者音高的比较对象，也是参数转换的基准。

语音参数转换：该模块根据已确定的标准语音、学习者语音和转换算法，调整学习者的语音参数，调整的参数包括音高、时长和能量。音高参数是调整的重点，也是影响合成质量的关键，采用音素级的音高替换映射得到。为了保证合成出的语音听起来还像是原来外国学生的发音，需要将映射后音高的均值范围调整回原来的音高范围。时长的调整对学习者的感受也很重要，合成语音时长取两段输入语音的均值。学习者语音的声学参数一般保持不变，以保证合成语音的语义和音色保持不变。

语音合成：该模块以转换后的学习者音高、时长，以及学习者自身的声学模型，合成出音色类似于学习者语音、声调为标准语音的训练语音，把“语音信号中复杂的变化”限定为声调的变化。在此采用STRAIGHT合成方法^[12]。

在本文作者前期的研究中^[7]，使用该方法合成语音的语音质量和声调质量都取得了较好的效果，可以用于教学。

2 汉语双字调声调习得训练

为了验证音高映射合成语音在汉语声调习得中的效果，本文以日本学习者为例，对比了3组被试在不同的学习方法下声调感知和产出的情况。3组被试分别为：使用合成语音和学习者原始音频对比进行训练的“音高映射对比法(pitch projection，PP)”组，使用所挑选的最相似的汉语母语者标准音频和学习者的原始音频对比进行训练的“标准语音对比法(no projection，NP)”组，未经过任何特殊训练的对照组(control group，CG)。

2.1 实验语料库

本文选用的语料库为汉语双字调。选择双字调是因为单字调感知的正确率较高，而汉语声调存在连读变调现象^[13]，在语流中，如双字中，声调感知的正确率较低^[14]。而且，汉语的双字调是能够观察汉语语调环境对声调影响的最小、最基本的单元。同时，双音节的音段也是日语音高重音得以体现的最小、最基本的单元^[15]。通过双字调研究，能观察到日本学习者的母语迁移问题。

2.1.1 感知测试材料

感知测试采用的材料是80对共160个双音节词。为了避免语义信息可能对被试判断声调产生干扰，本文采用的词均为古汉语用词或出现频率较低的词。

考虑到参加实验的日本学习者的汉语水平参差不齐，对感知实验的80对词作如下安排：40对词只有一个音节的声调相同(如“礼乐”和“里约”)，其余40对词两个音节的声调均不同(如“萌动”和“孟冬”)。测试时各个词对按随机顺序播放。不同词对之间插入3 s的静音段，使被试作出选择并填写。

2.1.2 产出测试材料

产出测试包括产出前后测和泛化测试。产出前后测使用的语料为80个双音节词，覆盖了汉语普通话的16种声调组合，每种组合5个词。为了得到较明显的音节边界以及避免相邻音节之间的音高推移，只选择第2个音节的声母为清辅音的词语，而不选择第2个音节的声母为浊辅音或零声母的词语^[15]。

为了验证学习者能否将训练中习得的声调能力迁移到新的音节结构上，也为了避免练习效应，在产出后测之后安排了产出的泛化测试，使用的材料为符合上述特点的另外80个词，与前后测难度相当。

2.2 被试 2.2.1 日本被试

28名日本被试参加了本文的实验，其中PP组10人，NP组11人。CG组7人，仅参加前后测，不参加训练。所有日本被试均为在北京高校进行汉语学习的日本留学生，无实验语音学的学科背景。具体情况见表 1。

表 1 参加各组实验的日本被试基本情况

组别	总人数	男	女
PP	11	6	5
NP	10	6	4
CG	7	2	5

表选项

2.2.2 中国被试

中国被试包括感知和产出使用材料的发音人、感知材料听辨人及对日本被试发音进行评价的评价人。

感知材料发音人：汉语母语者4名，男女各2人，普通话水平均达到一级乙等。采集4名汉语母语者的各40个音频。其中每个词对中的两个词均由不同性别的发音人产出。

感知材料听辨人：5名汉语母语者对感知实验材料进行听辨并辨别声调。5名母语者的平均听辨正确率达到99%，因此证明感知实验材料的声调具有可辨别性。

评价人：为了计算日本被试在实验前后的声调感知正确率的变化，14名汉语母语者参加了日本被试发音的听辨工作。所有母语者均为语音学专业的研究生。所有听辨均在安静的环境中完成，听辨可以重复。为了保证结果的客观性和一致性，听辨开始之前，评价人对于日本被试所处的组别、是否经过训练均不知情。每名被试的前后测音频均由相同的3名母语者负责听辨，取3人听辨的平均正确率。

为了排除语义信息对于声调判断结果的干扰，听辨材料都进行了50~400 Hz的低通滤波处理。

2.3 实验流程

本实验使用前测-训练-后测-泛化测试的设计，整个实验持续4天，共5 h。实验流程如图 2所示。对实验流程详细说明如下：

图 2 声调习得实验流程图

图选项

第1天：感知前测和产出前测。3组均进行同样测试。

感知前测：被试对所听到的双音节词的两个音节作出声调判断，并把其认为正确的声调数字自行填写在对应的表格中。感知实验持续40~60 min。

产出前测：产出前测即第1次录音，录音设备如下：SHRE-SM 48话筒、台式计算机、外接声卡和调音台。录音采用NLPR RECORDER软件，采样率16 000 Hz，单声道，量化精度16 bit，录音存为wav文件。

第2、3天：声调训练。PP组对比合成语音和自身原始音频，NP组对比所挑选的汉语母语者的标准音频和自身原始音频。两组的训练时间相等，约3 h。CG组不训练。

第4天：声调感知后测、产出后测、产出泛化测试。3组均进行同样测试。

3 声调感知和产出实验结果 3.1 感知实验

声调感知实验测试结果如图 3所示。可以发现，3组被试在后测的正确率均高于前测。经过训练后，在感知方面取得的相对进步率为：PP组28%，NP组19%，CG组9%。所有相对进步率均为正值，说明两种方法均能提高被试的感知正确率。由于被试处于目的语环境中，只参加前后测不参加训练的CG组也取得了9%的相对进步率。

图 3 3组被试感知前后测的正确率

图选项

为了检验3组被试的测试结果差异是否显著，使用单因素方差分析法(ANOVA) 检验了各组每名被试的相对进步率与对照组的差异，如表 2所示。

表 2 训练组感知前后测相对进步率与对照组的差异显著性分析

	F	p
PP和CG组相比	14.633 3	0.001 7
NP和CG组相比	2.773 2	0.118 1

表选项

PP组与对照组的差异显著(p < 0.05)，说明音高映射对比法能显著提高被试对于声调的感知能力，但NP组与对照组之间差异不显著(p>0.05)，可能是这种方法用汉语母语者的原始音频作为训练范本，被试在训练中难以把注意力集中在音高上，效果稍逊。

为了检验两种方法对于普通话4个声调是否有不同影响，还检验了每个声调在每种方法下的前后测正确率差异，结果表明虽然各声调正确率均有提高，但各组被试每个声调的前后测正确率之间均无显著差异。

3.2 产出实验

为了验证计算机辅助语音教学训练方法能否促进日本学习者的汉语声调产出能力，对所有日本被试在前测、后测和泛化测试的产出音频进行了母语者的主观评价，得到了每名被试3次产出测试的正确率，如图 4所示。

图 4 3组被试产出前后测和泛化测试的正确率

图选项

2个训练组的相对进步率都为正值，而对照组为负值，说明2种训练方法对于日本学习者的汉语声调能力学习均有促进作用。与感知测试的对照组取得进步不同，对照组在产出后测中有所退步。与感知相对进步率相比，PP组和NP组产出相对进步率均较高。其中最高进步率出现在PP组，达到44%，NP组为40%，与感知测试的结果类似。

为了进一步检验3组被试测试结果差异是否显著，使用单因素方差分析法，分析检验了前测、后测及泛化测试正确率差异的显著性，如表 3所示。

表 3 前测、后测、泛化测试正确率显著性检验分析

组别	前测与后测差异		前测与泛化差异
组别	F	p	F	p
PP	16.448 9	0.000 6	11.083 0	0.003 3
NP	7.098 6	0.015 8	3.099 8	0.095 2

表选项

从表 3可以看出，PP组被试的前测和后测正确率之间差异显著(p=0.000 6 < 0.05)，说明PP组被试在训练之后产出正确率得到显著提高。泛化测试与前测的差异也显著(p=0.003 3 < 0.05)，说明PP组被试在训练中获得的声调产出能力可以泛化到新的音节。NP组前后测正确率之间差异显著(p=0.015 8)，说明NP组被试在训练之后，产出汉语双音节词声调的正确率也有显著提高，但NP组被试难以把训练中获得的声调产出能力泛化到新的音节，这是因为NP组被试训练使用的范本为汉语母语者的原始语音，不能把被试的注意力吸引到音高维度上，使被试的声调产出能力提高有限。

为了检验两种方法对于普通话4个声调是否有不同影响，检验了每个声调在每一种方法下的前后测正确率，得到表 4。

表 4 4个声调产出前后测的正确率和差异显著性检验分析

声调	PP组			NP组
声调	前测正确率/%	后测正确率/%	p	前测正确率/%	后测正确率/%	p
阴平	91	99	0.000 7	94	98	0.150 3
阳平	77	88	0.021 4	79	85	0.316 5
上声	41	65	0.006 8	61	75	0.175 5
去声	96	100	0.135 1	98	99	0.144 9

表选项

观察可知，PP组在阴平、阳平和上声的前后测正确率具有显著差异(p < 0.05)，其他声调和组别在前后测的正确率之间差异均不具有统计意义上的显著性(p >0.05)。PP组在阳平和上声的提高均具有显著性，这一结果可以为阳平和上声这一对难点声调的教学提供有效的解决方法。

3.3 实验结果小结

感知方面：两种训练方法对于被试的感知均有促进作用。由于处于目的语环境中，不参加训练的对照组也取得了9%的相对进步率。同时，PP组相对于CG组的进步率的差异具有统计意义上的显著性，NP法的相对进步率的差异不具有统计意义上的显著性，说明标准音节对比法对被试的感知能力改善作用有限。

产出方面：两种方法对于被试的产出能力均有促进作用，与感知相比，对产出在促进作用更大。对照组在后测的产出正确率低于前测。两种方法对于被试声调的产出能力均有改善作用，改善作用差异不大。在泛化方面，只有PP组的前测与泛化测试的正确率有显著差异，说明PP组被试不仅在熟悉的音节上取得了进步，并且能够把训练中获得的产出能力扩展到陌生音节。NP组无此现象。

此外，通过检验被试各个声调在前后测的正确率发现，只有PP组的阴平、阳平和上声的正确率在前后测之间差异显著(去声不显著可能是由于去声相对容易发音，使得前测正确率较高故进步空间较小)，NP组对于4个声调的改善都不显著。

4 结论和讨论

相对于对照组，本文所使用的两种双字调声调训练方法，对于日本学习者的汉语声调的感知和产出能力都有促进作用。经过训练，被试在产出方面的进步大于感知方面。两种方法中，PP法被试取得了较高的相对进步率，同时具有较好的产出泛化能力，对阴平、阳平和上声的产出改善也较好。

以上实验结果也证明了引言中的选择性注意的作用，即音高映射合成语音因为剔除了很多无关信息，使得被试更集中于自身发音和合成语音的音高差别，从而能够更加专注于去改正声调的偏误。此外，被试还能够通过自省和对比，对声调的产出进行泛化。本文实验结果说明了使用音高映射合成语音，是可以在教学上提高声调习得的效果的。这为将合成语音方法集成到计算机辅助语言学习系统用于汉语声调教学，提供了实验和理论依据。

参考文献

[1]	TANG Min, WANG Chao, Seneff S. Voice transformations:From speech synthesis to mammalian vocalizations[J]. Proc of the Eurospeech, 2002, 18: 357–360.
[2]	Probst K, Ke Y, Eskenazi M. Enhancing foreign language tutors:In search of the golden speaker[J]. Speech Communication, 2002, 37(3): 161–173.
[3]	Nosofsky R M. Attention and learning processes in the identification and categorization of integral stimuli[J]. Journal of Experimental Psychology:Learning, Memory, and Cognition, 1987, 13(1): 87–108. DOI:10.1037/0278-7393.13.1.87
[4]	Felps D, Bortfeld H, Gutierrez-Osuna R. Foreign accent conversion in computer assisted pronunciation training[J]. Speech Communication, 2009, 51(10): 920–932. DOI:10.1016/j.specom.2008.11.004
[5]	Rodríguez W R, Saz O, Lleida E. A prelingual tool for the education of altered voices[J]. Speech Communication, 2012, 54(5): 583–600. DOI:10.1016/j.specom.2011.05.006
[6]	ZHAO Sixuan, Koh S N, Luke K K. Accent reduction for computer-aided language learning[C]//2012 IEEE Proceedings of the 20th European Signal Processing Conference (EUSIPCO). Bucharest, 2012:335-339.
[7]	XIE Yanlu, ZHANG Jinsong, SHI Shuju. Standard speaker selection in speech synthesis for Mandarin tone learning[C]//Proceedings of the 2012 International Conference on Information Technology and Software Engineering. Heidelberg, 2013:375-383.
[8]	Peabody M, Seneff S. Towards automatic tone correction in non-native Mandarin[C]//International Symposium on Chinese Spoken Language Processing. Singapore, 2006:602-613.
[9]	Martin P. WinPitch LTL Ⅱ, a multimodal pronunciation software[C]//InSTIL/ICALL. Venice, 2004.
[10]	宋益丹. 对外汉语声调教学策略探索[J]. 语言教学与研究, 2009(3): 48–53. SONG Yidan. Strategies on teaching tones in Chinese as a foreign language[J]. Language Teaching and Linguistic Studies, 2009(3): 48–53. (in Chinese)
[11]	Hussein H, WEI Si, Mixdorff H, et al. Development of a computer-aided language learning system for Mandarin-tone recognition and pronunciation error detection[C]//Proceedings of the Speech Prosody. Chicago, 2010.
[12]	Kawahara H, Masuda-Katsuse I, De Cheveigne A. Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F₀ extraction:Possible role of a repetitive structure in sounds[J]. Speech Communication, 1999, 27(3): 187–207.
[13]	CHAO Yuen Ren. A Grammar of Spoken Chinese[M]. Berkeley and Los Angeles: University of California Press, 1968.
[14]	薛晶晶.美国和泰国学习者汉语普通话阳平与上声习得的实验研究[D].北京:北京大学, 2013. XUE Jingjing. The Study on Mandarin Tone 2 and Tone 3 by American and Thai Speakers[D]. Beijing:Peking University, 2013. http://www.doc88.com/p-1416813474668.html
[15]	太田裕子.日本学生汉语普通话两字调的发音和感知研究[D].北京:北京语言大学, 2011. Ota Yuko. A study of Production and Perception of Tone Sandhi of Chinese Disyllables by Japanese Students[D]. Beijing:Beijing Language and Culture University, 2011.

文章信息

工作空间