2. 中国社会科学院 语言研究所, 北京 100732
2. Institute of Linguistics, Chinese Academy of Social Sciences, Beijing 100732, China
对婴幼儿而言,语言学习是一个统计学习与交互学习相结合的过程[1-2]。一方面,婴幼儿暴露在语言环境中,他们能够利用模式识别和相应的计算能力从语音刺激的概率分布模式中习得语言学知识[3-4]; 另一方面,婴幼儿在与家长的交流中,能够利用交互能力通过接受反馈信息来获得学习指导[1]。本研究通过对上述学习过程的建模来模拟婴幼儿对母语音位范畴的习得。
从建模的角度来看,语言习得可以被抽象为一个知识学习的过程。知识学习过程的一个重要特点就是动态扩展性,即知识的内容是不断增加的,知识所涉及的领域是不断扩展的。因此,“可扩展性”是语言习得的一个重要属性。在众多的知识学习算法中,自组织网络(self-organizing map,SOM)[5-6]可以很好地模拟知识的拓扑结构和学习过程中知识的自组织过程。SOM的学习模式与磁吸效应[7-8]相似,被广泛应用于语言学相关的研究中[9-15]。但是受制于算法本身的局限性[16],SOM模型无法有效地将新知识与现有的知识网络融合,在模拟知识的可扩展性上存在困难。因此,将SOM模型直接用于模拟婴幼儿语言习得并不妥当。
由SOM衍生出的可扩展的自组织模型有很多,近几年以Li等[13-14]和Alahakoon等[17-18]的研究最具代表性。Li等[13-14]提出了具有可扩展特性的DevLex和DevLex-II模型,并对儿童的早期词汇发展进行了建模研究。其研究成果表明: 具有可扩展特性的自组织网络模型可以更好地模拟语言的习得。Alahakoon等[17-18]从数据挖掘任务出发,提出了可扩展的自组织网络(growing self-organizing map,GSOM)模型。与DevLex和DevLex-II相比,GSOM模型的结构更为简单,扩展机制更为灵活,有利于对语言习得这类复杂任务的建模[19-20]。
GSOM模型算法模拟的是一种无监督的统计学习机制。虽然统计学习可以模拟许多知识学习任务,但是对语言习得而言,交流互动显得格外重要。交流互动可以为统计学习提供指导,帮助婴幼儿在学习过程中把握重要的知识,提高学习效率[1, 21]。因此在GSOM模型算法的基础上,本研究采用了“循环性强化和复习训练”算法[19-20],来实现对语言习得过程中所涉及的交互学习机制的模拟。
1 模型的算法实现 1.1 GSOM模型的结构在初始状态时,GSOM网络中只有4个节点,网络的结构具备沿边缘节点的任意方向向外扩展的能力(见图 1)。随着训练的进行,网络结构可以自主地进行扩展,并可以根据最佳匹配节点(best matching unit,BMU)及与BMU直接相邻的节点的特征向量初始化新添节点的特征向量,使新添加的神经元节点平滑地加入到现有网络中。
1.2 优化的扩展策略
在模型的训练过程中,如果训练数据在网络中所对应的BMU为边缘节点,且该BMU节点达到扩展条件[17],则新的节点会被添加到网络中,使网络的结构向外扩展。在GSOM模型算法中(见图 2a),模型会向达到扩展条件的BMU节点周围的所有空缺位置添加新节点(例如n1和n2)。这种扩展方式缺乏明确的指向性,会使网络中产生许多冗余节点。针对这一问题,在建模过程中,通过借鉴“交叉插入”算法[22-23],本文提出了优化的网络扩展策略(见图 2b)。
为使新添节点更好地融入到现有的网络结构中,新添节点的位置应尽可能地靠近BMU及与BMU特征相近的节点。若多个空缺位置与最佳匹配节点(BMU1)的距离相等,则检验这些位置与第二佳匹配节点(BMU2)之间的距离,取距离最近的空缺位置作为新添节点的位置; 若所有空缺位置与第二佳匹配节点之间的距离依然相等,则检验这些位置与第三佳匹配节点(BMU3)之间的距离。依此类推,直至找到最佳的扩展位置(例如n2)为止,原理如下
$\begin{align} & n=\arg {{\min }_{i}}\left\{ \left\| {{n}_{i}}-\text{BM}{{\text{U}}_{j}} \right\| \right\}, \\ & i\in {{n}_{\text{BM}{{\text{U}}_{1}}}},j\in {{N}_{\text{BMU}}}. \\ \end{align}$ | (1) |
其中: n表示新添节点的位置,nBMU1表示与BMU1直接相邻的所有空缺位置,NBMU表示根据特征向量距离排序的BMU节点序列。
1.3 模型的基本训练算法模型的基本训练包括初始化阶段和增长阶段。初始时,网络中只有4个节点。由于每个节点都是边缘节点,因此在训练过程中,每个节点都可以根据需要向外扩展网络结构。这增加了训练初期网络的灵活性,使网络可以更快地学到新的知识。
从语言习得的角度来看,初始化阶段可以看作是对婴幼儿出生前阶段的模拟。此时在婴幼儿的大脑皮层中,已经存在一个专门负责语言处理的神经网络区域,它具有专门为语言处理和语言学习所设计的网络结构。此时的神经网络已经处于待激活状态。待婴儿出生以后,外界产生的语言刺激便会激活这个网络,并使得婴幼儿开始对语言进行感知和学习。
在增长阶段,训练数据以序列的方式输入训练网络,一次只输入一个数据,经多次迭代训练后再输入下一个数据。由于网络对模型神经元节点的特征向量的更新和重组是在局部范围内(即邻域范围内——GSOM的邻域范围要比SOM的要小得多)进行的,因此对于每一个新输入的训练数据,网络的学习率和邻域范围大小都会被重新设定为各自的初始值。模型训练的过程中,网络对BMU节点及其邻域内节点的特征向量进行更新,规则如下:
$\begin{align} & {{\omega }_{i}}\left( t+1 \right)= \\ & {{\omega }_{i}}\left( t \right)+{{R}_{\text{learn}}}\left( t \right)h\left( t \right)\left[ x\left( t \right)-{{\omega }_{i}}\left( t \right) \right], \\ & i\in N \\ \end{align}$ | (2) |
其中: ωi表示网络中模型神经元节点的特征向量,Rlearn表示学习率衰减函数,h表示Gauss邻域函数,x表示输入数据的特征向量,N表示网络中模型神经元节点的数目。该学习算法模拟了学习过程中语音刺激对神经网络中相关神经元的激活和对无关神经元的抑制。
若知识网络中的某个BMU节点达到扩展条件,且该节点为边缘节点,模型会采用优化的扩展策略(见节1.2)选取最恰当的位置添加新节点,扩展网络结构。
若知识网络中的某个BMU节点达到扩展条件,但该节点不是边缘节点,模型会通过“误差分发”[17]将BMU节点的“累积误”[17]分摊到其他相邻的节点上,间接促进网络的扩展。
传统GSOM的误差分发策略并不十分合理,因为它只是简单地减小BMU的累积误,增大与BMU相邻的节点的累积误,而不是将BMU的累积误分发给相邻的节点。针对这一问题,本文采用了Tai等[22]改进的误差分发策略如下:
${{E}_{\text{BMU}}}\left( t+1 \right)=\frac{{{E}_{\text{BMU}}}\left( t \right)}{2}.$ | (3) |
${{E}_{\text{nbrs}}}\left( t+1 \right)={{E}_{\text{nbrs}}}\left( t \right)+\frac{1}{{{n}_{\text{nbrs}}}\left( t \right)}\frac{{{E}_{\text{nbrs}}}\left( t \right)}{2}.$ | (4) |
其中: EBMU(t)和EBMU(t+1)分别为误差分发前后BMU的累积误,Enbrs(t)和Enbrs(t+1)分别为误差分发前后与BMU直接相邻节点的累积误,nnbrs(t)为当前时刻与BMU直接相邻节点的数目。
误差分发模拟的是一个对大脑神经网络中神经元的负载进行平衡的过程。当神经网络中某个模型神经元的学习负载过大时,该模型神经元会把学习压力分散到周围的模型神经元上,同时在必要的时候通过在网络边缘激活新的模型神经元来获得更多的计算资源和存储空间。
1.4 循环性强化和复习训练在习得语言的过程中,婴幼儿的学习能力是高度受限的,他们不是学习的机器,因而也无法单纯依靠统计学习学会语言中所有的知识和模式[1]。婴幼儿对语言的感知会表现出各种各样的错误,在语音感知中,错误可能会表现为无法区分不同发音的词汇。为了帮助婴幼儿更加高效地习得语言,交互机制的介入是必不可少的。正如Kuhl[1]所指出的那样,交流互动或者说社会交际对婴幼儿的语言习得是十分关键的。Eckers等[24]提出的“三角注视模型”也描绘了家长与婴幼儿在交互中形成共同关注的过程。
在日常生活中,如果家长发现自己的孩子总是混淆一些发音不同的词汇,那么他们通常会向孩子多次重复相应的词汇,以帮助孩子体会和学习这些词汇之间发音(即不同音位之间)的差异。这实际上是一种知识强化过程,家长通过不断重复婴幼儿理解错误的语音刺激,使婴幼儿可以针对他们学习中的难点加强记忆。在这个过程中,一些已经习得的或者习得较好的词汇也会伴随着语流出现,同样也会得到强化,可以看作是对旧知识的复习和巩固。
交流互动是语言学习必不可少的一部分[21, 25-26],因此在建模时对交互过程的模拟十分重要。针对上述现象,本文采用了“循环性强化和复习训练”的算法[19-20]。强化阶段用于训练被网络“混淆”的音位,模拟家长向孩子强化不同词汇间发音差异的过程; 复习阶段用于重复训练一些已经出现过的词汇,以模拟对一些习得较好的词汇的复习和巩固作用。重复这样的“强化—复习”过程,构成循环的强化复习训练模式,达到逐步完善学习效果、 平滑网络结构的作用。
2 实验材料 2.1 语音数据本文采用标准德语作为实验语料。用于实验的语音数据由单个音节构成,包括5个V音节([i]、 [e]、 [a]、 [o]、 [u])、 45个由以上5个元音与9个辅音([b]、 [p]、 [d]、 [t]、 [g]、 [k]、 [m]、 [n]、 [l])相拼构成的CV音节以及20个由5个元音与4对辅音丛([bl]、 [pl]、 [gl]、 [kl])相拼构成的CCV([ClV])音节(其中V代表元音,C代表辅音)。利用以上音位,共构成70个音节作为录音材料。
录音由一位26岁的女性标准德语发音人完成。录音时使用负载句,每个音节朗读3遍,采样率为44.1 kHz,最终构成由210个音节组成的训练集。
2.2 声学信息的表征频谱和时长是语音信号重要的声学特征信息。然而SOM和GSOM所采用的数据编码方式都不能恰当地对频域和时域信息进行联合表征。本文采用量化的频谱状态图[20]来表示语音信号的声学信息。对于训练集中的每一个语音信号,频谱状态图用24个单元表示其频率维度的特征(每个单元代表1bark值),用57个单元表示其时间维度的特征(每个单元代表10ms的时长)。因此每个语音信号的声学特征由1 368个单元组成的频谱特征序列表示。图 3是CV音节[lo]的声学信息表征。图中每个状态单元的活跃程度以灰度值表示: 0(白色)表示不活跃,1(黑色)表示最活跃。在频率维度上,[l]和[o]的共振峰信息以及它们之间的共振峰过渡段信息都得到了清晰的表征; 而在时间维度上,[l]和[o]以及整个音节的时长信息也都得到了充分的表征。
3 实验及结果分析
实验共包括61个训练步骤。第1步为增长阶段,之后的60步为30轮“循环性强化和复习训练”,即从第2步起,偶数步为强化阶段,奇数步为复习阶段。本研究采用相同的训练数据和建模参数分别进行了5组模拟实验。
训练结束后,需要对模型的学习效果进行测试。在测试阶段,将训练集再次输入模型网络,通过计算输入数据与网络中节点的特征向量之间的Euclidean距离来获得测试数据与网络中模型神经元节点的特征差值,从而找到相应语音特征的最佳匹配节点。
通过均方差分析和网络表征分析,各组实验的结果所反映出的现象趋于一致。因此,本文在节3.1中报告的结果为基于5组实验的平均值,在节3.2中报告的仅为其中1组实验的结果。
3.1 均方差分析均方差是竞争性学习常用的检验标准[27],计算方法[23]为
$\begin{align} & \text{MSE}=\frac{1}{N}\sum\limits_{i=1}^{N}{{{E}_{i}}}, \\ & {{E}_{i}}=\sum\limits_{k=1}^{N}{{{\mu }_{ki}}}\left\| {{x}_{i}}-{{c}_{k}} \right\|. \\ \end{align}$ | (5) |
其中: N表示输入数据的个数; K表示网络中节点的个数; μki表示输入数据x与网络节点c之间的关联系数(若节点c为x的最佳匹配节点,则μki=1; 否则μki=0)。输入数据与其在网络中的最佳匹配节点之间的特征差距越小,相应的均方差就越小,也就说明网络的学习效果越好。
分别对5组实验进行均方差分析,取均值后的结果如图 4所示。随着训练的进行,网络中节点的均方差呈快速下降的趋势。这表明在“循环性强化和复习训练”的作用下,模型网络可以将学习重点放在发音易混淆的词汇上,并根据“交互过程”中的反馈来完善现有的学习结果,更好地掌握训练数据所蕴含的特征信息,最终达到较高的学习质量。
3.2 网络表征分析
训练结束后,通过观察网络中模型神经元对元音表征的聚类情况,可以了解网络对元音音位范畴的习得情况; 通过观察网络中模型神经元对辅音发音方式表征的聚类情况,可以了解网络对辅音音位范畴的习得情况。
3.2.1 元音音位范畴表征分析图 5为训练结束后,知识网络中模型神经元节点对元音音位范畴的表征和聚类。图中每一个方格代表网络中的一个模型神经元节点(共有981个节点),方格中的频谱状态代表该模型神经元节点所表征的声学特征; 黑线标出的是不同元音音位范畴之间的边界; 标注文字表示各个范畴所代表的元音音位。
可以在网络中找到[i]、 [e]、 [a]、 [o]、 [u]这5个元音各自所对应的聚类区域。由元音[a]构成的音节分布于网络的右方,由元音[i]或[e]构成的音节整体分布于网络的上方,由元音[u]或[o]构成的音节整体主要分布于网络的左下方。
这样的空间分布关系与声学空间里的“元音三角”相对应,构成舌位的“前—央—后”以及“高—低”的空间对应关系。[i]与[e]和[u]与[o]在网络中分别存在一定程度的“混淆”。这样的分布情况反映出婴幼儿在对声学特征相近的语音进行加工时,不能很好地感知它们之间的差异,以致在区分相应音位时存在一定的困难。
以上建模结果表明: 本文采用的建模算法可以较好地辨别元音音位的范畴,知识网络可以习得元音的声学信息,并通过对声学信息的表征构建元音的声学空间。由此推测,在习得语言的过程中,通过对语音声学信息的加工,婴幼儿有能力掌握元音音位的范畴,并构建元音音位在声学空间内的分布关系。
3.2.2 辅音发音方式表征分析如图 6所示,在同一个知识网络中,可以观察到由3种不同的辅音发音方式所构成的范畴。由边音构成的音节主要分布于网络的左上方(实验分析中,本文将[ClV]音节视为主要由边音构成的音节); 由爆发音构成的音节主要分布于网络的右方及中下方; 由鼻音构成的音节分布较散,但总与边音相邻。
从辅音的声学属性来看,反映辅音发音方式的特征主要承载于辅音本身以及辅音与元音之间过渡段的频谱特征中。由于鼻音[m]、 [n]与边音[l]的频谱特征差异不显著,因此知识网络中对这些辅音特征进行表征的模型神经元彼此相邻。这反映出婴幼儿在习得鼻音和边音时往往将两者的特征相互关联。有时这也会造成他们在音位区分上的困难,例如[n]和[l]的混淆。
以上建模结果表明: 本文采用的建模算法可以较好地划分辅音发音方式的范畴,习得各发音方式的频谱特征信息,并构建辅音发音方式的知识网络。由此推测,在习得语言的过程中,通过对辅音本身以及辅音与元音过渡段的频谱特征信息的加工,婴幼儿有能力习得辅音发音方式的基本范畴。
4 结 论本文在GSOM模型算法的基础上采用优化的扩展策略,引入“循环性强化和复习训练”算法,模拟了婴幼儿对标准德语中部分元音和辅音音位范畴的习得。均方差分析结果显示,“循环性强化和复习训练”算法可以有效地提高学习效果。网络表征分析表明: 本文所采用的模型算法可以较好地习得元音音位和辅音发音方式的范畴,并在知识网络中构建相应的知识结构。建模实验结果显示: 在习得语言的过程中,通过对语音的声学信息的加工,婴幼儿有能力习得元音音位的范畴并构建元音音位在声学空间内的分布关系; 通过对辅音本身以及辅音与元音过渡段的频谱特征信息的加工,婴幼儿有能力习得辅音发音方式的基本范畴。
以GSOM为基础的自组织神经网络模型可以较好地模拟知识的拓扑结构、 知识的可扩展性以及知识学习中的自组织过程。GSOM的学习模式可以较好地模拟语言习得过程中的统计学习机制。 通过引入“循环性强化和复习训练”算法,模型实现了对交互学习机制的模拟。 本文提出的建模算法可以较好地模拟语言习得中知识获取的过程,并且该算法可以方便地扩展到面向其他语种及其他与语言习得有关的建模研究中。
[1] | Kuhl P K. Early language acquisition:Cracking the speech code[J]. Nature Reviews Neuroscience , 2004, 5 (11) : 831–843. DOI:10.1038/nrn1533 |
[2] | Kuhl P K. Brain mechanisms in early language acquisition[J]. Neuron , 2010, 67 (5) : 713–727. DOI:10.1016/j.neuron.2010.08.038 |
[3] | Kuhl P K. Early linguistic experience and phonetic perception:Implications for theories of developmental speech perception[J]. Journal of Phonetics , 1993, 21 (1) : 125–139. |
[4] | Maye J, Werker J F, Gerken L. Infant sensitivity to distributional information can affect phonetic discrimination[J]. Cognition , 2002, 82 (3) . |
[5] | Kohonen T. Self-organizing Maps[M]. Berlin: Springer, 2001 . |
[6] | Kohonen T. Essentials of the self-organizing map[J]. Neural Networks , 2013, 37 : 52–65. DOI:10.1016/j.neunet.2012.09.018 |
[7] | Kuhl P K. Human adults and human infants show a ‘perceptual magnet effect’ for the prototypes of speech categories, monkeys do not[J]. Perception & Psychophysics , 1991, 50 (2) : 93–107. |
[8] | Kuhl P K, Williams K A, Lacerda F, et al. Linguistic experience alters phonetic perception in infants by 6 months of age[J]. Science , 1992, 255 (5044) : 606–608. DOI:10.1126/science.1736364 |
[9] | Ritter H, Kohonen T. Self-organizing semantic maps[J]. Biological Cybernetics , 1989, 61 (4) : 241–254. DOI:10.1007/BF00203171 |
[10] | Kröger B J, Birkholz P, Kannampuzha J, et al. Learning to associate speech-like sensory and motor states during babbling[C]//Proceedings of the 7th International Seminar on Speech Production, Ubatuba-SP, Brazil, 2006:67-74. |
[11] | Kröger B J, Kannampuzha J, Neuschaefer-Rube C. Towards a neurocomputational model of speech production and perception[J]. Speech Communication , 2009, 51 (9) : 793–809. DOI:10.1016/j.specom.2008.08.002 |
[12] | Gauthier B, Shi R, Xu Y. Simulating the acquisition of lexical tones from continuous dynamic input[J]. Journal of the Acoustical Society of America , 2007, 121 (5) : EL190–EL195. |
[13] | Li P, Farkas I, MacWhinney B. Early lexical development in a self-organizing neural network[J]. Neural Networks , 2004, 17 (8) : 1345–1362. |
[14] | Li P, Zhao X, MacWhinney B. Dynamic self-organization and early lexical development in children[J]. Cognitive Science , 2007, 31 (4) : 581–612. DOI:10.1080/15326900701399905 |
[15] | LI Ping, ZHAO Xiaowei. Self-organizing map models of language acquisition[J]. Frontiers in Psychology , 2013, 4 : 828. |
[16] | French R M. Catastrophic forgetting in connectionist networks[J]. Trends in Cognitive Science , 1999, 3 (4) : 128–135. DOI:10.1016/S1364-6613(99)01294-2 |
[17] | Alahakoon D, Halgamuge S K, Srinivasan B. Dynamic self-organizing maps with controlled growth for knowledge discovery[J]. IEEE Transactions on Neural Networks , 2000, 11 (3) : 601–614. DOI:10.1109/72.846732 |
[18] | Matharage S, Alahakoon D. Growing self organising map based exploratory analysis of text data[J]. International Journal of Mathematical, Computational, Physical and Quantum Engineering , 2014, 8 (4) : 69–76. |
[19] | CAO Mengxue, LI Aijun, FANG Qiang, et al. Growing self-organizing map approach for semantic acquisition modeling[C]//Proceedings of the 4th IEEE International Conference on Cognitive Infocommunications, Budapest, Hungary, 2013:33-38. |
[20] | CAO Mengxue, LI Aijun, FANG Qiang, et al. Interconnected growing self-organizing maps for auditory and semantic acquisition modeling[J]. Frontiers in Psychology , 2014, 5 : 236. |
[21] | Kuhl P K. Human speech and birdsong:communication and the social brain[J]. Proceedings of the National Academy of Sciences of the United States of America , 2003, 100 (17) : 9645–9646. DOI:10.1073/pnas.1733998100 |
[22] | Tai W S, Hsu C C. A growing mixed self-organizing map[C]//Proceedings of the Sixth International Conference on Natural Computation (ICNC 2010), Yantai, China, 2010:986-990. |
[23] | Tai W S, Hsu C C. Growing self-organizing map with cross insert for mixed-type data clustering[J]. Applied Soft Computing , 2012, 12 (9) : 2856–2866. DOI:10.1016/j.asoc.2012.04.004 |
[24] | Eckers C, Kröger B J, Wolff M. Semantic, phonetic, and phonological knowledge in a neurocomputational model of speech acquisition[C]//Studientexte zur Sprachkommunikation:Elektronische Sprachsignalverarbeitung, Dresden, Germany, 2012:244-251. |
[25] | Doupe A J, Kuhl P K. Birdsong and human speech:common themes and mechanisms[J]. Annual Review of Neuroscience , 1999, 22 (1) : 567–631. DOI:10.1146/annurev.neuro.22.1.567 |
[26] | Kuhl P K, Coffey-Corina S, Padden D, et al. Links between social and linguistic processing of speech in preschool children with autism:Behavioral and electrophysiological measures[J]. Developmental Science , 2005, 8 (1) : F1–F12. DOI:10.1111/desc.2005.8.issue-1 |
[27] | Du K L. Clustering, a neural network approach[J]. Neural Networks , 2010, 23 (1) : 89–107. DOI:10.1016/j.neunet.2009.08.007 |