基于Kinect辅助的机器人带噪语音识别

引用本文

王建荣, 高永春, 张句, 魏建国, 党建武. 基于Kinect辅助的机器人带噪语音识别[J]. 清华大学学报(自然科学版), 2017, 57(9): 921-925. 复制到剪切板

WANG Jianrong, GAO Yongchun, ZHANG Ju, WEI Jianguo, DANG Jianwu. Automatic speech recognition by a Kinect sensor for a robot under ego noises[J]. Journal of Tsinghua University (Science and Technology), 2017, 57(9): 921-925. 复制到剪切板

基于Kinect辅助的机器人带噪语音识别

王建荣 ¹ , 高永春 ¹ , 张句 ¹ , 魏建国 ² , 党建武 ¹

1. 天津大学计算机科学与技术学院, 天津 300350;
2. 天津大学软件学院, 天津 300350

收稿日期：2016-06-27

基金项目：国家自然科学基金资助项目（61471259，61233009）；天津市自然科学基金资助项目（16JCZDJC35400）

作者简介：王建荣(1976-), 男, 副教授

通信作者：魏建国, 教授, E-mail:jianguo@tju.edu.cn

摘要：音视频信息融合可以提升机器人在噪声环境下的语音识别性能。然而受说话者的头部旋转、唇部尺寸不一、距摄像头距离不固定以及光照等因素影响，唇部信息不能得到有效的全面表征。该文提出融合机器人与Kinect的多模态系统。该系统采用Kinect获取3-D数据和视觉信息，并使用3-D数据重构侧唇来补充音视频信息。一系列基于特征融合和决策融合方法的结果表明：该文提出的多模态系统优于基于音视频单流和双流的语音识别系统，能够辅助机器人在自身噪声环境下的语音识别。

关键词：仿人机器人自身噪声自动语音识别 Kinect 多模态系统

Automatic speech recognition by a Kinect sensor for a robot under ego noises

WANG Jianrong¹, GAO Yongchun¹, ZHANG Ju¹, WEI Jianguo², DANG Jianwu¹

1. School of Computer Science and Technology, Tianjin University, Tianjin 300350, China;
2. School of Computer Software, Tianjin University, Tianjin 300350, China

Abstract: Audio-visual integration can effectively improve automatic speech recognition for robots under ego noises. However, head rotations lips movement differences, camera-subject distance and lighting variations degrade the automatic speech recognition (ASR) accuracy. This paper describes robot with a Kinect sensor in a multi-modal system. The Kinect provides 3-D data and visual information. The lip profiles are rebuilt using the 3-D data to get more accurate information from the video. Different fusion methods were investigated to incorporate the available multimodal information. Tests under ego noises of the robot demonstrate that the multi-modal system is superior to traditional automatic audio and audio-visual speech recognition with improved speech recognition robustness.

Key words: humanoid robot ego noises automatic speech recognition Kinect multi-sensor multi-modal system

随着人机交互技术的发展，机器人被期望能拥有像人类一样的感知能力并能与人类合作共事^[1]。为实现这一目标，一些研究者使用机器人的“耳朵”(麦克风)来理解说话者语音信息^[2-3]。然而运动状态下的机器人不可避免地产生噪音，这些噪音被称为自身噪声，主要由机器人的电动风扇和马达产生。与环境噪声不同，自身噪声更接近麦克风，相比目标声源更易被获取，同时其非平稳性和多变性等因素均大幅度降低了运动状态下机器人语音识别的鲁棒性^[4-5]。通常有2种方法来提升机器人自身噪声下的语音识别效果：建立主动听觉感知系统和建立音视频双模态语音识别系统。

在机器人听觉领域，基于麦克风阵列的多通道降噪方法通过衰减干扰声源具有较好的效果^[6-8]，该方法比较适用于声源定向的噪声，而机器人噪声是非定向的。与多通道方法互补的是基于谱减法、Wiener滤波或最小均方误差估计的单通道语音增强算法^[9-11]，其中基于信噪比的最小约束递归平均算法是机器人听觉最常用的噪声估计方法之一，但它受信噪比值影响并要求噪声稳定^[9]。

与音频信息不同，视觉信息不受自身噪声影响，而且机器人的“眼睛”(摄像头)和“耳朵”(麦克风)均可接收人类信息，因此基于视觉信息在语音识别中的贡献^[12-14]，音视频双模态语音识别在机器人应用领域得到广泛关注。Koiwa等^[15]提出了2种视听语音解码方法：利用可靠特征的丢失特征理论方法和通过动态改变识别单元由粗到细的识别方法。Yoshida等^[16-17]提出使用双层音视频融合的系统，该系统将音视频融合应用到音频和视频特征明显时的音频端点检测和语音解码。Liu等^[18]提出一种可适用于不同噪声环境下的基于自适应决策融合的音视频关键字检测方法。然而以上方法所使用的视觉信息存在光照不同和说话者嘴唇尺寸不一等问题，唇部特征提取以及语音识别效果受到影响。

本文通过多种方法，建立了融合Kinect和机器人的多模态语音识别系统。该系统使用Kinect捕获3-D唇部信息和视觉信息，并使用3-D数据重构说话者左右侧唇，该特征既避免了局限于视觉信息的问题，又补充了唇部视觉信息。一系列实验结果验证了Kinect对提升机器人自身噪声下语音识别效果的辅助作用。

1 数据获取

本文采集了包含3-D数据、音频信息和视频信息的多模态普通话数据库，其中Kinect用于采集3-D数据和视频信息，能够实时有效地进行脸部跟踪。

Kinect自带的RGB彩色摄像头，支持640×480分辨率成像，频率为30 Hz。同时，本文通过Kinect for Windows SDK(software development kit)实时分析并获取在人脸模型上定义的121个3-D点，其中18个点代表唇部，每个点分配有相对应的ID号。

音频信息由仿人机器人自带的包含4个麦克风的麦克风阵列获取，音频格式为44.1 kHz，16 b脉冲编码调制。

2 系统概况

图 1是融合了机器人和Kinect的多模态系统，包括采用3-D投影法定位唇区，使用3-D数据重构侧唇，提取彩色图像和侧唇深度图像特征和多种融合策略。

图 1 融合Kinect和机器人的多模态系统

图选项

2.1 唇区定位

Kinect利用成像原理将说话者投影到成像平面，其自带的SDK在Kinect坐标系中生成3-D数据。在相机坐标系中，原点位于摄像机的光学中心，Z轴指向说话者，其值代表深度信息，Y轴朝上，X轴指向左边(右手坐标系)，单位为m^[19]。

根据Kinect自带SDK的坐标转换原理，每个3-D坐标数据(x, y, z)可采用以下公式转换投影到彩色图像上：

$ \begin{align} &{{P}_{\text{image}}}\left( x \right)=320+\frac{320mx}{{{z}^{2}}\text{tan}(28.5{}^\circ )}, \\ &{{P}_{\text{image}}}\left( y \right)=240-\frac{240my}{{{z}^{2}}\text{tan}(21.5{}^\circ )}. \\ \end{align} $

其中：m表示Kinect与成像平面间的距离，z表示摄像机与说话者距离。

本文通过Kinect获取的3-D数据定位说话者唇区，并将唇区保存为32×32像素图像。

2.2 3-D坐标重构侧唇

由于左唇部和右唇部包含信息不同，本文将重构左侧唇和右侧唇来补充正面唇部信息。以重构右侧唇为例，此过程需要4个步骤(见图 2)：1) 根据代表右唇部的11个点绘制右唇部轮廓；2) 根据Z轴与X轴、Y轴的对应关系，将唇部轮廓插值为栅格图，该栅格图代表空间位置和像素网格的点阵数据结构；3) 填充栅格图颜色，距离说话者越近，图像像素越深；4) 以上得到的是由正面角度所观察的右唇部，最后通过投影和旋转得到右侧唇图，即从说话者右侧观察的唇区，并将该侧唇保存为BMP格式的图像。

图 2 基于3-D数据重构右侧唇过程

图选项

2.3 特征提取

得到唇区灰度图和重构侧唇图像之后，需要将这些图像信息转换为能充分代表图像信息的特征向量。本文在相关研究工作基础上^{[12, 20]}，采用以下步骤提取特征。

步骤1 采用离散余弦变换(discrete cosine transform，DCT)和主成分分析(principal component analysis，PCA)结合的方法将图像信息转换为特征向量。DCT将原始图像转换为代表不同频率分量的系数集，PCA选择对分类最重要的特征并实现降维^[13]。本文使用训练数据集获取平均值M_i和PCA转换矩阵M_pca，对于每个测试数据I，都可表示如下：

$ I={{\mathit{\boldsymbol{M}}}_{\rm{pca}}}{{I}_{\rm{pca}}}+{{M}_{i}}, $

则使用PCA提取的数据像素特征为

$ {{I}_{\rm{pca}}}=\mathit{\boldsymbol{M}}_{\rm{pca}}^{-1}(I-{{M}_{i}}). $

步骤2 由于音频帧率为100 Hz，而视觉信息和3-D特征的帧速率是30 Hz，采用线性插值法处理视觉信息和3-D特征，以此来匹配音频速率。

步骤3 为提高特征鲁棒性，对特征进行归一化操作，与传统声学语音信号中的倒谱均归一化类似，以单词为单位，逐帧减去特征均值。

步骤4 与声学语音信号中的加窗分帧类似，使用一个长度为J，步长为H的观测窗口，将窗口内连续的J帧特征拼接起来，得到唇部动态特征。

步骤5 由于使用该方法后特征向量长度增加，需要再次使用PCA来避免维度灾难。

本文采用MFCCs作为音频特征，使用了一个长度为30 ms、步长为20 ms的窗来提取一阶系数和二阶系数，最终音频特征为78维。

2.4 多流信息融合

多流信息融合是决定识别性能的重要因素之一，而且各个流受噪音环境影响。通常有两类融合方法：特征融合(feature fusion，FF)和决策融合(decision fusion，DF)。

特征融合方法将时间同步的各个流的特征进行直接连接，或者再对连接后的特征进行某种适当降维变换^[12]。假定t时刻同步的音频A、视频V和3-D特征向量为O_s^(t)，维度为D_s^(t)，其中s为A、V或3-D。特征融合后的特征是这3个流各自特征的串联，记为

$ {{\mathit{\boldsymbol{O}}}^{(t)}}={{\left[O_{\rm{A}}^{{{(t)}^{\rm{T}}}}, O_{\rm{V}}^{{{(t)}^{\rm{T}}}}, O_{\rm{3-D}}^{{{(t)}^{\rm{T}}}}\right]}^{\rm{T}}}. $

维度是这3个流各自维度之和，记为

$ {{D}^{(t)}}=D_{\text{A}}^{(t)}+D_{\text{V}}^{(t)}+D_{3-\text{D}}^{(t)}. $

$ \mathit{\boldsymbol{O}}=\left[{{O}^{(1)}}, {{O}^{(2)}}, \ldots, {{O}^{\left( \mathit{T} \right)}} \right] $(T为一个单词所占发音时间), 然后将这些融合后的特征，通过单流隐Markov模型(hidden Markov model，HMM)进行建模。相比于特征融合，决策融合中的各个流是彼此独立的，通过整合各个流的分类器得到最终结果。

表 1列出了本文基于特征融合和决策融合所使用的所有单流及多流融合方法。

表 1 本文采用的融合方法

类别	方法
特征融合	音频+3-D 音频+视频音频+视频+3-D
决策融合	音频+3-D 音频+视频音频+视频+3-D

表选项

3 实验条件与结果 3.1 实验条件

本文系统将重构侧唇作为一种辅助的言语信息模态，与传统的音视频双模态信息相融合，并采用多种融合方法进行实验对比，以此来验证重构侧唇对语音识别鲁棒性的贡献。

实验数据库在静音室采集。说话者与Kinect平均距离为0.9 m，包含10个说话者(5男5女)。该数据库采用了40个音素平衡的普通话词语，每人每词录制20遍，将数据随机分成2/3、1/3分别用来训练和识别。以NAO机器人为实验平台，提前录制了6种最具代表性的姿势噪声。噪声1是机器人在无运动状态下的风扇噪声，噪声2—4是机器人在转动右胳膊、左胳膊、脖子、打招呼和擦额头等不同运动状态下，由电动机和风扇所产生的噪声。

为评估该系统在不同噪声环境下的鲁棒性，实验使用融合纯净语音的单流和多流特征训练模型，并人为地按不同信噪比(-5、-3、0、3和5 dB)向纯净语音中添加机器人噪声，使用融合带噪语音的数据进行测试工作。采用HMM进行模型统计。

3.2 实验结果

重构的右侧唇和左侧唇的语音识别率分别为23.98%和24.08%，左右侧唇融合后的语音识别率为28.4%。图 3给出了基于视频单流与视觉信息融合3-D特征的对比结果，其中3-D特征为左右侧唇融合后特征。

图 3 视频单流和融合视频与3-D特征双流特征融合的语音识别结果

图选项

本文对比了多种融合方法下的语音识别效果。表 2列出了决策融合方法中不同信噪比下各个流所采用的权值。

表 2 不同信噪比下各个流的最优权值

信噪比	权值
信噪比	带噪语音	视觉特征	3-D特征
> 0	0.8	1.8	0.4
< 0	0.7	2.0	0.3

表选项

图 4和5是基于音频单流、音视频双流、音频3-D双流和音视频融合3-D特征多流的实验对比结果，其中图 4基于特征融合方法，图 5基于决策融合方法。每个识别结果为

$ R=\frac{{{R}_{i}}}{N}. $

图 4 基于特征融合的识别结果

图选项

图 5 基于决策融合的识别结果

图选项

其中：R_i为在机器人第i种噪声下的识别结果，N为机器人总的噪音种数，本文中N为6。此外，这里采用的3-D特征是左右侧唇融合后的特征。

图 6给出了特征融合和决策融合下，单流与多流特征在不同信噪比下的识别结果，对比特征融合和决策融合的识别效果。

图 6 基于特征融合和决策融合的识别结果

图选项

4 讨论 4.1 3-D信息对视觉信息的辅助作用

融合左右侧唇后，识别结果相比于只使用单个侧唇的语音识别率有所提升，使用左侧唇的语音识别率略高于使用右侧唇的识别率。这些结果验证了左侧唇与右侧唇包含相当的言语信息，而且左侧唇与右侧唇具有协同作用。从图 3可以看出融合3-D特征和视觉信息比只使用单一视觉信息具有更好的识别结果，表明3-D信息不存在局限于视频信息中的问题，对提升基于视频信息单流的语音识别鲁棒性有很好的辅助作用，而且侧唇信息能够补充正面唇部的言语信息。

4.2 多流特征的语音识别效果

从图 4的结果可以看出，基于音频单流的识别率随着噪声的增大越来越低，而音视频融合3-D信息的多流信息的识别率优于单流和双流信息。这些结果验证了机器人的自身噪声很大程度上降低了语音识别鲁棒性；视觉信息受唇部及光照能因素的影响，使得音视频双流的识别率不如3-D融合音视频多流；而3-D信息不受音频中的噪声和视觉信息中的问题影响，使得3-D信息能够辅助音频和视频流的语音识别。比较图 4和5，可以观察到随着信噪比的降低，图 4的识别结果下降趋势明显高于图 5，而从图 6可以看出，无论是双流信息融合还是多流信息融合，决策融合的实验结果均优于特征融合的结果。这些结果验证了决策融合通过调整各个流的比例权重，充分考虑各个信息流的信赖程度，实现各信息流之间的最佳协同作用。

5 结论

本文提出了一个多模态系统，该系统融合机器人获取的音频信息和Kinect捕获的3-D数据与视觉信息，提高了机器人运动状态下对自身噪声的语音识别鲁棒性。该系统基于3-D数据重构了左侧唇和右侧唇，并将重构的侧唇作为一种辅助言语信息与其他数据流融合。结果表明：该系统的语音识别结果优于音频单流和音视频双流，而且基于决策融合方法的结果优于特征融合方法。同时说明Kinect具有辅助说话者与机器人在一定距离下的带噪语音识别的可能。基于这种可能，下一步将探索在说话者与机器人不同距离情况下，Kinect获取的数据对机器人带噪语音识别的辅助作用。

参考文献

[1]	Breazeal C L. Designing Sociable Robots[M]. Massachusetts: MIT Press, 2004.
[2]	Yamamoto S, Nakadai K, Tsujino H, et al. Assessment of general applicability of robot audition system by recognizing three simultaneous speeches[C]//2004 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ, USA:IEEE Press, 2004:2111-2116.
[3]	Luo Z, Zhao J. Speech recognition and its application in voice-based robot control system[C]//2004 International Conference on Intelligent Mechatronics and Automation. Piscataway, NJ, USA:IEEE Press, 2004:960-963.
[4]	Ince G, Nakadai K, Rodemann T, et al. Ego noise suppression of a robot using template subtraction[C]//2009 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ, USA:IEEE Press, 2009:199-204.
[5]	Ince G, Nakadai K, Rodemann T, et al. Assessment of single-channel ego noise estimation methods[J]. IEEE/RSJ International Conference on Intelligent Robots & Systems, 2011, 32(14): 106–111.
[6]	Brandstein M, Ward D. Microphone Arrays:Signal Processing Techniques and Applications[M]. Berlin: Springer Science & Business Media, 2001.
[7]	Valin J M, Rouat J, Michaud F. Enhanced robot audition based on microphone array source separation with post-filter[C]//2004 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ, USA:IEEE Press, 2004:2123-2128.
[8]	Yamamoto S, Nakadai K, Nakano M, et al. Real-time robot audition system that recognizes simultaneous speech in the real world[C]//2006 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ, USA:IEEE Press, 2006:5333-5338.
[9]	Cohen I, Berdugo B. Speech enhancement for non-stationary noise environments[J]. Signal Processing, 2001, 81(11): 2403–2418. DOI:10.1016/S0165-1684(01)00128-1
[10]	Cohen I, Berdugo B. Noise estimation by minima controlled recursive averaging for robust speech enhancement[J]. Signal Processing Letters, IEEE, 2002, 9(1): 12–15. DOI:10.1109/97.988717
[11]	Wang J, Zhang J, Wei J, et al. Automatic speech recognition under robot ego noises[C]//20149th International Symposium on Chinese Spoken Language. Piscataway, NJ, USA:IEEE Press, 2014:377.
[12]	Neti C, Potamianos G, Luettin J, et al. Audio Visual Speech Recognition[R]. Martigny:IDIAP, 2000. https://en.wikipedia.org/wiki/Audio-visual_speech_recognition
[13]	Potamianos G, Graf H P, Cosatto E. An image transform approach for HMM based automatic lipreading[C]//1998 International Conference on Image Processing. Piscataway, NJ, USA:IEEE Press, 1998:173-177.
[14]	Shin J, Lee J, Kim D. Real-time lip reading system for isolated Korean word recognition[J]. Pattern Recognition, 2011, 44(3): 559–571. DOI:10.1016/j.patcog.2010.09.011
[15]	Koiwa T, Nakadai K, Imura J. Coarse speech recognition by audio-visual integration based on missing feature theory[C]//2007 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ, USA:IEEE Press, 2007:1751-1756.
[16]	Yoshida T, Nakadai K, Okuno H G. Automatic speech recognition improved by two-layered audio-visual integration for robot audition[C]//20099th IEEE-RAS International Conference on Humanoid Robots. Piscataway, NJ, USA:IEEE Press, 2009:604-609.
[17]	Yoshida T, Nakadai K, Okuno H G. Two-layered audio-visual speech recognition for robots in noisy environments[C]//2010 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ, USA:IEEE Press, 2010:988-993.
[18]	Liu H, Fan T, Wu P. Audio-visual keyword spotting based on adaptive decision fusion under noisy conditions for human-robot interaction[C]//2014 IEEE International Conference on Robotics and Automation (ICRA). Piscataway, NJ, USA:IEEE Press, 2014:6644-6651.
[19]	Webb J, Ashley J. Beginning Kinect Programming with the Microsoft Kinect SDK[M]. Berkeley: Apress, 2012.
[20]	Hong X, Yao H, Wan Y, et al. A PCA based visual DCT feature extraction method for lip-reading[C]//2006 International Conference on Intelligent Information Hiding and Multimedia. Los Alamitors, CA, USA:IEEE Computer Society, 2006:321-326.

文章信息

工作空间