清华大学学报（自然科学版）

清华大学学报（自然科学版）

2016年, 第56卷, 第11期

上一期下一期

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

显示图片

电子工程

Select

基于自然语言处理的特定属性物体检测收藏

张旭, 王生进

清华大学学报（自然科学版）. 2016, 56 (11): 1137-1142. DOI: 10.16511/j.cnki.qhdxxb.2016.26.001

摘要 ( 0 ) HTML

PDF (3539KB)

该文研究如何在图片中定位特定属性物体（如“废弃的车”等）。由于一个物体可能包含几十甚至上百个非互斥的属性，训练特定属性物体检测器的难点是为大量的特定属性物体收集训练图片并标定边界框。该文提出使用特定属性物体分类器扩展物体检测器获取特定属性物体检测器的方法。其中的特定属性物体分类器通过使用从互联网上挖掘的图片以及从物体检测器和自然语言处理工具获取的标注信息训练得到。构建了特定属性物体检测数据库并对特定属性物体检测器的性能进行分析，结果表明：特定属性检测器的平均精度均值比物体检测器相对提高30%。

Figures and Tables | References | Related Articles | Metrics

Select

基于深度神经网络和Bottleneck特征的说话人识别系统收藏

田垚, 蔡猛, 何亮, 刘加

清华大学学报（自然科学版）. 2016, 56 (11): 1143-1148. DOI: 10.16511/j.cnki.qhdxxb.2016.26.002

摘要 ( 0 ) HTML

PDF (1083KB)

近来，一种结合语音识别中深度神经网络（deep neural network，DNN）模型和说话人识别中身份认证矢量（identity vector，i-vector）模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能，该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量，从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征，基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。

Figures and Tables | References | Related Articles | Metrics

Select

“发嗲”的情感语音基频特征分析收藏

孔江平, 林悠然

清华大学学报（自然科学版）. 2016, 56 (11): 1149-1153. DOI: 10.16511/j.cnki.qhdxxb.2016.26.003

摘要 ( 1 ) HTML

PDF (1129KB)

发嗲是一种特殊的情感语音。该文从情感类型的角度出发，认为发嗲并非简单的某种情绪或态度，而是一种情感上主动性强的言语模式。该文提取了发嗲在基频上的特征，发现其在基频上最显著的特征是基频提高，这种提高并非整体的同步提升，而是与调类、性别、元音等因素有关，并且伴随着基频曲线形状和基频范围的变化。该文通过语音合成和听辨实验来检验基频变化对发嗲的意义，实验表明基频的提高突出体现了发嗲在情感激发维上的主动性特征。基频提高是发嗲的关键因素，但不是唯一特征，也不是听辨的充分条件。

Figures and Tables | References | Related Articles | Metrics

Select

基于GSOM模型的音位范畴习得建模收藏

曹梦雪, 李爱军, 方强

清华大学学报（自然科学版）. 2016, 56 (11): 1154-1160. DOI: 10.16511/j.cnki.qhdxxb.2016.26.004

摘要 ( 0 ) HTML

PDF (1673KB)

为了探究神经网络模型在儿童语言习得模拟研究中的应用，该文在可扩展的自组织网络模型（growing self-organizing map，GSOM）算法的基础上，模拟了婴幼儿习得标准德语部分元音和辅音音位范畴的过程。该研究将优化的网络扩展策略和“循环性强化和复习训练”学习算法与传统的GSOM算法进行了结合。模拟结果显示：“循环性强化和复习训练”算法可以有效地提高模型网络的学习质量；模型算法可以较好地习得元音音位和辅音发音方式的范畴，并构建相应的知识网络。建模研究的结果表明：在习得语言的过程中，通过对语音声学信息的加工，婴幼儿有能力习得元音音位和辅音发音方式的范畴，并构建元音音位在声学空间内的分布关系。

Figures and Tables | References | Related Articles | Metrics

Select

藏语语者英语单元音发音可视化矫正收藏

冯卉, 宋瑞, 高晓东, 吴桐雨, 党建武

清华大学学报（自然科学版）. 2016, 56 (11): 1161-1165. DOI: 10.16511/j.cnki.qhdxxb.2016.26.005

摘要 ( 0 ) HTML

PDF (1477KB)

藏语语者英语语音学习的现状和需求迫使研究者尽快开发出适合其语音学习的有效工具。该文利用“藏族人说汉语普通话、英语、藏语”声学特征语料库（CETTS）中的相关声学参数，建立直观易懂的舌位图模型辅助藏语语者了解其英语单元音的产出特点。在此舌位模型基础上设计舌位自我纠正软件，并通过为学习者提供实时的语音反馈，辅助其有针对性地改善自身的英语发音现状，从而提高交流时的可理解性。该舌位模型和舌位自我纠正软件可以应用于日常教学之中，来提高英语语音教学的效率。

Figures and Tables | References | Related Articles | Metrics

Select

母语为粤语和英语的普通话学习者的话语基频偏误特征收藏

顾文涛

清华大学学报（自然科学版）. 2016, 56 (11): 1166-1172. DOI: 10.16511/j.cnki.qhdxxb.2016.26.006

摘要 ( 0 ) HTML

PDF (1554KB)

语音的自然度在很大程度上取决于韵律特征如声调、句调、轻重音等，而普通话、粤语与英语在这些特征上形成了鲜明对比。该文以普通话为研究对象，采用声学分析比较了普通话母语被试以及母语分别为标准粤语和美式英语的2组普通话二语被试的基频特征。通过一组句类、目标字调、焦点位置受控的语句，考察了每组被试的句调、声调、焦点重音的基频编码方式以及三者间的交互作用。研究发现，2组二语被试的偏误特征有同有异，很大程度上可归因于语言负迁移效应，这为汉语的二语语音韵律教学提供了启示。

Figures and Tables | References | Related Articles | Metrics

Select

一种改善言语清晰度的子带自适应降噪算法收藏

梁维谦, 郑方, 郑佳春, 朴志刚

清华大学学报（自然科学版）. 2016, 56 (11): 1173-1178. DOI: 10.16511/j.cnki.qhdxxb.2016.26.007

摘要 ( 0 ) HTML

PDF (1414KB)

助听器对声音进行压缩放大，需要高言语清晰度的降噪算法。该文提出了一种子带自适应噪声抑制方法，通过加权重叠相加滤波器组和基于心理声学模型的子带划分、基于先验和后验信噪比的快变的非线性降噪增益、基于噪声声压级估值的慢变的增益下限阈值、基于峰值跟踪的子带增益平滑及其跟踪和释放时间系数的精细选择等算法，明显提高了言语清晰度。主观测听实验表明：该方法对输入的不同信噪比的带噪语音的言语清晰度提高约12%~45%。在EZAIRO5900数字信号处理器上实现了此方法，通过对增益公式的量化处理使得整个算法的运行效率提高约30%。

Figures and Tables | References | Related Articles | Metrics

Select

基于特征迁移学习方法的跨库语音情感识别收藏

宋鹏, 郑文明, 赵力

清华大学学报（自然科学版）. 2016, 56 (11): 1179-1183. DOI: 10.16511/j.cnki.qhdxxb.2016.26.008

摘要 ( 1 ) HTML

PDF (1081KB)

在实际语音情感识别系统中，训练语音和测试语音往往来自不同的语料库，识别率下降显著。针对这一问题，该文提出一种有效的基于特征迁移学习的跨库语音情感识别方法。引入最大均值差异（maximum mean discrepancy，MMD）来描述不同数据库情感特征分布之间的相似度，并通过最大均值差异嵌入（maximum mean discrepancy embedding，MMDE）算法及特征降维算法来寻找二者之间的邻近低维特征空间，并在此低维空间中训练得到情感分类器用于情感识别。同时为了更好地保证情感信息的类别区分度，进一步引入半监督判别分析（semi-supervised discriminant analysis，SDA）方法用于特征降维。最后在2个经典语音情感数据库上对提出的方法进行实验评价，实验结果表明：提出的方法可以有效提高跨库条件下的语音情感识别率。

Figures and Tables | References | Related Articles | Metrics

Select

成年人声道参数与身高的相关性收藏

曹洪林, 孔江平

清华大学学报（自然科学版）. 2016, 56 (11): 1184-1189,1195. DOI: 10.16511/j.cnki.qhdxxb.2016.26.009

摘要 ( 2 ) HTML

PDF (1336KB)

为了评估成年人声道与身高的关系，该文采用声反射技术测量了19~30岁之间的109位男性和105位女性的声道形态数据，对声道的长度、体积和比例等8个声道参数与身高之间的相关性进行了研究。研究发现，成年人的声道参数存在显著的性别差异：男性的声道比女性的更长、更大；在咽腔和口腔的比例上，男性的咽腔相对更长、更大。声道与身高之间的关系存在一定的性别差异：男女被试的咽腔长度、咽腔体积、声道长度和声道体积等均与身高存在显著正相关；但整体上，女性声道参数与身高的相关程度高于男性，只有女性声道长度与身高的相关程度达到中度水平，其他均为低度水平。该结果对声纹鉴定领域中通过语音判断未知说话人的身高提供了一定的理论支持。

Figures and Tables | References | Related Articles | Metrics

Select

复杂噪声场景下的活动语音检测方法收藏

郭武, 马啸空

清华大学学报（自然科学版）. 2016, 56 (11): 1190-1195. DOI: 10.16511/j.cnki.qhdxxb.2016.26.010

摘要 ( 2 ) HTML

PDF (1031KB)

该文提出一种适用于各种复杂噪声场景下的鲁棒性活动语音检测方法。采用能量、主频率分量和短时谱熵3种声学参数形成三维特征，这3种参数在各种各样的噪声中表现出很强的互补性；在活动语音脉冲检测中，采用K均值聚类算法自适应地选择特征并且计算语音检测过程中所用到的阈值。在美国国家标准与技术研究院说话人评测2008和2012年任务上进行实验，结果表明：所提出的方法在各种不同噪声环境下均具有较好的性能，相比传统的非监督和有监督活动语音检测算法更加鲁棒高效。

Figures and Tables | References | Related Articles | Metrics

Select

焦点重音对普通话音段产出和声学特征的影响收藏

李英浩, 孔江平

清华大学学报（自然科学版）. 2016, 56 (11): 1196-1201. DOI: 10.16511/j.cnki.qhdxxb.2016.26.011

摘要 ( 0 ) HTML

PDF (1069KB)

为考察普通话焦点重音对窄焦点域内和域外音段的产出和声学特征的影响，使用动态电子腭位（EPG）获取/t/和/i/的舌腭接触信号，同时采集同步的声门阻抗（EGG）和声学信号。分析结果表明，在窄焦点域内，/t/的舌腭接触面积增大，生理持阻时长增长，持阻段声门状态相对紧张。/i/的舌体上升并前移，元音时长和声强增长或增大，元音频谱发生变化。焦点重音的溢出效应不明显。研究结果表明：焦点重音使得域内所有音段的发音动作均增强，但是域外音段的产出和声学特征一般不受影响。

Figures and Tables | References | Related Articles | Metrics

Select

普通话塞擦音的声学特性研究收藏

李善鹏, 顾文涛

清华大学学报（自然科学版）. 2016, 56 (11): 1202-1208. DOI: 10.16511/j.cnki.qhdxxb.2016.26.012

摘要 ( 3 ) HTML

PDF (1057KB)

该文考察了普通话6个塞擦音的声学参数与其语音特征之间的关系。通过Praat软件提取时长、振幅、频谱能量分布、后接元音第二共振峰（F2）起始频率等9个声学参数。通过方差分析，揭示了统计上分别区分3个发音部位、2个送气状态以及2个后接元音的声学参数；判别分析结果显示，9个声学参数的组合对6个塞擦音的辨别率为85.9%；主成分分析结果显示，前5个主成分可以表征塞擦音86.3%的信息。综合3种统计分析结果表明：摩擦段的频谱能量分布是普通话塞擦音最重要的一组声学参数，有些主要表征了发音部位，有些主要表征了送气状态；摩擦段的时长和振幅主要表征了送气状态及后接元音；后接元音的F2起始频率也会受到塞擦音发音部位的影响。

Figures and Tables | References | Related Articles | Metrics

水利水电工程

Select

块体加固土体大型直剪试验收藏

王腾, 张嘎

清华大学学报（自然科学版）. 2016, 56 (11): 1209-1212. DOI: 10.16511/j.cnki.qhdxxb.2016.26.013

摘要 ( 0 ) HTML

PDF (2524KB)

在土中通过灌浆等方式形成大块体是一种有潜力的新加固结构型式。该文进行了多组砾石、铝柱等模拟块体加固土的大型直剪试验。试验结果表明：直剪试验条件下块体发生滑移、翻转等运动，逐渐形成作用链。这显著提高了土的抗剪强度，引起土发生明显的剪胀。随着块体加固比的增大，土的抗剪强度随之增大，其变形特性由应变硬化和体积收缩逐渐发展为应变软化和体积膨胀。块体的形状对块体加固土的抗剪强度影响显著。

Figures and Tables | References | Related Articles | Metrics

核能与新能源工程

Select

单液滴运动相变模型收藏

赵富龙, 赵陈儒, 薄涵亮

清华大学学报（自然科学版）. 2016, 56 (11): 1213-1219. DOI: 10.16511/j.cnki.qhdxxb.2016.26.014

摘要 ( 2 ) HTML

PDF (1150KB)

在对汽水分离装置中液滴运动过程中的相变现象描述和物理机理解释的基础上，结合压力变化条件下静止单液滴相变模型的基础和液滴运动模型，建立了单液滴运动相变模型。该模型给出了液滴运动过程中，由于流动阻力和局部结构改变造成压力降低，打破汽液相平衡而造成液滴的快速蒸发和汽液相平衡蒸发2个阶段的机理解释和数学表述，与已有结果和理论分析结果均较符合。该模型可以用于液滴在重力分离空间、旋风和旋叶分离器、波纹板分离器等汽水分离装置中运动相变过程中的分离效率计算，衡量液滴相变对汽水分离性能的影响，指导分离装置结构的优化设计。

Figures and Tables | References | Related Articles | Metrics

计算机科学与技术

Select

基于DNN的发音偏误趋势检测收藏

张劲松, 高迎明, 解焱陆

清华大学学报（自然科学版）. 2016, 56 (11): 1220-1225. DOI: 10.16511/j.cnki.qhdxxb.2016.26.015

摘要 ( 1 ) HTML

PDF (1208KB)

正音反馈的计算机辅助对外汉语发音训练系统已有发音偏误趋势的标注体系和基于HMM的偏误趋势检测系统。为了进一步提高系统的性能，该文应用深度神经网络进行声学建模，比较Mel频率倒谱系数（Mel-frequency cepstral coefficient，MFCC）、感知线性预测分析系数（perceptual linear predictive analysis，PLP）和Mel滤波器组系数（Mel filter bank，FBank）3种声学特征参数，并利用网格联合技术整合3种声学特征所得的候选网格。实验结果表明：DNN-HMM模型比GMM-HMM实现了更高检测正确率。针对不同发音偏误趋势，3种声学特征有不同表现，联合系统取得最高性能，最终性能为：错误拒绝率5.5%，错误接受率35.6%，检测正确率88.6%。

Figures and Tables | References | Related Articles | Metrics

Select

一种兼顾负载均衡的Hadoop集群动态节能方法收藏

田文洪, 李国忠, 陈瑜, 黄超杰, 杨吴同

清华大学学报（自然科学版）. 2016, 56 (11): 1226-1231. DOI: 10.16511/j.cnki.qhdxxb.2016.26.016

摘要 ( 0 ) HTML

PDF (1321KB)

Hadoop集群广泛应用于企业和研究机构的大数据处理和并行计算中。该文针对Hadoop集群节点管理中缺少动态负载均衡和节能相互结合的调度技术的现状，提出一种动态负反馈调整算法，并设计和实现了一个用于Hadoop平台节点动态管理的系统。通过大量Hadoop经典测试用例测试，结果表明：该算法能够有效提高负载均衡并通过减少节点的空闲时间以有效地节能，与未使用本算法的结果相比，节点平均空闲休眠时间增加25%，节能14%。同时通过与其他算法相比，节点间均衡度有一定程度提升，平均负载方差减少10%。

Figures and Tables | References | Related Articles | Metrics

Select

云环境下基于冷点虚拟机迁移的热点消除方法收藏

郭军, 闫永明, 马安香, 张斌

清华大学学报（自然科学版）. 2016, 56 (11): 1232-1236. DOI: 10.16511/j.cnki.qhdxxb.2016.26.017

摘要 ( 0 ) HTML

PDF (1442KB)

初始分配的虚拟机资源常常不能满足运行时服务的性能要求，导致资源利用率过高、响应时间过长等“热点”问题。为了消除热点以保障服务性能，传统方法主要包括资源扩展和虚拟机动态迁移，但还存在预留资源空间不足和虚拟机迁移代价过大等问题。针对上述问题，该文提出一种基于冷点虚拟机迁移的热点消除方法，即以冷点虚拟机为迁移对象，将其释放的资源分配给热点虚拟机，以保持热点服务的性能、降低热点消除代价，从而更好地满足服务等级协议约束，并通过实验证明该方法可行有效。

Figures and Tables | References | Related Articles | Metrics

Select

基于脸部骨骼位置信息的唇凸度计算方法收藏

潘晓声, 张梦翰, Liew Wee Chung

清华大学学报（自然科学版）. 2016, 56 (11): 1237-1241. DOI: 10.16511/j.cnki.qhdxxb.2016.26.018

摘要 ( 0 ) HTML

PDF (2594KB)

该文主要讨论了唇凸度的定义和提取方法。根据上、下唇的运动规律不同，该文把上唇和下唇凸度分别定义为上唇或下唇外沿到上或下门齿的Euclid距离。使用运动捕获器获取发音过程中脸部标志点运动的三维坐标信息，运用奇异值分解法消除头部刚体运动和下颌的开口运动，利用置于脸部骨骼的参考点分别推算出上下门齿的空间位置，使用上唇和下唇外沿的坐标位置计算上唇或下唇凸度。结果表明：该计算方法不但在三维唇形数据上测试效果良好，同时也适用于二维唇形数据。

Figures and Tables | References | Related Articles | Metrics

Select

声道中气动声学问题的光滑粒子动力学模拟收藏

魏建国, 韩江, 侯庆志, 王颂, 党建武

清华大学学报（自然科学版）. 2016, 56 (11): 1242-1248. DOI: 10.16511/j.cnki.qhdxxb.2016.26.019

摘要 ( 0 ) HTML

PDF (1455KB)

在人体发音过程仿真中，考虑声道边界的动态变化以及气流的流动，可以更加准确、真实地模拟声波在声道中的传播。在处理带有移动边界的气动声学问题时，相比传统声道声学研究中广泛应用的网格方法，无网格方法可以避免网格重构、网格畸变等。基于Euler体系下的气动声学波动方程，推导了Lagrange体系下声波传播的控制方程，并建立了无网格光滑粒子动力学（smoothed particle hydrodynamics，SPH）方法的数值离散格式。通过对比静止流体中声传播问题的SPH解和时域有限差分（finite difference time domain，FDTD）解，验证了SPH方法在声学计算中的准确性和可靠性。对于一维和二维流动流体中的声传播问题，通过与基于Doppler效应的理论解对比，阐明了利用SPH方法求解复杂气动声学问题的可行性。

Figures and Tables | References | Related Articles | Metrics