2. 天津大学 智能与计算学部,天津 300350;
3. 深圳康宁医院坪山院区 脑调控与精神康复研究室,深圳 518118
2. College of Intelligence and Computing, Tianjin University, Tianjin 300350, China;
3. Brain Modulation and Mental Health Rehabilitation Center, Pingshan Campus, Shenzhen Kangning Hospital, Shenzhen 518118, China
抑郁症已成为全球第4大常见疾病和首要的心理健康障碍,全球影响超过3.5亿人[1]。据估计,全球每年新增的抑郁症患者中,约5%为成年人,而青少年群体的发病率最高。目前,青少年抑郁症病例急剧增加,发病率超过30%[2-3]。因此,针对青少年群体的抑郁症大范围筛查已成为迫切需求。然而,目前的抑郁症筛查方法大多基于主观评估和量表,青少年可能因为羞耻感而隐藏症状,导致现有筛查方法无法快速准确地进行评估。因此,迫切需要一种客观和易获取的生物标志物来筛查青少年抑郁症患者。
人类的声音是情感数据的重要来源,能够通过改变特定特征表达不同的情感状态。早期研究表明,轻微的生理或心理变化可导致声音特征的显著变化[4]。因此,情感语音可作为探索和诊断抑郁症的手段[5-6]。抑郁症患者会表现出语速减慢、停顿次数增加、停顿时间延长和声音特征变化减小等特征性声音模式[7]。
抑郁症的发病受神经系统失调的影响[8],特别是神经元活动和神经递质系统(尤其是单胺类)的失衡,会导致大脑感知编码系统的误判[9]。这种失衡使大脑需要更多的代谢能量来管理压力,从而引发抑郁症的典型功能障碍和下丘脑-垂体-肾上腺(hypothalamic-pituitary-adrenal,HPA)轴的下调,这种调控失常通常表现为兴趣减退、注意力不集中、心悸和疲劳等症状[9]。
自主神经系统(autonomic nervous system,ANS)功能障碍是该过程的核心,它在这一调节环路的输入和输出阶段均扮演着关键角色。ANS由交感神经系统和副交感神经系统组成,可迅速适应内外刺激[10]。已有研究发现,抑郁症患者的交感神经系统会过度激活,并表现为心率变异性指标降低[11]。在语音数据中,同样可精准捕捉ANS针对这些变化所做的动态调节,这一发现凸显了研究情感表达在语音中的表现与抑郁症患者神经递质系统变化之间关系的必要性,理解此关系是本文的主要目标之一,本文旨在揭示抑郁症发生和发展过程中,生理系统调控失常与情感表达之间的复杂相互作用。此外,在以往抑郁症研究中,对单一ANS指标的过度依赖常常导致研究结果不明确[12],主要原因在于缺乏专门且全面的多模态生理数据库,这种局限严重阻碍了研究人员对ANS的全面评估,特别是对交感神经系统与副交感神经系统之间复杂平衡关系的评估。
在抑郁症发病逐渐青少年化的背景下,这一困难又被放大。获取覆盖全年龄段的生理数据至关重要,但又困难重重,凸显了对疾病深入理解的必要性。而现有的多模态精神障碍分析数据集(multi-modal open dataset for mental-disorder analysis,MODMA)[13-15]主要针对成年人群体,生理数据的采集范围也相对有限,因此更凸显了在抑郁症研究领域迫切需要构建一个更全面的数据库,以详细记录并分析与抑郁症相关的自主神经回路的复杂交互作用。此外,已有研究充分认识到语音交互在激发情感反应中的核心作用[16-19],这为深入探讨情感语音表达与抑郁症中神经递质系统变化之间的关系提供了理论基础和实证支持。本文致力于构建一个针对抑郁症的多模态生理信号数据库,以获取青少年抑郁症患者的情感表达特征。本文遵循认知心理学原理,精心设计情感诱发场景,同步采集语音信号、心电图(electrocardiogram,ECG)和血压等生理指标数据,以此映射ANS的即时反应模式。本文旨在深化人们对ANS在抑郁症发病机制中作用的理解,通过此项研究,可提高抑郁症的诊断精准度和治疗有效性,并为揭示抑郁障碍的生理学基础提供参考。
本文详细描述了针对抑郁症的多模态生理信号数据库的构建框架,并应用两因素重复测量方差分析和广义估计方程(generalized estimating equations,GEE)技术深入分析了抑郁症群体与对照组在语音和心电数据方面的差异。另外,通过Spearman相关分析研究了不同生理模态之间的相互关系。本文通过对生理维度的探索,提高了抑郁症诊断的精准性,深化了对病理机制的理解,研究结果可为实现精准诊断和治疗抑郁症提供参考。
1 数据收集 1.1 被试招募当前样本集的人口统计特征和各相关心理评估量表评分如表 1所示。
| 人口特征及相关量表 | 抑郁症患者 | 对照组 |
| 平均年龄 | 15.50(1.67) | 18.53(0.90) |
| 人数(男/女) | 36/10 | 24/16 |
| Hamilton抑郁量表 (HAMD-24) |
22.97(10.24) | — |
| 抑郁症筛查量表(PHQ-9) | 15.79(5.16) | 3.15(2.42) |
| 世界卫生组织精神残疾评定量表(WHO-DAS 2.0) | 28.68(9.102) | 15.53(2.91) |
| 焦虑自评量表(SAS) | — | 39.31(5.32) |
| 注:表中括号内数据为标准差;因HAMD-24量表需进行临床医生他评,故对照组未进行测评;抑郁症患者未做SAS量表自评。 | ||
1.2 数据采集方案
本文根据认知心理学原理,采用Trier社会压力测试范式,通过诱发性情境对话互动技术,引导被试从心理放松状态转变至应激状态,并在此情绪波动过程中同步采集多模态生理信号数据。本文设计了2项任务:1) 文本朗读(text reading, TR)任务,要求被试依次朗读3段情感倾向各异的文本材料,分别选自《卖火柴的小女孩》以表达消极情绪、《铅笔的历史》以表达复杂情绪和《美丽的小兴安岭》以表达积极情绪;2) 图片描述(picture description, PD)任务,被试需口头描述3张分别代表消极情绪、复杂情绪和积极清晰的图像,图像示例如图 1所示。为确保数据收集的随机性和客观性,随机化处理文本和图像的呈现顺序,以真实捕捉被试的情绪反应和心理状态。
|
| 图 1 PD任务内容示例 |
各项任务正式实施前,被试需经历一轮无数据采集的适应性训练。在不同任务之间,被试有3 min的间歇休息期,以恢复精力;在同一任务的不同材料组合之间,则安排1 min的短暂休息,以缓解可能产生的心理压力。在语音数据采集过程中,要求被试用标准普通话自然表达。试验主试采用本文研究团队自行研发的软件工具操控录音的开始和结束,旨在优化自然语音数据的采集效率,同时减轻被试的身心负担,并确保被试在整个试验过程中保持注意力高度集中。
1.3 数据采集设备本文在深圳康宁医院坪山院区的脑调控与精神康复研究室和中国科学院深圳先进技术研究院设立的专用视听数据采集室内进行数据采集,确保环境静谧和抗干扰。在数据采集操作中,采用多种高精度设备获取被试的音频及生理指标数据。音频数据通过置于衣领正中位置的专业级麦克风(BY-WM4 PRO)采集,采样频率为16 000 Hz,音频通道为单声道,量化位数为16。心电图(electrocardiogram,ECG)信号则采用便携式动态心电记录仪(乐普医疗ER1型)进行采集,采样频率为125 Hz。生物阻抗频谱分析采用JR-BIS-01型生物阻抗频谱仪(试制产品),该设备能在1 s内完成10 000次测量,通过19个伪对数分布的频率点(频率范围2 000~997 000 Hz)执行多频率同步扫描。血压测量则采用Finometer Model 1型无创血压测量仪,采样频率高达200 Hz,可无创且精确测量血压。试验过程中被试正对电脑屏幕端坐,如图 2所示,试验全程由经验丰富的专业人员指导和陪同。
|
| 图 2 数据采集设备及环境 |
1.4 数据校准
为保障实验设备时间同步,所有实验设备在数据采集启动前均经过严格的时间校准,并依据各项任务的时间戳记细分生理数据文件。此流程可确保记录的生理反应数据与各项具体任务精确对应,为精确解析被试在面对不同试验条件时的生理和心理反应提供保障,进而促进试验数据的精确分析和科学解释。
1.5 语音转录语音数据通过Praat语音分析软件的TextGrid功能进行细致的逐句转录,以精确界定语音的起始与终止点。语音边界划分困难时,遵循以下规则:1) 若沉默时间不超过20 ms,则边界可适度扩展至沉默区域;2) 边界应完整覆盖整个发声阶段。对于特殊发音现象及文本内容,未明确识别的语段标记为[U],句中停顿标记为[SP]。此方法可确保语音数据转录准确和标准化,也可为后续的语音学分析和心理声学研究提供参考。
2 数据库本文构建的多模态生理信号数据库汇集了被试的多模态生理和行为数据,涵盖音频(audio)记录、ECG、血压(blood pressure,BP)测量和生物阻抗光谱(bioimpedance spectroscopy,BIS)分析等。在数据收集过程中,部分数据因质量问题而未能收集完整。为深入理解数据特征,各项生理模态和各任务中语音样本的描述性数据统计分别如表 2和3所示。本文研究结果为后续数据质量控制和分析工作奠定了基础。
| h | |||||||||||||||||||||||||||||
| 任务 | 患者 | 对照组 | 总计 | ||||||||||||||||||||||||||
| 男 | 女 | 男 | 女 | ||||||||||||||||||||||||||
| 基线 | 1.90 | 0.50 | 1.20 | 0.80 | 4.40 | ||||||||||||||||||||||||
| TR | 2.60 | 0.69 | 1.83 | 1.15 | 6.27 | ||||||||||||||||||||||||
| PD | 1.85 | 0.48 | 1.89 | 1.29 | 5.51 | ||||||||||||||||||||||||
| 总计 | 6.35 | 1.67 | 4.92 | 3.24 | 16.18 | ||||||||||||||||||||||||
3 数据库多维度分析
对于本文构建的多模态生理信号数据库,前期已进行了言语模式和心率变异性(heart rate variability,HRV)分析,旨在初步验证设计的任务能否明显诱发抑郁症患者与对照组的情绪差异。
此项探索性分析致力于揭示2组人群在ANS响应及声音表达上的显著差异,并研究ANS活动与言语特征之间的潜在相互关系。此项基础性研究工作可为进一步挖掘抑郁症患者生理与情感反应之间的复杂相互作用提供参考。
3.1 特征提取本文采用Owren[20]研发的GSU Praat工具集提取语音样本的13项韵律声学特征,该方法经科学验证,可显著辨别语音情绪类别[21-22]。这些参数可分为3类:频率特征(声音的频率属性)、能量特征(声音的能量或强度)和时间特征(与时间相关的语音特性),具体分类及描述如表 4所示。本文通过细致的参数提取,旨在深化人们对语音情绪表达的科学理解,并为语音学和情感计算领域提供精确的分析工具。在ECG样本分析中,测试HRV的多项指标(见表 5),可揭示ANS的功能状态及个体的压力反应,进而为临床诊断和科学研究提供参考。本文采用Neurokit2软件包分析经预处理的ECG信号,精确提取各任务阶段的HRV量化指标[4],以期深入探讨心理应激与心脏自主调节功能之间的内在关系。
| 类别 |
特征 |
| 频率 | 平均基频(mean fundamental frequency F0,mnF0),最小基频(minimum F0,minF0),最大基频(maximum F0,maxF0),基频标准差(standard deviation F0,stdF0),基频抖动(jitter,jtr) |
| 能量 | 振幅抖动(shimmer,shmr),振幅(amplitude,amp),峰值振幅(peak amplitude,pkamp),平均谐噪比(mean HNR,mnHN),最大谐噪比(maximum HNR,maxHN),谐噪比标准差(standard deviation HNR,sdHN) |
| 时域 | 持续时间(duration,dur),峰值时间(peak time,pktime) |
| 注:谐噪比(harmonic-to-noise ratio,HNR)。 | |
| 特征 |
描述 |
| LF | 低频谱功率 |
| HF | 高频谱功率 |
| LF/FH | 低频谱功率与高频谱功率的比值 |
| TP |
总谱功率 |
| ApEn | 利用近似熵估计复杂性 |
| ShanEn | 使用香农熵估计复杂性 |
| FuzzyEn | 改进的熵测量方法 |
3.2 数据分析
本文采用社会科学统计软件包(statistical package for the social sciences,SPSS)对HRV指标和语音特征进行两因素重复测量方差分析(two-way repeated measures ANOVA)及GEE方法分析,并将显著性水平设定为p < 0.05。此分析方法的目的是揭示TR任务中,不同情绪维度下抑郁症患者与对照组之间的差异,所得数据以均值加或减标准差的形式报告。此外,本文通过设定p < 0.05的Spearman等级相关性分析,进一步探讨了ECG数据与语音数据之间的关系,以增进人们对二者内在关系的认识。
3.3 分析结果针对PD任务中的语音特征,抑郁症患者与对照组之间存在明显区别,如图 3所示。具体而言,抑郁症患者的平均振幅和pkamp均较低,这可能表明声音能量减弱与抑郁情绪及生命力减退有关。就基频标准差(sdF0)特征而言,组别与情绪维度之间存在交互作用,这促使本文对主效应和交互效应进行进一步分析(p < 0.05)。
|
| 图 3 抑郁症患者与对照组语音特征对比 |
HRV指标的组间差异如图 4所示,抑郁症患者的HRV各项指标均低于对照组,表明抑郁症患者的HRV减弱。该研究结果与当前学术界普遍认同的观点相符,即抑郁症患者的ANS调节功能受到影响。
|
| 图 4 抑郁症患者与对照组HRV对比 |
在复杂情绪情境下,抑郁症患者的sdF0值较低,如图 5a所示,表明他们在音高变化上的单调性增强,这反映了与抑郁状态相关的声乐表达复杂性降低。该发现可为人们理解抑郁症患者情感表达的声乐特征提供参考。在积极情绪条件下,抑郁症患者的FuzzyEn值显著低于对照组(p < 0.05),如图 5b所示,表明抑郁症患者在面对积极情绪体验时,生理适应性或生理反应性有所降低。该发现可为人们理解抑郁症患者在情绪调节过程中的生理机制提供参考,并为临床情绪干预提供可能的生理标志物。
|
| 图 5 交互作用检验结果 |
声学特征与HRV指标之间的相关性分析结果如表 6所示,表明了声学特征与HRV指标之间的复杂相互关系,并突出了抑郁症对ANS及生理状态的作用。在对照组中,maxF0与HF之间的正相关性可能表示心脏健康状况更佳和情绪调节机制更有效;在抑郁症患者群体中,amp下降和HF降低表明在特定情绪状态下HRV减少,这可能暗示心理压力或情绪调节障碍对心脏功能的负面影响,进而影响ANS的正常功能和语音的产生。这些发现可为人们理解抑郁症如何通过影响ANS和语音产生机制,进而改变个体的情绪表达提供参考。
| 情绪 | 特征 | LF | HF | TP | ApEn | FuzzyEn |
| 积极 | dur-N | — | 0.389* | — | — | — |
| minF0-N | — | — | — | — | -0.388* | |
| maxHN-N | — | 0.347* | — | — | — | |
| mnHN-N | -0.453* | — | -0.503* | — | — | |
| amp-N | — | — | — | — | 0.375* | |
| amp-D | — | — | — | 0.403* | — | |
| pkamp-N | — | — | — | — | 0.483** | |
| pktime-N | 0.378* | — | — | — | — | |
| pktime-D | — | — | — | 0.562* | — | |
| 复杂 | maxF0-N | — | 0.469* | — | — | — |
| shmr-N | -0.427** | — | — | — | — | |
| amp-D | — | -0.364* | — | 0.386* | — | |
| 消极 | pkamp-D | — | -0.364* | — | — | -0.358* |
| pktime-N | — | — | — | 0.505* | — | |
| 注:—为相关不显著;D为抑郁症患者;N为对照组;*表示p < 0.05; * *表示p < 0.01。 | ||||||
4 结论
本文通过构建综合性的抑郁症患者情绪多模态生理信号数据库,并进行多维分析,有效诱发并清晰划分不同情感,表明了抑郁症患者与对照组之间的显著差异。通过深入分析语音特征与HRV指标,揭示了抑郁症对情绪处理机制、生理调节能力和整体健康状况的深刻影响,研究结果不仅能为识别抑郁症的新生物标志物提供参考,而且能促进诊断方法和治疗策略的发展。本文研究结果有利于更精确地理解抑郁症的复杂性,为临床实践中更有效地诊断和治疗提供科学依据。
此外,本文深入分析了语音特征与HRV指标之间的相关性和抑郁症患者与对照组之间的复杂内在关系。特定声学特征与HRV各组分之间的相关性研究发现,HRV的多维度特性可能映射了语音产生过程中涉及的不同神经生理机制。与以往研究仅单方面关注语音或HRV相比,本文采用更全面的分析方法,为理解抑郁的生理基础提供更全面的视角。这种深化理解凸显了语音特征可反映个体的心理和生理状态,促使人们对以往研究浅显的相互作用现象进行深度挖掘。本文研究结果表明:应将抑郁症视为一种影响多个生理系统的全身性疾病,并提倡在研究和临床实践中采用跨学科的方法。
综上所述,本文构建了专为青少年抑郁症患者设计的多模态生理信号数据库,有效弥补了临床诊疗和科研探索的缺失。本文聚焦于语音学和ECG数据分析,凸显了该数据库在推动抑郁症客观诊断和治疗管理方面的应用前景。本文研究结果不仅为后续的深入研究奠定了基础,而且突出了在全面理解和有效干预抑郁症过程中,融合多模态数据的重要性,还可为后续该领域的科研工作和治疗策略提供参考。
| [1] |
LU J, XU X F, HUANG Y Q, et al. Prevalence of depressive disorders and treatment in China: A cross-sectional epidemiological study[J]. The Lancet Psychiatry, 2021, 8(11): 981-990. DOI:10.1016/S2215-0366(21)00251-0 |
| [2] |
HERRMAN H, PATEL V, KIELING C, et al. Time for united action on depression: A lancet-world psychiatric association commission[J]. The Lancet, 2022, 399(10328): 957-1022. DOI:10.1016/S0140-6736(21)02141-3 |
| [3] |
GUO S Y, KAMINGA A C, XIONG J. Depression and coping styles of college students in China during COVID-19 pandemic: A systemic review and meta-analysis[J]. Frontiers in Public Health, 2021, 9: 613321. DOI:10.3389/fpubh.2021.613321 |
| [4] |
MAKOWSKI D, PHAM T, LAU Z J, et al. NeuroKit2: A python toolbox for neurophysiological signal processing[J]. Behavior Research Methods, 2021, 53(4): 1689-1696. DOI:10.3758/s13428-020-01516-y |
| [5] |
QURESHI S A, SAHA S, HASANUZZAMAN M, et al. Multitask representation learning for multimodal estimation of depression level[J]. IEEE Intelligent Systems, 2019, 34(5): 45-52. DOI:10.1109/MIS.2019.2925204 |
| [6] |
PAMPOUCHIDOU A, SIMOS P G, MARIAS K, et al. Automatic assessment of depression based on visual cues: A systematic review[J]. IEEE Transactions on Affective Computing, 2019, 10(4): 445-470. DOI:10.1109/TAFFC.2017.2724035 |
| [7] |
MUNDT J C, SNYDER P J, CANNIZZARO M S, et al. Voice acoustic measures of depression severity and treatment response collected via interactive voice response (IVR) technology[J]. Journal of Neurolinguistics, 2007, 20(1): 50-64. DOI:10.1016/j.jneuroling.2006.04.001 |
| [8] |
FOX M E, LOBO M K. The molecular and cellular mechanisms of depression: A focus on reward circuitry[J]. Molecular Psychiatry, 2019, 24(12): 1798-1815. DOI:10.1038/s41380-019-0415-3 |
| [9] |
BARRETT L F, SIMMONS W K. Interoceptive predictions in the brain[J]. Nature Reviews Neuroscience, 2015, 16(7): 419-429. DOI:10.1038/nrn3950 |
| [10] |
RAISON C L, MILLER A H. Malaise, melancholia and madness: The evolutionary legacy of an inflammatory bias[J]. Brain, Behavior, and Immunity, 2013, 31: 1-8. DOI:10.1016/j.bbi.2013.04.009 |
| [11] |
GIBBONS C H. Basics of autonomic nervous system function[J]. Handbook of Clinical Neurology, 2019, 160: 407-418. |
| [12] |
TUMATI S, PAULUS M P, NORTHOFF G. Out-of-step: Brain-heart desynchronization in anxiety disorders[J]. Molecular Psychiatry, 2021, 26(6): 1726-1737. DOI:10.1038/s41380-021-01029-w |
| [13] |
BLEKER L S, VAN DAMMEN L, LEEFLANG M M G, et al. Hypothalamic-pituitary-adrenal axis and autonomic nervous system reactivity in children prenatally exposed to maternal depression: A systematic review of prospective studies[J]. Neuroscience & Biobehavioral Reviews, 2020, 117: 243-252. |
| [14] |
CAI H S, YUAN Z Q, GAO Y W, et al. A multi-modal open dataset for mental disorder analysis[J]. Scientific Data, 2022, 9(1): 178. DOI:10.1038/s41597-022-01211-x |
| [15] |
SHEN J, ZHANG X W, HUANG X, et al. An optimal channel selection for EEG-based depression detection via kernel-target alignment[J]. IEEE Journal of Biomedical and Health Informatics, 2021, 25(7): 2545-2556. DOI:10.1109/JBHI.2020.3045718 |
| [16] |
ZHU J, WANG Z H, GONG T, et al. An improved classification model for depression detection using EEG and eye tracking data[J]. IEEE Transactions on NanoBioscience, 2020, 19(3): 527-537. DOI:10.1109/TNB.2020.2990690 |
| [17] |
PALLARÉS V, INSABATO A, SANJUÁN A, et al. Extracting orthogonal subject-and condition-specific signatures from fMRI data using whole-brain effective connectivity[J]. Neuroimage, 2018, 178: 238-254. DOI:10.1016/j.neuroimage.2018.04.070 |
| [18] |
BYLSMA L M. Emotion context insensitivity in depression: Toward an integrated and contextualized approach[J]. Psychophysiology, 2021, 58(2): e13715. DOI:10.1111/psyp.13715 |
| [19] |
HOEMANN K, KHAN Z, FELDMAN M J, et al. Context-aware experience sampling reveals the scale of variation in affective experience[J]. Scientific Reports, 2020, 10(1): 12459. DOI:10.1038/s41598-020-69180-y |
| [20] |
OWREN M J. GSU Praat tools: Scripts for modifying and analyzing sounds using Praat acoustics software[J]. Behavior Research Methods, 2008, 40(3): 822-829. DOI:10.3758/BRM.40.3.822 |
| [21] |
LAUSEN A, HAMMERSCHMIDT K. Emotion recognition and confidence ratings predicted by vocal stimulus type and prosodic parameters[J]. Humanities and Social Sciences Communications, 2020, 7(1): 1-17. DOI:10.1057/s41599-020-0492-6 |
| [22] |
SCHERER K R, SUNDBERG J, FANTINI B, et al. The expression of emotion in the singing voice: Acoustic patterns in vocal performance[J]. The Journal of the Acoustical Society of America, 2017, 142(4): 1805-1815. DOI:10.1121/1.5002886 |



