[论文解读] Looking At The Body: Automatic Analysis of Body Gestures and Self-Adaptors in Psychological Distress
本文提出了一种新型音视频数据集,包含访谈视频及受访者自报的心理困扰标签,并引入一种分层深度学习模型,以自动检测身体动作与小动作——这些是抑郁和焦虑的关键行为标志。该方法结合了多模态深度去噪自编码器与改进的Fisher向量编码,表明小动作为特征能显著提升心理困扰分类性能,尤其在焦虑预测方面表现突出。
Psychological distress is a significant and growing issue in society. Automatic detection, assessment, and analysis of such distress is an active area of research. Compared to modalities such as face, head, and vocal, research investigating the use of the body modality for these tasks is relatively sparse. This is, in part, due to the limited available datasets and difficulty in automatically extracting useful body features. Recent advances in pose estimation and deep learning have enabled new approaches to this modality and domain. To enable this research, we have collected and analyzed a new dataset containing full body videos for short interviews and self-reported distress labels. We propose a novel method to automatically detect self-adaptors and fidgeting, a subset of self-adaptors that has been shown to be correlated with psychological distress. We perform analysis on statistical body gestures and fidgeting features to explore how distress levels affect participants' behaviors. We then propose a multi-modal approach that combines different feature representations using Multi-modal Deep Denoising Auto-Encoders and Improved Fisher Vector Encoding. We demonstrate that our proposed model, combining audio-visual features with automatically detected fidgeting behavioral cues, can successfully predict distress levels in a dataset labeled with self-reported anxiety and depression levels.
研究动机与目标
- 为解决公开可用、包含全身视频且带有心理困扰标签的研究数据集稀缺的问题。
- 开发一种自动化系统,从视觉数据中检测自我调节行为与小动作,这些行为是心理困扰的已知行为指标。
- 探究身体动作与自我调节行为与自报焦虑及抑郁水平之间的相关性。
- 评估小动作为特征在使用深度学习进行多模态心理困扰分类中的有效性。
- 在新数据集及一个公开可用的手动标注小动作为数据集上验证所提出的小动作检测模型。
提出的方法
- 收集了一个新的音视频数据集,包含非临床访谈视频,参与者通过标准化问卷自报焦虑与抑郁水平。
- 提出一种分层模型,利用姿态估计与视频帧的时间建模,实现对自我调节行为与小动作的自动检测。
- 对身体动作与小动作为特征进行统计分析,以探索与困扰水平相关的的行为模式。
- 实施一个多模态深度学习流程,使用多模态深度去噪自编码器(multi-DDAE)对音频、视觉与小动作为模态的帧级特征进行编码。
- 采用改进的Fisher向量编码,从编码后的特征中生成紧凑且具有判别性的视频级表征。
- 使用随机森林进行特征选择,并训练逻辑回归与多层感知机分类器,用于二元心理困扰分类。
实验结果
研究问题
- RQ1身体动作与小动作为行为如何与自报的焦虑与抑郁水平相关?
- RQ2自动化系统能否在非受限的视频访谈中高精度检测到小动作与自我调节行为?
- RQ3小动作为特征在多模态模型中对心理困扰分类性能的提升程度如何?
- RQ4不同特征表示方法(如统计方法与深度学习)在捕捉与心理困扰相关的身体行为线索方面有何差异?
- RQ5所提出的小动作检测模型在具有不同小动作为行为的数据集之间是否具备泛化能力?
主要发现
- 所提出的小动作检测模型在手动标注的小动作为数据集上达到了80%的召回率,优于先前的最先进方法。
- 小动作为特征在焦虑分类中持续提升分类性能,尤其在AUC与F1分数上表现出显著提升。
- 结合音频、视觉与小动作为模态的多模态深度学习框架,在分类结果上优于未使用小动作为线索的模型。
- 统计分析显示,抑郁评分较高的参与者表现出更频繁且持续时间更长的自我调节行为与小动作。
- 消融实验证实,小动作为特征是心理困扰检测中一个显著且具有判别力的模态,尤其在焦虑分类中表现突出。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。