Skip to main content
QUICK REVIEW

[论文解读] AVEC 2016 - Depression, Mood, and Emotion Recognition Workshop and Challenge

Michel Valstar, Jonathan Gratch|arXiv (Cornell University)|May 5, 2016
Emotion and Mood Recognition参考文献 57被引用 109
一句话总结

AVEC 2016 提出用于抑郁严重程度估计和情感识别的指南、数据集和基线多模态方法,含 DCC 子挑战和 MASC 子挑战及开放基线。

ABSTRACT

The Audio/Visual Emotion Challenge and Workshop (AVEC 2016) "Depression, Mood and Emotion" will be the sixth competition event aimed at comparison of multimedia processing and machine learning methods for automatic audio, visual and physiological depression and emotion analysis, with all participants competing under strictly the same conditions. The goal of the Challenge is to provide a common benchmark test set for multi-modal information processing and to bring together the depression and emotion recognition communities, as well as the audio, video and physiological processing communities, to compare the relative merits of the various approaches to depression and emotion recognition under well-defined and strictly comparable conditions and establish to what extent fusion of the approaches is possible and beneficial. This paper presents the challenge guidelines, the common data used, and the performance of the baseline system on the two tasks.

研究动机与目标

  • 提供在受控、可重复条件下的多模态抑郁和情感分析的公共基准。
  • 比较音频、视觉和生理模态在抑郁严重程度估计与情感识别中的表现。
  • 推广多模态融合以评估结合模态的潜在收益。
  • 发布共享数据集(DAIC-WOZ, RECOLA)和基线特征集,以促进可复现性和可比性。

提出的方法

  • 定义 Depression Classification Sub-Challenge (DCC) 和 Multimodal Affect Recognition Sub-Challenge (MASC) with specific ground-truth labels and evaluation metrics.
  • Present the Distress Analysis Interview Corpus - Wizard of Oz (DAIC-WOZ) for depression severity labels via PHQ-8.
  • Present the RECOLA corpus for continuous arousal and valence annotations.
  • Provide baseline feature pipelines for video (OpenFace, FACET), audio (GeMAPS/eGeMAPS via openSMILE), and physiological signals (ECG, EDA, etc.).
  • Describe baseline models including linear SVM with SGD for classification/regression and random forest baselines, plus late-fusion schemes for multimodal predictions.

实验结果

研究问题

  • RQ1Baseline audio, video, and physiological features for depression severity estimation (PHQ-8) and mood/affect prediction (Arousal, Valence) 的表现如何?
  • RQ2在 AVEC 2016 规则下,单模态基线与多模态融合在抑郁与情绪识别方面有何比较?
  • RQ3不同模态在融合模型中的 Arousal 和 Valence 预测贡献程度有多大?
  • RQ4提供的基线能否支持在以往 AVEC 挑战中的顶尖方法之上实现再现性和公平比较?

主要发现

  • 基线 AVEC 2016 在大多数模态的情感识别方面较 AVEC 2015 有所提升,音频在 arousal 表现出色,视频在 valence 表现出色。
  • 基于 HRHRV 的生理特征在融合设置中对 arousal 的预测优于原始 ECG。
  • 音频、ECG、EDA 和视频模态的晚融合在 arousal 和 valence 的 CCC 得分上高于单模态结果。
  • 视频外观(appearance)和几何特征在 arousal 与 valence 上贡献不同,体现多模态融合中的互补信息。
  • 抑郁分类与严重性估计基线(DCC)在开发/测试分区下提供 F1、precision、recall、RMSE、MAE 指标,使得在 AVEC 2016 协议下可以直接比较。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。