[논문 리뷰] AVEC 2016 - Depression, Mood, and Emotion Recognition Workshop and Challenge
AVEC 2016은 우울 정도 추정 및 정서 인식에 대한 가이드라인, 데이터 세트, 그리고 다중 모달 기반의 기본 방법들을 제시하며, DCC 및 MASC 서브 챌린지와 오픈 베이스라인을 포함한다.
The Audio/Visual Emotion Challenge and Workshop (AVEC 2016) "Depression, Mood and Emotion" will be the sixth competition event aimed at comparison of multimedia processing and machine learning methods for automatic audio, visual and physiological depression and emotion analysis, with all participants competing under strictly the same conditions. The goal of the Challenge is to provide a common benchmark test set for multi-modal information processing and to bring together the depression and emotion recognition communities, as well as the audio, video and physiological processing communities, to compare the relative merits of the various approaches to depression and emotion recognition under well-defined and strictly comparable conditions and establish to what extent fusion of the approaches is possible and beneficial. This paper presents the challenge guidelines, the common data used, and the performance of the baseline system on the two tasks.
연구 동기 및 목표
- 통제되고 재현 가능한 조건에서 다중 모달 우울 및 정서 분석을 위한 공통 벤치마크를 제공한다.
- 오디오, 시각 및 생리 신호 모듈을 비교한다.
- 다중 모달 융합을 촉진하여 모듈 간 결합으로 얻을 수 있는 잠재적 이점을 평가한다.
- 재현성과 비교 가능성을 촉진하기 위해 공유 데이터셋(DAIC-WOZ, RECOLA)과 기본 특징 세트를 공개한다.
제안 방법
- 특정 진실 레이블 및 평가 지표를 가진 Depression Classification Sub-Challenge (DCC) 및 Multimodal Affect Recognition Sub-Challenge (MASC)을 정의한다.
- PHQ-8를 통해 우울 정도 라벨을 제공하는 Distress Analysis Interview Corpus - Wizard of Oz (DAIC-WOZ)를 제시한다.
- 연속적인 각성 및 양상 주석을 위한 RECOLA 코퍼스를 제시한다.
- 비디오(OpenFace, FACET), 오디오(GeMAPS/eGeMAPS via openSMILE), 생리 신호(ECG, EDA 등)에 대한 기본 특징 파이프라인을 제공한다.
- 분류/회귀를 위한 SGD가 적용된 선형 SVM 및 랜덤 포레스트 베이스라인, 그리고 다중 모달 예측을 위한 Late-fusion 스킴을 포함한 기본 모델을 설명한다.
실험 결과
연구 질문
- RQ1What is the performance of baseline audio, video, and physiological features for depression severity estimation (PHQ-8) and mood/affect prediction (Arousal, Valence)?
- RQ2How do unimodal baselines compare to multimodal fusion in depression and emotion recognition under AVEC 2016 rules?
- RQ3To what extent do different modalities contribute to arousal and valence predictions in fusion models?
- RQ4Can the provided baselines support reproducibility and fair comparison with top-performing approaches from previous AVEC challenges?
주요 결과
- Baseline AVEC 2016 achieves improvements over AVEC 2015 across most modalities for affect recognition, with audio excelling for arousal and video excelling for valence.
- HRHRV-based physiology features outperform raw ECG for arousal prediction in the fusion setup.
- Late fusion of audio, ECG, EDA, and video modalities yields higher CCC scores for arousal and valence than mono-modal results.
- Video appearance and geometric features contribute differently across arousal and valence, illustrating complementary information in multimodal fusion.
- Depression classification and severity estimation baselines (DCC) provide F1, precision, recall, RMSE, and MAE metrics under development/test partitions, enabling direct comparison under the AVEC 2016 protocol.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.