[논문 리뷰] Depression Scale Recognition from Audio, Visual and Text Analysis
이 논문은 DAIC-WOZ 데이터셋에서 음성, 시각적 및 텍스트 특징을 사용하여 다중모달 접근법을 통해 우울증 척도 인식을 제안한다. 얼굴 랜드마크에 대해 가우시안 믹스처 모델 군집화와 피셔 벡터 인코딩을 적용하고, 저수준의 음성 및 텍스트 특징을 결합하여 의사결정 수준의 평균화 및 max-out 전략을 통해 융합하였으며, 검증 세트에서 영상 특징에 대해 기준 모델 대비 24.5% 향상되고 음성 특징에 대해 17% 향상된 RMSE 감소를 달성하였다.
Depression is a major mental health disorder that is rapidly affecting lives worldwide. Depression not only impacts emotional but also physical and psychological state of the person. Its symptoms include lack of interest in daily activities, feeling low, anxiety, frustration, loss of weight and even feeling of self-hatred. This report describes work done by us for Audio Visual Emotion Challenge (AVEC) 2017 during our second year BTech summer internship. With the increase in demand to detect depression automatically with the help of machine learning algorithms, we present our multimodal feature extraction and decision level fusion approach for the same. Features are extracted by processing on the provided Distress Analysis Interview Corpus-Wizard of Oz (DAIC-WOZ) database. Gaussian Mixture Model (GMM) clustering and Fisher vector approach were applied on the visual data; statistical descriptors on gaze, pose; low level audio features and head pose and text features were also extracted. Classification is done on fused as well as independent features using Support Vector Machine (SVM) and neural networks. The results obtained were able to cross the provided baseline on validation data set by 17% on audio features and 24.5% on video features.
연구 동기 및 목표
- 임상 인터뷰에서 다중모달 데이터를 사용하여 자동화된 우울증 척도 인식 시스템을 개발하기 위해.
- 특징 공학 및 융합 전략을 활용하여 AVEC 2017 챌린지의 기존 기준 모델을 초월하기 위해.
- 피셔 벡터 인코딩 및 GMM 군집화가 얼굴 운동 및 자세 특징에 대해 우울증 탐지에 얼마나 효과적인지 조사하기 위해.
- 개별 및 융합된 모odal리티에 대해 SVM 및 신경망의 성능을 평가하기 위해.
- 우울증 심각도 점수 회귀 성능 향상을 위한 의사결정 수준 융합 기법(평균 및 max-out)을 최적화하기 위해.
제안 방법
- DAIC-WOZ 데이터셋에서 2D 및 3D 얼굴 랜드마크, 시선, 머리 자세 및 동작 유닛을 추출하여 시각적 특징 공학을 수행하였다.
- 얼굴 영역 간 상대적 거리에 대해 가우시안 믹스처 모델(GMM) 군집화 및 피셔 벡터 인코딩을 적용하여 얼굴 표정의 시간적 동적 특성을 캡처하였다.
- 시선, 머리 자세 및 깜빡임 빈도에 대한 통계적 기술자를 계산하여 비언어적 행동적 신호를 모델링하였다.
- 저수준의 음성 특징(예: 프로소디, 세프트랄, 스펙트럼)을 추출하고, 이들을 우울증 관련 패턴 탐지에 사용하였다.
- 텍스트 전사 자료를 워드 수준 특징(예: 부정어 빈도, 자극-가치 평가)을 사용하여 처리하였다.
- 개별 및 융합된 특징 세트에 대해 서포트 벡터 머신(SVM)과 전방향 신경망을 훈련하였으며, Adam 옵timizer를 사용하여 RMSE 및 MAE 최적화를 수행하였다.
실험 결과
연구 질문
- RQ1피셔 벡터 인코딩을 사용한 얼굴 운동 특징이 원시 통계적 특징 대비 우울증 심각도 회귀 성능을 향상시키는가?
- RQ2음성, 시각적 및 텍스트 특징이 개별적으로나 조합하여 우울증 척도 회귀 성능에 얼마나 기여하는가?
- RQ3다양한 모달리티 예측의 평균화 또는 max-out 전략을 통한 의사결정 수준 융합이 단일 모달리티 모델 대비 더 나은 일반화 및 낮은 오차를 제공하는가?
- RQ4다양한 융합 가중치 설정이 AVEC 2017 검증 세트에서 최종 회귀 성능에 어떻게 영향을 미치는가?
- RQ5피셔 벡터 특징에 기반한 신경망이 기준 모델 대비 우울증 심각도 점수 예측 성능을 뛰어나게 할 수 있는가?
주요 결과
- 제안된 방법은 검증 세트에서 음성 특징에 대해 기준 모델 대비 17% 향상된 RMSE 감소를 달성하였다.
- 영상 특징에 대해서는 기준 모델 대비 24.5% 향상된 RMSE 감소를 기록하여 피셔 벡터 및 머리 운동 특징의 효과성을 입증하였다.
- 음성 및 텍스트 특징을 동일한 가중치(각각 0.5)로 융합한 결과 개발 세트에서 RMSE 5.593 및 MAE 4.3714를 기록하여 가장 낮은 오차를 달성하였다.
- 피셔 벡터 및 머리 자세 특징을 동일한 가중치로 융합한 결과 RMSE 5.744 및 MAE 4.3714를 기록하여 시각적 모달리티에서 강력한 성능을 보였다.
- 모든 네 가지 모달리티(음성, 텍스트, 피셔, 머리 자세)를 동일한 가중치(각각 0.25)로 융합한 결과 검증 세트에서 RMSE 5.4143 및 MAE 4.1714를 달성하여 최고의 전체 성능을 기록하였다.
- 모든 네 가지 모달리티에 대해 max-out 융합 전략을 적용한 결과 RMSE 5.3586 및 MAE 4.3714를 기록하여 평균 기반 융합을 略로 뛰어넘었으며, 이는 예측 신뢰도를 극대화함으로써 정확도가 향상됨을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.