Skip to main content
QUICK REVIEW

[논문 리뷰] Measuring Depression Symptom Severity from Spoken Language and 3D Facial Expressions

Albert Haque, Michelle Guo|arXiv (Cornell University)|2018. 11. 21.
Mental Health via Writing참고 문헌 36인용 수 98
한 줄 요약

이 논문은 오디오, 3D 얼굴 표정, 텍스트를 결합한 다중 모달 딥러닝 모델로 PHQ 점수를 예측하고 주요 우울장애를 감지합니다. DAIC-WOZ 데이터셋에서 PHQ 회귀의 평균 오차 3.67, MDD 감지에서 민감도 83.3%, 특이도 82.6%를 달성합니다.

ABSTRACT

With more than 300 million people depressed worldwide, depression is a global problem. Due to access barriers such as social stigma, cost, and treatment availability, 60% of mentally-ill adults do not receive any mental health services. Effective and efficient diagnosis relies on detecting clinical symptoms of depression. Automatic detection of depressive symptoms would potentially improve diagnostic accuracy and availability, leading to faster intervention. In this work, we present a machine learning method for measuring the severity of depressive symptoms. Our multi-modal method uses 3D facial expressions and spoken language, commonly available from modern cell phones. It demonstrates an average error of 3.67 points (15.3% relative) on the clinically-validated Patient Health Questionnaire (PHQ) scale. For detecting major depressive disorder, our model demonstrates 83.3% sensitivity and 82.6% specificity. Overall, this paper shows how speech recognition, computer vision, and natural language processing can be combined to assist mental health patients and practitioners. This technology could be deployed to cell phones worldwide and facilitate low-cost universal access to mental health care.

연구 동기 및 목표

  • 스케일 가능하고 접근 가능한 우울 스 severity 평가를 일반 스마트폰 파생 모듈의 자동 유도 신호를 사용해 동기화합니다.
  • 오디오, 시각 및 언어 신호를 통합해 PHQ 점수와 MDD 분류를 예측합니다.
  • 임상적으로 검증된 데이터셋(DAIC-WOZ)에서 제안된 다중 모달 모델을 기존 방법과 비교 평가합니다.
  • 모델 내에서 학습된 문장 수준 임베딩이 일부 핸드크래프트 또는 사전 학습 임베딩을 능가할 수 있음을 입증합니다.
  • 현실 세계 환경에서의 배포 및 편향 고려 사항과 한계점을 논의합니다.

제안 방법

  • 입력 모달리티는 오디오(log-mel spectrograms), 3D 얼굴 키포인트(68점), 텍스트 전사입니다.
  • 다중 모달 문장 수준 임베딩을 학습하고 이를 인과 합성곱 신경망(C-CNN)에 넣어 회귀(PHQ 점수) 및 분류(MDD)를 수행합니다.
  • 모델은 커널 크기 5, 각 층당 128 채널의 10층 인과 CNN, 드롭아웃, Adam 최적화를 사용합니다.
  • 베이스라인 비교에는 SVM, CNN+LSTM 및 다른 모달리티 조합(A, V, L, AVL)이 포함됩니다.
  • 자기 연구에서 손으로 만든 임베딩과 학습된 문장 수준 임베딩 및 다양한 입력 특징(Log-Mel, MFCC, 3D 얼굴, Word2Vec, Doc2Vec, Universal 문장 임베딩)을 비교하는 제거 연구가 포함됩니다.
  • DAIC-WOZ 데이터셋은 189회의 인터뷰에서 50시간의 데이터(142명의 환자); 평가에 PHQ-8 점수 사용; 학습/검증 분할은 107/35명의 환자입니다.

실험 결과

연구 질문

  • RQ1오디오, 3D 얼굴 표정 및 텍스트를 사용한 다중 모달 모델이 PHQ 점수로서 우울 정도를 정확히 추정할 수 있는가?
  • RQ2제안된 C-CNN 기반 문장 수준 임베딩이 단어/음소 수준 임베딩 및 기존 방법과 비교하여 우울 분석에서 어떤 이점을 가지는가?
  • RQ3DAIC-WOZ 데이터셋에서 MDD 감지의 성능(민감도, 특이도)은 어떤가?
  • RQ4모달리티 조합(A, V, L, AVL)이 예측 성능에 미치는 영향은 무엇인가?

주요 결과

  • PHQ 회귀를 위한: AVL 모달리티를 가진 C-CNN은 평균 오차 3.67(상대 15.3%)를 달성합니다.
  • MDD 감지를 위한: AVL 모달리티를 가진 C-CNN은 민감도 83.3%와 특이도 82.6%를 달성합니다.
  • 베이스라인과 비교했을 때, 제안된 학습된 문장 수준 임베딩과 다중 모달 입력을 가진 C-CNN은 엔지니어링된 피처 대신 원시 모달리티를 사용하는 이전 연구와 비교해 경쟁력 있는 성능을 보입니다.
  • 제거 연구는 모델 내에서 학습된 문장 수준 임베딩(LSTM 또는 C-CNN)을 통해 일부 핸드크래프트 또는 사전 학습 문장 임베딩보다 우수하다고 시사합니다.
  • 인터뷰 맥락에 의존하지 않고 문장 수준 입력을 맥락 메타데이터 없이 처리합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.