QUICK REVIEW

[論文レビュー] Measuring Depression Symptom Severity from Spoken Language and 3D Facial Expressions

Albert Haque, Michelle Guo|arXiv (Cornell University)|Nov 21, 2018

Mental Health via Writing参考文献 36被引用数 98

ひとこと要約

本論文は音声、3D表情、およびテキストを組み合わせた多モーダル深層学習モデルを提案し、PHQスコアの予測と主要抑うつ障害の検出を行う。DAIC-WOZデータセットでPHQ回帰の平均誤差3.67、MDD検出の感度83.3%、特異度82.6%を達成。

ABSTRACT

With more than 300 million people depressed worldwide, depression is a global problem. Due to access barriers such as social stigma, cost, and treatment availability, 60% of mentally-ill adults do not receive any mental health services. Effective and efficient diagnosis relies on detecting clinical symptoms of depression. Automatic detection of depressive symptoms would potentially improve diagnostic accuracy and availability, leading to faster intervention. In this work, we present a machine learning method for measuring the severity of depressive symptoms. Our multi-modal method uses 3D facial expressions and spoken language, commonly available from modern cell phones. It demonstrates an average error of 3.67 points (15.3% relative) on the clinically-validated Patient Health Questionnaire (PHQ) scale. For detecting major depressive disorder, our model demonstrates 83.3% sensitivity and 82.6% specificity. Overall, this paper shows how speech recognition, computer vision, and natural language processing can be combined to assist mental health patients and practitioners. This technology could be deployed to cell phones worldwide and facilitate low-cost universal access to mental health care.

研究の動機と目的

スケーラブルでアクセスしやすいうつ病の重症度評価を、スマートフォン由来の一般的モダリティから自動派生的 cues を用いて実現する。
音声、視覚、および言語信号を統合してPHQスコアとMDD分類を予測する。
提案する多モーダルモデルを臨床的に検証されたデータセット（DAIC-WOZ）上で従来手法と比較評価する。
C-CNNフレームワーク内で学習される文レベルの埋め込みが、一部の手作成または事前学習埋め込みより優れる可能性を示す。
現実世界の設定における制約とデプロイおよびバイアス検討の可能性を議論する。）

提案手法

入力モダリティは音声（ログメルスペクトログラム）、3D顔部位（68点）、およびテキスト転写である。
多モーダルの文レベル埋め込みを学習し、それを因果卷積ネットワーク（C-CNN）に入力して回帰（PHQスコア）および分類（MDD）を行う。
モデルは kernel size 5、各層128チャネル、ドロップアウト、Adam最適化を備えた10層の因果CNNを使用する。
ベースラインの比較にはSVM、CNN+LSTM、その他のモダリティ組み合わせ（A、V、L、AVL）を含む。
アブレーション研究では、手作成対学習済み文レベル埋め込みおよびさまざまな入力特徴（Log-Mel、MFCC、3D face、Word2Vec、Doc2Vec、Universal sentence embeddings）を比較する。
データセットDAIC-WOZは189回のインタビューからの50時間のデータであり（142名の患者）、PHQ-8スコアを評価に使用、train/validation分割は107/35名患者。

実験結果

リサーチクエスチョン

RQ1音声、3D表情、テキストを用いた多モーダルモデルはPHQスコアとして抑うつ重症度を正確に推定できるか。
RQ2提案するC-CNNによる文レベル埋め込みは、語レベル/音素レベルの埋め込みや従来の手法と比べて抑うつ分析でどうなるか。
RQ3DAIC-WOZデータセットにおけるMDD検出の性能（感度、特異度）はどの程度か。
RQ4モダリティの組み合わせ（A、V、L、AVL）が予測性能に与える影響はどの程度か。

主な発見

PHQ回帰では、AVLモダリティを用いたC-CNNが平均誤差3.67（相対値15.3%）を達成。
MDD検出では、AVLモダリティを用いたC-CNNが83.3%の感度と82.6%の特異度を達成。
ベースラインと比較して、学習済み文レベル埋め込みと多モーダル入力を組み合わせた提案手法は、エンジニアリング特徴ではなく生データモダリティを用いた従来研究と比較して競争力のある性能を示す。
アブレーション研究では、モデル内で学習された文レベル埋め込み（LSTMまたはC-CNN）(/^良/）が、一部の手作成または事前学習済み文埋め込みより優れることを示した。
方法はインタビューの文脈に依存せず、文レベルの入力を文脈メタデータなしで扱う。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。