QUICK REVIEW

[論文レビュー] Depression Scale Recognition from Audio, Visual and Text Analysis

Shubham Dham, Anirudh Sharma|arXiv (Cornell University)|Sep 18, 2017

Emotion and Mood Recognition参考文献 13被引用数 37

ひとこと要約

本論文では、DAIC-WOZデータセットからの音声、視覚的、およびテキスト特徴量を用いた、複数モodalな抑うつ尺度認識手法を提示する。顔面の特徴点にガウス混合モデル（GMM）クラスタリングとフィッシャー特徴量符号化を適用し、低レベルの音声およびテキスト特徴量を統合する手法として意思決定段階の平均化およびマックスアウト戦略を用いる。バリデーションセットにおけるRMSE低減率で、動画特徴量ではベースライン比24.5%、音声特徴量では17%の向上を達成した。

ABSTRACT

Depression is a major mental health disorder that is rapidly affecting lives worldwide. Depression not only impacts emotional but also physical and psychological state of the person. Its symptoms include lack of interest in daily activities, feeling low, anxiety, frustration, loss of weight and even feeling of self-hatred. This report describes work done by us for Audio Visual Emotion Challenge (AVEC) 2017 during our second year BTech summer internship. With the increase in demand to detect depression automatically with the help of machine learning algorithms, we present our multimodal feature extraction and decision level fusion approach for the same. Features are extracted by processing on the provided Distress Analysis Interview Corpus-Wizard of Oz (DAIC-WOZ) database. Gaussian Mixture Model (GMM) clustering and Fisher vector approach were applied on the visual data; statistical descriptors on gaze, pose; low level audio features and head pose and text features were also extracted. Classification is done on fused as well as independent features using Support Vector Machine (SVM) and neural networks. The results obtained were able to cross the provided baseline on validation data set by 17% on audio features and 24.5% on video features.

研究の動機と目的

臨床インタビューからのマルチモーダルデータを用いた、抑うつ尺度認識の自動化システムの開発を目的とする。
特徴量工学および統合戦略を活用することで、AVEC 2017チャレンジの既存ベースラインを上回ることを目的とする。
フィッシャー特徴量符号化およびGMMクラスタリングが、顔面の動きおよびポーズ特徴量に対して抑うつ検出に有効であるかを検証することを目的とする。
SVMおよびニューラルネットワークが個別および統合されたモダリティに対して、抑うつ重症度スコアの予測性能に与える影響を評価することを目的とする。
抑うつ重症度スコアの回帰性能を向上させるために、意思決定段階の統合手法（平均およびマックスアウト）を最適化することを目的とする。

提案手法

DAIC-WOZデータセットから2次元および3次元の顔面特徴点、視線、頭部ポーズ、アクションユニットを抽出し、視覚的特徴量のエンジニアリングを実施する。
顔面領域間の相対的距離にガウス混合モデル（GMM）クラスタリングとフィッシャー特徴量符号化を適用し、顔の表情における時間的ダイナミクスを捉える。
視線、頭部ポーズ、まばたきレートの統計的記述子を計算し、非言語的行動的兆候をモデル化する。
プロソディック、ケプストラム、スペクトルなどの低レベル音声特徴量を抽出し、抑うつ関連パターンの検出に用いる。
単語レベルの特徴量（例：否定語頻度、アーザル・ヴァレンス評価）を用いてテキストトランスクリプトを処理する。
Adam最適化アルゴリズムを用いてRMSEおよびMAEを最適化しながら、個別および統合された特徴量セットに対してサポートベクターマシン（SVM）およびフィードフォワードニューラルネットワークを訓練する。

実験結果

リサーチクエスチョン

RQ1フィッシャー特徴量符号化を用いた顔面の動き特徴量は、生の統計的特徴量と比較して、抑うつ重症度の回帰性能を向上させるか？
RQ2音声、視覚的、およびテキスト特徴量が個別および統合された場合に、抑うつ尺度回帰性能にどの程度寄与するか？
RQ3複数モダリティの予測結果を平均化またはマックスアウトによって意思決定段階で統合することで、単一モダリティモデルと比較して一般化性能が向上し、誤差が低減するか？
RQ4異なる統合重み設定が、AVEC 2017バリデーションセットにおける最終的な回帰性能に与える影響は何か？
RQ5フィッシャー特徴量を入力として学習したニューラルネットワークは、抑うつ重症度スコアの予測において、ベースラインモデルを上回る性能を示すか？

主な発見

提案手法は、バリデーションセットにおけるRMSE低減率で、音声特徴量についてベースライン比17%の向上を達成した。
動画特徴量において、本手法はベースライン比24.5%のRMSE低減を達成し、フィッシャー特徴量および頭部運動特徴量の有効性を示した。
音声およびテキスト特徴量を等重量（各0.5）で統合した場合、開発セットでRMSEが5.593、MAEが4.3714に低下し、最も低い誤差を記録した。
フィッシャー特徴量および頭部ポーズ特徴量を等重量で統合した場合、RMSEが5.744、MAEが4.3714に達し、視覚的モダリティにおける優れた性能を示した。
音声、テキスト、フィッシャー特徴量、頭部ポーズの4つのモダリティを等重量（各0.25）で統合した場合、バリデーションセットでRMSEが5.4143、MAEが4.1714に達し、最良の全体的性能を達成した。
4つのモダリティすべてをマックスアウト統合した場合、RMSEが5.3586、MAEが4.3714に達し、平均ベースの統合をわずかに上回った。これは、予測の信頼性を最大化することで、より高いロバストネスが得られることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。