[論文レビュー] Looking At The Body: Automatic Analysis of Body Gestures and Self-Adaptors in Psychological Distress
本論文は、自己報告による心理的苦痛ラベルが付与されたインタビュー動画の新しい音声・視覚データセットを提案し、抑うつおよび不安の行動的兆候である身体の動きと不規則な動作(ファイジティング)を自動で検出する階層的ディープラーニングモデルを導入する。この手法はマルチモーダル・ディープノイズ除去オートエンコーダーと改良型フィッシャー・ベクトル符号化を組み合わせており、ファイジティング特徴量が苦痛分類性能を顕著に向上させることを示している。特に不安の予測において顕著な改善が見られた。
Psychological distress is a significant and growing issue in society. Automatic detection, assessment, and analysis of such distress is an active area of research. Compared to modalities such as face, head, and vocal, research investigating the use of the body modality for these tasks is relatively sparse. This is, in part, due to the limited available datasets and difficulty in automatically extracting useful body features. Recent advances in pose estimation and deep learning have enabled new approaches to this modality and domain. To enable this research, we have collected and analyzed a new dataset containing full body videos for short interviews and self-reported distress labels. We propose a novel method to automatically detect self-adaptors and fidgeting, a subset of self-adaptors that has been shown to be correlated with psychological distress. We perform analysis on statistical body gestures and fidgeting features to explore how distress levels affect participants' behaviors. We then propose a multi-modal approach that combines different feature representations using Multi-modal Deep Denoising Auto-Encoders and Improved Fisher Vector Encoding. We demonstrate that our proposed model, combining audio-visual features with automatically detected fidgeting behavioral cues, can successfully predict distress levels in a dataset labeled with self-reported anxiety and depression levels.
研究の動機と目的
- 研究用に公開可能で、全身の映像データと心理的苦痛ラベルが付与されたデータセットが不足している問題に対処すること。
- 視覚データから自己適応行動(セルフアダプター)とファイジティングを自動で検出するシステムを開発すること。これらは心理的苦痛の既知の行動的兆候である。
- 身体の動きと自己適応行動が自己報告による不安および抑うつレベルとどのように相関しているかを調査すること。
- ディープラーニングを用いたマルチモーダル苦痛分類において、ファイジティング特徴量の有効性を評価すること。
- 提案されたファイジティング検出モデルが、新しいデータセットおよび公開済みの手動ラベル付きファイジティングデータセットの両方で有効に機能するかを検証すること。
提案手法
- 標準化されたアンケートを用いて不安および抑うつレベルを自己報告した参加者による非臨床的インタビューの新しい音声・視覚データセットを収集した。
- 動画フレームからのポーズ推定と時系列モデリングを用いて、セルフアダプターとファイジティングを自動検出する階層的モデルを提案した。
- 苦痛度と関連する行動パターンを解明するために、身体の動きとファイジティング特徴量に対する統計的分析を実施した。
- 音声、視覚、ファイジティングモダリティからのフレーム単位特徴量を符号化するために、マルチモーダル・ディープノイズ除去オートエンコーダー(multi-DDAE)を用いたマルチモーダル・ディープラーニングパイプラインを実装した。
- 符号化された特徴量から、コンactかつ識別性の高い動画レベル表現を生成するために、改良型フィッシャー・ベクトル符号化を用いた。
- 特徴量選択にはランダムフォレストを採用し、二値苦痛分類のためのロジスティック回帰およびマルチレイヤーパーセプトロン分類器を訓練した。
実験結果
リサーチクエスチョン
- RQ1身体の動きとファイジティング行動は、自己報告による不安および抑うつレベルとどのように相関しているか?
- RQ2制約のない動画インタビューから、自動システムがファイジティングとセルフアダプターを高い正確性で検出できるか?
- RQ3ファイジティング特徴量は、マルチモーダルモデルの心理的苦痛分類性能をどの程度向上させるか?
- RQ4統計的手法とディープラーニングの特徴表現(例:統計的 vs. ディープラーニング)は、苦痛関連行動的兆候をどの程度うまく捉えられるか?
- RQ5提案されたファイジティング検出モデルは、異なるファイジティング行動を示すデータセット間で一般化可能か?
主な発見
- 提案されたファイジティング検出モデルは、手動ラベル付きファイジティングデータセットで80%のリコールを達成し、先行する最先端手法を上回った。
- ファイジティング特徴量は、常に分類性能を向上させ、特にAUCとF1スコアにおいて顕著な向上が見られた。
- 音声、視覚、ファイジティング特徴量を統合したマルチモーダル・ディープラーニングフレームワークは、ファイジティング特徴量を含まないモデルに比べ、優れた分類結果を達成した。
- 統計的分析の結果、抑うつスコアが高かった参加者は、より頻繁で長時間にわたるセルフアダプターとファイジティング行動を示した。
- アブレーションスタディにより、ファイジティング特徴量が苦痛検出において顕著で識別性の高いモダリティであることが確認され、特に不安分類において顕著であった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。