QUICK REVIEW

[論文レビュー] Towards Robust Deep Neural Networks for Affect and Depression Recognition

Emna Rejaibi, Daoud Kadoch|arXiv (Cornell University)|Nov 1, 2019

Emotion and Mood Recognition被引用数 1

ひとこと要約

本稿では、音声からの感情およびうつ病の認識を向上させるために、時間周波数表現とスペクトログラムの視覚的特徴を活用する深層ニューラルネットワーク、EmoAudioNetを提案する。RECOLAおよびDAIC-WOZデータセットにおいて、アーザルの認識で89.30%、バレンスで91.44%、うつ病予測で73.25%のSOTA性能を達成した。

ABSTRACT

Intelligent monitoring systems and affective computing applications have emerged in recent years to enhance healthcare. Examples of these applications include assessment of affective states such as Major Depressive Disorder (MDD). MDD describes the constant expression of certain emotions: negative emotions (low Valence) and lack of interest (low Arousal). High-performing intelligent systems would enhance MDD diagnosis in its early stages. In this paper, we present a new deep neural network architecture, called EmoAudioNet, for emotion and depression recognition from speech. Deep EmoAudioNet learns from the time-frequency representation of the audio signal and the visual representation of its spectrum of frequencies. Our model outperforms the state-of-the-art methods for RECOLA and for DAIC-WOZ datasets and it reaches high accuracies of 89.30%, 91.44% and 73.25% in predicting arousal, valence, and depression, respectively.

研究の動機と目的

臨床的状況における音声信号を用いた主要うつ病性障害（MDD）の早期発見を目的とした頑健な深層学習モデルの開発。
臨床的およびインテリジェントなモニタリング応用における、アーザルおよびバレンスの感情状態認識の精度を向上させること。
MDDにおける低アーザルおよび低バレンスパターンの課題に、マルチモーダル音声表現を活用して対処すること。
ベンチマークデータセットにおいて、既存のSOTA手法を上回る性能を示す、感情およびうつ病認識タスクの両方での優れた性能を達成すること。

提案手法

EmoAudioNetは、音声信号の時間周波数表現とその視覚的スペクトログラム表現を処理することを目的とした深層ニューラルネットワークアーキテクチャである。
モデルは、スペクトル解析を通じて生の音声から特徴を抽出し、発話内の感情的側面を捉える。
エンドツーエンド学習を採用し、音声入力をアーザル、バレンス、およびうつ病レベルの予測にマッピングする。
アフェクティブ次元全体の性能最適化を目的として、RECOLAおよびDAIC-WOZデータセット上でネットワークを訓練する。
畳み込み層および全結合層を用いて、スペクトログラムおよび時間的特徴から階層的なパターンを抽出する。

実験結果

リサーチクエスチョン

RQ1深層ニューラルネットワークアーキテクチャは、臨床的状況における音声信号からアーザルおよびバレンスを効果的に認識できるか？
RQ2統合モデルは、既存の手法と比較して、どの程度うつ病検出の精度を向上させられるか？
RQ3時間周波数表現およびスペクトログラム表現は、MDD関連の発話における頑健な感情認識にどのように寄与するか？
RQ4音声および視覚的スペクトル特徴を統合することで、ベンチマークデータセット上で優れた性能が得られるか？

主な発見

EmoAudioNetは、RECOLAデータセットにおいて、アーザル認識で89.30%の予測精度を達成した。
モデルは、同じデータセットで91.44%のバレンス分類精度に達し、SOTA手法を上回った。
DAIC-WOZデータセットでは、うつ病認識で73.25%の精度を達成し、臨床的MDD検出において強力な性能を示した。
時間周波数表現とスペクトログラム表現の統合は、モデルの頑健性および予測性能を顕著に向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。