Skip to main content
QUICK REVIEW

[論文レビュー] Clinical Depression and Affect Recognition with EmoAudioNet.

Emna Rejaibi, Daoud Kadoch|arXiv (Cornell University)|Nov 1, 2019
Emotion and Mood Recognition参考文献 5被引用数 7
ひとこと要約

EmoAudioNet は、時間周波数表現とスペクトル可視化を用いて、自動的な臨床的うつ病および連続的感情認識を向上させるためのディープニューラルネットワークである。RECOLA および DAIC-WOZ データセットにおいて最先端の性能を達成し、既存の手法よりも優れた正確性を示している。

ABSTRACT

Automatic analysis of emotions and affects from speech is an inherently challenging problem with a broad range of applications in Human-Computer Interaction (HCI), health informatics, assistive technologies and multimedia retrieval. Understanding human's specific and basic emotions and reacting accordingly can improve HCI. Besides, giving machines skills to understand human's emotions when interacting with other humans can help humans with a socio-affective intelligence. In this paper, we present a deep Neural Network-based architecture called EmoAudioNet which studies the time-frequency representation of the audio signal and the visual representation of its spectrum of frequencies. Two applications are performed using EmoAudioNet : automatic clinical depression recognition and continuous dimensional emotion recognition from speech. The extensive experiments showed that the proposed approach significantly outperforms the state-of-art approaches on RECOLA and DAIC-WOZ databases. The competitive results call for applying EmoAudioNet on others affects and emotions recognition from speech applications.

研究の動機と目的

  • 臨床的うつ病および連続的感情状態を音声から認識できるディープラーニングモデルの開発を目的とする。
  • 音声信号の時間周波数表現とスペクトル可視化特徴を活用することで、感情認識を向上させることを目的とする。
  • 音声データを用いたうつ病および感情認識タスクにおいて、既存の最先端手法を上回ることを目的とする。
  • 人間-コンピュータインタラクションにおける社会的・感情的知能のためのマルチモーダル音声表現学習の可能性を検討することを目的とする。

提案手法

  • EmoAudioNet は、音声信号の時間周波数表現を処理するディープニューラルネットワークアーキテクチャを採用している。
  • 感情認識のための特徴学習を強化するために、周波数スペクトルの視覚的表現を組み込んでいる。
  • 原始的な音声データ上でエンドツーエンドに訓練され、うつ病および連続的感情認識のための判別性の高い特徴を抽出する。
  • RECOLA および DAIC-WOZ データベースからのラベル付きデータを用いた教師あり学習により、分類および回帰タスクを最適化している。
  • 畳み込み層を統合することで、スペクトログラム内の局所的パターンと音声内の時間的ダイナミクスを捉えている。
  • このフレームワークは、臨床的うつ病の二値分類と、感情の連続的次元(例:価値、覚醒)の回帰という、主に2つのタスクをサポートしている。

実験結果

リサーチクエスチョン

  • RQ1時間周波数特徴とスペクトル可視化特徴を統合したディープニューラルネットワークは、音声からの臨床的うつ病検出を向上させることができるか?
  • RQ2EmoAudioNet は、音声からの連続的次元感情認識において、最先端のモデルと比較してどうなるか?
  • RQ3マルチモーダル音声表現は、ベンチマークデータセットにおける感情認識性能をどの程度向上させるか?
  • RQ4提案されたアーキテクチャは、うつ病および基本的感情を超えた他の感情認識タスクにも一般化可能か?

主な発見

  • EmoAudioNet は、連続的次元感情認識のための RECOLA データセットにおいて、最先端のアプローチを顕著に上回っている。
  • 臨床的うつ病認識において、EmoAudioNet は既存の手法と比較して優れた性能を達成している。
  • 時間周波数表現と視覚的スペクトログラム特徴の統合により、感情認識の正確性が向上している。
  • 両方のデータセットにおける優れた結果は、EmoAudioNet が多様な音声ベースの感情認識応用分野における強力な一般化可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。