Skip to main content
QUICK REVIEW

[論文レビュー] Deep Learning based Emotion Recognition System Using Speech Features and Transcriptions

Suraj Tripathi, Abhay Kumar|arXiv (Cornell University)|Jun 11, 2019
Emotion and Mood Recognition参考文献 24被引用数 56
ひとこと要約

本論文は、音声特徴(スペクトログラム、MFCC)とテキスト書き起こしを組み合わせるさまざまな深層ニューラルネットワークアーキテクチャを用いた話者感情認識手法を提案し、MFCC-Text CNN が IEMOCAP データで最良の精度を達成している。

ABSTRACT

This paper proposes a speech emotion recognition method based on speech features and speech transcriptions (text). Speech features such as Spectrogram and Mel-frequency Cepstral Coefficients (MFCC) help retain emotion-related low-level characteristics in speech whereas text helps capture semantic meaning, both of which help in different aspects of emotion detection. We experimented with several Deep Neural Network (DNN) architectures, which take in different combinations of speech features and text as inputs. The proposed network architectures achieve higher accuracies when compared to state-of-the-art methods on a benchmark dataset. The combined MFCC-Text Convolutional Neural Network (CNN) model proved to be the most accurate in recognizing emotions in IEMOCAP data.

研究の動機と目的

  • 音響特徴と書き起こしからの意味情報の両方を活用して、感情認識を動機づけ・向上させる。
  • 音声特徴とテキスト入力のさまざまな組み合わせが認識精度にどのように影響するかを評価する。
  • 感情認識のためのマルチモーダル入力を最も有効に活用するネットワークアーキテクチャを特定する。

提案手法

  • スペクトログラムや MFCC などの音響特徴を抽出して低レベルの感情手掛かりを保持する。
  • 感情に関連する意味を捉えるために書き起こしを組み込む。
  • 異なる特徴入力の組み合わせを取る複数のDNNアーキテクチャを用いて実験する。
  • IEMOCAP ベンチマークデータセットで訓練および評価する。
  • 提案モデルを最先端手法と比較する。
  • 組み合わせ入力を用いた MFCC-Text CNN が最高の精度を示すことを特定する。

実験結果

リサーチクエスチョン

  • RQ1音声特徴と書き起こしを組み合わせることで、いずれか一方のモダリティだけを用いる場合より感情認識の精度を向上させることができるか?
  • RQ2音響情報とテキスト情報を最も効果的に統合するニューラルネットワークアーキテクチャはどれか?
  • RQ3このタスクにおけるCNN/DNNモデルで、スペクトログラムと MFCC 特徴がテキスト入力とどのように相互作用するか?

主な発見

  • Combined MFCC and text input with CNN yields the highest accuracy on IEMOCAP in their experiments.
  • 音声特徴は低レベルの感情手掛かりを保持し、書き起こしはより良い識別のための意味情報を捉える。
  • 提案されたネットワークはベンチマークデータセットで最先端手法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。