QUICK REVIEW

[論文レビュー] Multimodal Speech Emotion Recognition and Ambiguity Resolution

Gaurav Sahu|arXiv (Cornell University)|Apr 12, 2019

Music and Audio Processing参考文献 19被引用数 42

ひとこと要約

本論文は、IEMOCAPにおける多模態（音声とテキスト）話者感情認識に対して、軽量な手作り特徴ベースのMLモデルと深層学習を比較し、単純なMLアンサンブルでもDL手法に匹敵すること、テキストを加えると性能が向上することを示している。

ABSTRACT

Identifying emotion from speech is a non-trivial task pertaining to the ambiguous definition of emotion itself. In this work, we adopt a feature-engineering based approach to tackle the task of speech emotion recognition. Formalizing our problem as a multi-class classification problem, we compare the performance of two categories of models. For both, we extract eight hand-crafted features from the audio signal. In the first approach, the extracted features are used to train six traditional machine learning classifiers, whereas the second approach is based on deep learning wherein a baseline feed-forward neural network and an LSTM-based classifier are trained over the same features. In order to resolve ambiguity in communication, we also include features from the text domain. We report accuracy, f-score, precision, and recall for the different experiment settings we evaluated our models in. Overall, we show that lighter machine learning based models trained over a few hand-crafted features are able to achieve performance comparable to the current deep learning based state-of-the-art method for emotion recognition.

研究の動機と目的

曖昧な感情定義にもかかわらず、感情認識の研究動機を提示する。
同じ手作り音声特徴で訓練した従来のMLモデルと、同じ特徴で訓練したDLモデルを比較する。
テキストモダリティと音声+テキスト融合が感情認識精度に与える影響を調査する。
IEMOCAPにおける音声のみ、テキストのみ、及び多模態設定でのモデルを評価する。
多模態SERにおける特徴の重要性への洞察を提供し、今後の改良点を議論する。

提案手法

8つの手作りの時間領域音声特徴を抽出する（ピッチ、ハーモニクス、エネルギー、ポーズ、中心モーメント）。
テキスト転写からTFIDF特徴を計算する。
同じ音声特徴を用いて、従来のML分類器（Random Forest、Gradient Boosting、SVM、Naive Bayes、Logistic Regression）を訓練し、DLモデル（MLP、LSTM）と比較する。
RF、XGBoost、MLPを組み合わせた単純なアンサンブル法を実装する（MNBとLRを追加した拡張アンサンブルを含む）。
多模態設定のため、音声特徴とテキスト特徴を単純に結合して統合する。
3つの設定（音声のみ、テキストのみ、音声+テキスト）で、正解率、適合率、再現率、F1スコアを用いて評価する。

実験結果

リサーチクエスチョン

RQ1IEMOCAPにおける6クラスの感情認識で、手作り音声特徴と従来のMLを用いたモデルはDLモデルとどのように比較されるか？
RQ2テキストデータの組み込みはSERの性能を向上させるか、また多模態融合は結果にどう影響するか？
RQ3感情予測に最も寄与する特徴はどれで、融合はモダリティ依存の曖昧さを解決するのに役立つか？
RQ4モダリティ（音声、テキスト、多模态）が感情クラス間の混同行列に与える影響は？
RQ5軽量モデルはこのタスクで最新のDL手法に近い、またはそれを上回る性能を達成できるか？

主な発見

8つの音声特徴で訓練された軽量MLアンサンブルは、IEMOCAPでより深いDLモデルと同等の性能を達成する。
音声のみの結果では、いくつかの設定でLSTMがアンサンブルE1に比べて低性能を示し、特に中立といくつかの密接な感情を区別する際に顕著である。
テキストのみのモデルは良好に動作し、TRE（テキストエンコーダ）は6つの感情クラスで堅牢に機能する。
音声+テキストの融合は、単一モダリティモデルと比べて指標を約14%改善し、モダリティ間の情報結合が強いことを示している。
テキスト特徴は怒りと幸福の正しく分類に寄与し、音声特徴は悲しみの検出を改善する。
ハーモニクスとポーズが、使用した8特徴の中で予測に最も重要な音声特徴として浮上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。