QUICK REVIEW

[論文レビュー] Multimodal Utterance-level Affect Analysis using Visual, Audio and Text Features

Didan Deng, Yuqian Zhou|arXiv (Cornell University)|May 2, 2018

Emotion and Mood Recognition参考文献 23被引用数 32

ひとこと要約

本論文は、視覚的、聴覚的、文脈的特徴を早期統合によって統合するマルチモーダル深層学習モデルを提案し、発話レベルの感情認識を向上させることを目的としている。視覚的特徴における時間的モデリングにLSTMを活用し、それらを音声およびテキスト表現と統合することで、OMG-Emotionデータセット上でアーザル（Arousal）のCCCが0.400、バレンス（Valence）のCCCが0.353に達し、単一モダリティのベースラインを上回る性能を示した。

ABSTRACT

The integration of information across multiple modalities and across time is a promising way to enhance the emotion recognition performance of affective systems. Much previous work has focused on instantaneous emotion recognition. The 2018 One-Minute Gradual-Emotion Recognition (OMG-Emotion) challenge, which was held in conjunction with the IEEE World Congress on Computational Intelligence, encouraged participants to address long-term emotion recognition by integrating cues from multiple modalities, including facial expression, audio and language. Intuitively, a multi-modal inference network should be able to leverage information from each modality and their correlations to improve recognition over that achievable by a single modality network. We describe here a multi-modal neural architecture that integrates visual information over time using an LSTM, and combines it with utterance level audio and text cues to recognize human sentiment from multimodal clips. Our model outperforms the unimodal baseline, achieving the concordance correlation coefficients (CCC) of 0.400 on the arousal task, and 0.353 on the valence task.

研究の動機と目的

視覚的、聴覚的、文脈的モダリティを統合することで、長期的かつ発話レベルの感情認識を向上させること。
マルチモーダル感情分析における早期統合と後期統合の戦略の有効性を調査すること。
時間的モデリングとしてLSTMを用いることで、視覚的および聴覚的特徴の感情の段階的変化を捉える有効性を評価すること。
単一モダリティの性能とマルチモーダル統合の性能を比較し、感情予測精度の向上を評価すること。
ASRエラーが発生する状況下で、語彙ベースのテキスト特徴と順序ベースのNLPモデルのロバスト性を分析すること。

提案手法

視覚的特徴はVGG-FaceとOpenFaceを用いて抽出され、それらの連結によって統合視覚表現が形成される。
音声的特徴は0.5秒のフレーム単位でopenSMILEを用いて抽出され、時間的ダイナミクスをモデル化するため64ユニットのLSTM層を通過する。
テキスト的特徴は感情の語彙ベースの辞書から導出され、データセットの文字起こしエラーを考慮し、単語埋め込みやRNNに依存しない。
早期統合は、3つの単一モダリティ表現を連結し、回帰に用いる2層の全結合ネットワークに供給することで実現される。
一致相関係数（CCC）に基づく損失関数を用いて学習を行い、一致相関を最適化する。正則化のため、エポックの早期停止とドロップアウト（0.5）を適用する。
検証セットでの性能向上を図るため、$1 - \rho_c$ 損失関数を用いたファインチューニングを実施する。

実験結果

リサーチクエスチョン

RQ1視覚的、聴覚的、文脈的特徴の早期統合は、後期統合と比較して発話レベルの感情認識でより優れた性能を示すか？
RQ2視覚的および聴覚的特徴におけるLSTMベースの時間的モデリングは、感情の段階的変化を捉えるのにどの程度有効か？
RQ3なぜ単純な感情語彙ベースの特徴が、GloVe やLSTMのようなより複雑なNLPモデルを上回るのか？
RQ4マルチモーダル統合は、OMG-Emotionデータセット上での単一モダリティベースラインと比較して、感情認識を顕著に向上させられるか？
RQ5回帰における連続的感情予測の性能に、損失関数の選択（例：CCC 対 MSE）が与える影響は何か？

主な発見

提案されたマルチモーダルモデルは、アーザルタスクでCCCが0.400、バレンスタスクでCCCが0.353を達成し、すべての単一モダリティベースラインを上回った。
マルチモーダル特徴の早期統合は後期統合を上回る性能を示し、アーザルのCCCが0.386、バレンスのCCCが0.305であったのに対し、後期統合ではそれぞれ0.311および0.280であった。
ファインチューニングにより$1 - \rho_c$ 損失関数を適用したことで、アーザルのCCCが0.386から0.400に、バレンスのCCCが0.305から0.353に向上した。
OpenFace特徴を用いた単一モダリティモデルは、アーザルでCCCが0.046、バレンスでCCCが0.080を示し、統合視覚特徴（0.175および0.261）と比較して顕著に低い性能であった。
LSTMを用いない音声モデルはLSTMベースのバージョンを上回り、アーザルでCCCが0.273、バレンスでCCCが0.266を記録した。これは、この設定下ではLSTMが音声モデリングに恩恵をもたらさなかったことを示唆している。
テキストモダリティでは感情語彙ベースの特徴が最も優れた性能を示し、アーザルでCCCが0.137、バレンスでCCCが0.259であった。これは、ASRエラーに対してロバストであるため、単語埋め込みやLSTMベースのモデルを上回ったものと推察される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。