QUICK REVIEW

[論文レビュー] Multimodal Fusion with Deep Neural Networks for Audio-Video Emotion Recognition

Juan Diego Ortega, Mohammed Senoussaoui|arXiv (Cornell University)|Jul 6, 2019

Speech and Audio Processing参考文献 27被引用数 43

ひとこと要約

新規の Deep Neural Network による音声・映像・テキストのエンドツーエンド多モーダル融合による連続感情予測で、AVEC SEWAデータ上の早期/後期融合ベースラインを上回る CCC を達成。

ABSTRACT

This paper presents a novel deep neural network (DNN) for multimodal fusion of audio, video and text modalities for emotion recognition. The proposed DNN architecture has independent and shared layers which aim to learn the representation for each modality, as well as the best combined representation to achieve the best prediction. Experimental results on the AVEC Sentiment Analysis in the Wild dataset indicate that the proposed DNN can achieve a higher level of Concordance Correlation Coefficient (CCC) than other state-of-the-art systems that perform early fusion of modalities at feature-level (i.e., concatenation) and late fusion at score-level (i.e., weighted average) fusion. The proposed DNN has achieved CCCs of 0.606, 0.534, and 0.170 on the development partition of the dataset for predicting arousal, valence and liking, respectively.

研究の動機と目的

野外環境での堅牢な感情認識を複数モダリティ（音声、映像、テキスト）を用いて動機づける。
モダリティ固有の表現と統合表現を共同で学習する DNN を設計する。
AVEC SEWA/RECOLA データセットに対して、提案アーキテクチャを早期融合（特徴量レベル）および後期融合（スコアレベル）のベースラインと比較評価する。

提案手法

独立したモダリティ固有レイヤを備え、識別性の高い表現を学習する DNN を提案。
モダリティ表現を結合する結合層（concatenation-based merge layer）を用い、その後全結合層と回帰層で融合表現を処理する。
回帰には単一の線形ニューロンを用い、予測とラベルの大きさを整合させるスケーリングモジュールを併用。
Mean Squared Error loss で訓練し、最適モデルを選択するために Keras チェックポイントを使用。
CCC を改善するために、いくつかの後処理スケーリング（min-max、標準偏差比、十進スケーリング）を検討。
アーセオル、バレンス、リッピングの各次元で別個のアーキテクチャを用いて評価する。

実験結果

リサーチクエスチョン

RQ1連続感情予測のために、ハイブリッド DNN アーキテクチャはモダリティ固有表現と共通の結合を効果的に学習できるか。
RQ2エンドツーエンド多モーダル融合は現実的条件下で従来の早期（特徴量レベル）・後期（スコアレベル）融合を上回るか。
RQ3遅延補償、スケーリングなどの前処理・後処理手順が CCC に与える影響はどの程度か。
RQ4提案アーキテクチャは音声、映像、テキスト各モダリティおよび融合時にどの程度性能を発揮するか。
RQ5提案されたフィードフォワード融合を超える精度を得るために、時系列モデリング（再帰的構成など）は必要か。

主な発見

提案 DNN は AVEC SEWA における最先端の早期融合および後期融合ベースラインより CCC が高い。
提案融合アーキテクチャで開発セット CCC は最大で 0.606（アラウサルとリッピング）、0.534（バレンス）に達した。
テキストモダリティは特にリッピングで高情報量であり、融合は単一ソースに頼るよりモダリティを組み合わせることで利益を得る。
遅延補償と後処理スケーリングは CCC に大きく影響し、最適遅延（アラウサル/バレンス 1.5s、リキング 2.5s）が性能を改善。
特徴量、分類器、融合関数をエンドツーエンドで最適化できるアーキテクチャは、開発データ上で unimodal および早期/後期融合ベースラインを上回る。
テストセットの結果は過学習の可能性により低下が見られ、さらなる時系列モデリングまたは正則化が必要と示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。