QUICK REVIEW

[論文レビュー] MSAF: Multimodal Split Attention Fusion

Lang Su, Chuqing Hu|arXiv (Cornell University)|Dec 13, 2020

Emotion and Mood Recognition参考文献 54被引用数 44

ひとこと要約

MSAFは軽量のチャネル-wise split-attention融合モジュールを導入し、CNN/RNNアーキテクチャのマルチモーダル特徴を統合。感情認識、感性分析、行動認識の分野で強力な結果を達成し、追加パラメータが少ない。

ABSTRACT

Multimodal learning mimics the reasoning process of the human multi-sensory system, which is used to perceive the surrounding world. While making a prediction, the human brain tends to relate crucial cues from multiple sources of information. In this work, we propose a novel multimodal fusion module that learns to emphasize more contributive features across all modalities. Specifically, the proposed Multimodal Split Attention Fusion (MSAF) module splits each modality into channel-wise equal feature blocks and creates a joint representation that is used to generate soft attention for each channel across the feature blocks. Further, the MSAF module is designed to be compatible with features of various spatial dimensions and sequence lengths, suitable for both CNNs and RNNs. Thus, MSAF can be easily added to fuse features of any unimodal networks and utilize existing pretrained unimodal model weights. To demonstrate the effectiveness of our fusion module, we design three multimodal networks with MSAF for emotion recognition, sentiment analysis, and action recognition tasks. Our approach achieves competitive results in each task and outperforms other application-specific networks and multimodal fusion benchmarks.

研究の動機と目的

モダリティ間で寄与する特徴を強調して、マルチモーダル信号の効率的な融合を動機づける。
事前学習済みの単一モーダル重みを用いてCNNおよびRNNアーキテクチャと相互運用できる軽量モジュールを開発する。
MSAFの有効性を感情認識、感性分析、行動認識のデータセットで示す。
実用的なマルチモーダルシステムのハイパーパラメータとデプロイメント上の考慮事項に関する指針を提供する。

提案手法

各モダリティの特徴チャネルを等サイズのブロックに分割する。
モダリティブロックを結合してマルチモーダル記述子を形成し、グローバルプーリングを介して共有チャネル記述子を計算する。
共通の変換とsoftmaxを用いてブロック間の各ブロック注意を生成し、抑制を制御する正則化項 lambda を導入する。
各モダリティ内のブロックに重みを付け直し、統合して強化されたモダリティ特徴を生成する。
過剰適合を抑制し頑健性を高めるために、任意でBlockDropoutを適用する。
シーケンスをセグメント化し、各セグメント内でブロック単位の注意を適用してMSAFをRNNに拡張する。

実験結果

リサーチクエスチョン

RQ1MSAFはCNNおよびRNNアーキテクチャ全体で最小限のパラメータオーバーヘッドでマルチモーダル特徴を効果的に融合できるか？
RQ2MSAFは感情認識、感性分析、行動認識において最先端の融合手法とどのように比較されるか？
RQ3パフォーマンスとロバスト性をタスク全体で最適化するハイパーパラメータ（C, r, lambda, p, q）は何か？

主な発見

Model	Fusion Stage	Accuracy	#Params
3D ResNeXt50 (Vis.)	-	62.99	25.88 M
1D CNN (Aud.)	-	56.53	0.03 M
Averaging	Late	68.82	25.92 M
Multiplicative β=0.3	Late	70.35	25.92 M
Multiplication	Late	70.56	25.92 M
Concat + FC	Early	71.04	26.87 M
MCBP	Early	71.32	51.03 M
MMTM	Inter.	73.12	31.97 M
MSAF	Inter.	74.86	25.94 M

MSAFは多くのベースラインよりも少ないパラメータで3つのタスクで最先端レベルと競合する成果を達成している。
感情認識（RAVDESS）ではMSAFがMMTMを上回り、パラメータも少なく（MSAF 25.94 M vs MMTM 31.97 M）、報告設定で74.86%の精度を達成。
感性分析（CMU-MOSEI）では、MSAFはよりシンプルなアーキテクチャで従来のマルチモーダル手法と同等かそれ以上を達成。
行動認識（NTU RGB+D CS）では、中間および後方統合を用いたMSAFが最先端の性能を達成（92.24% CS）。
BlockDropoutと lambda は抑制の過剰化と過学習を緩和するのに役立ち、特に小規模データセットで効果的。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。