Skip to main content
QUICK REVIEW

[論文レビュー] Attention Bottlenecks for Multimodal Fusion

Arsha Nagrani, Shan Yang|arXiv (Cornell University)|Jun 30, 2021
Music and Audio Processing参考文献 62被引用数 264
ひとこと要約

本論文はMultimodal Bottleneck Transformer (MBT)を提案し、ボトルネックトークンを通じたクロスモーダル結合を制限することで、音声-映像の動画分類を改善し、計算を削減し、AudioSet, Epic-Kitchens100, VGGSoundで最先端の結果を達成します。

ABSTRACT

Humans perceive the world by concurrently processing and fusing high-dimensional inputs from multiple modalities such as vision and audio. Machine perception models, in stark contrast, are typically modality-specific and optimised for unimodal benchmarks, and hence late-stage fusion of final representations or predictions from each modality (`late-fusion') is still a dominant paradigm for multimodal video classification. Instead, we introduce a novel transformer based architecture that uses `fusion bottlenecks' for modality fusion at multiple layers. Compared to traditional pairwise self-attention, our model forces information between different modalities to pass through a small number of bottleneck latents, requiring the model to collate and condense the most relevant information in each modality and only share what is necessary. We find that such a strategy improves fusion performance, at the same time reducing computational cost. We conduct thorough ablation studies, and achieve state-of-the-art results on multiple audio-visual classification benchmarks including Audioset, Epic-Kitchens and VGGSound. All code and models will be released.

研究の動機と目的

  • 構造化されたボトルネックを通じてクロスモーダル相互作用を実現し、遅延融合を超えるマルチモーダル融合を動機付ける。
  • MBTを提案し、 fusion ボトルネックを介してクロスモーダル情報の流れを制約して、二乗的なアテンションコストを削減する。
  • 標準的な音声-映像ビデオベンチマークでMBTを評価し、最先端手法と比較する。
  • 融合層の配置(初期/中間/後期)とボトルネックサイズが性能と効率に与える影響を分析する。

提案手法

  • 音声と映像入力をパッチとして表現し、別々のモダリティトークンを用いてトランスフォーマートークンへ埋め込む。
  • 各層内の小さな潜在ユニット集合を介してクロスモーダル情報が通過するように、融合ボトルネックトークンを導入する。
  • 通常の自己注意、モダリティ特異パラメータを用いたクロスアテンション、またはボトルネックベースのクロスモーダルアテンションを許可し、ボトルネックが層内のクロスモーダルフローを制限する。
  • 初期融合や後期融合よりも中間融合(後半の層での融合)を用いて、一モード特征学習とクロスモーダル相互作用のバランスをとる実験。
  • ViT風のバックボーンを用いて、データ拡張と modality MixUp を適用し、AudioSet、Epic-Kitchens-100、VGGSound で訓練・評価する。

実験結果

リサーチクエスチョン

  • RQ1小さなボトルネックにクロスモーダルアテンションを制限することで、性能を犠牲にすることなくマルチモーダル融合の効率を向上させることができるか?
  • RQ2ボトルネックを用いる中間融合は、音声-映像ビデオベンチマーク全体で初期融合または後期融合を上回るか?
  • RQ3ボトルネックサイズと融合層の配置が精度と計算量に与える影響はどの程度か?
  • RQ4モダリティ特異的ウェイトと入力サンプリング戦略はマルチモーダル融合の性能に影響を与えるか?

主な発見

  • ボトルネック融合を用いたMBTは、制限のないクロスモーダル融合を上回り、計算コストを削減する。
  • ボトルネックを用いる中間融合は、AudioSet、Epic-Kitchens-100、VGGSoundで最先端の性能を達成する。
  • AudioSetでは、MBTが前世代の最先端を5.9 mAP(相対改善12.7%)上回る。
  • 少数のボトルネックトークン(B=4)は、後期融合に比べて大きな利得をもたらし、追加計算も少なくて済む。
  • アテンションマップはMBTが音声イベントに関連する意味的に重要な領域を局在させることを示し、効果的なクロスモーダル条件付けを強調している。
  • MBTは、クリップ長の変化やデータセットサイズの違いにも頑健な性能を維持し、すべてのデータセットで単一モダリティのベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。