QUICK REVIEW

[論文レビュー] Zorro: the masked multimodal transformer

Adrià Recasens, Jason Lin|arXiv (Cornell University)|Jan 23, 2023

Speech and Audio Processing被引用数 11

ひとこと要約

Zorro は、Transformer にモダリティを意識したマスキングを導入し、単一のバックボーン内で単一モーダルおよび多モーダルの出力を生み出す。これにより、自己教師付き対比学習と多モーダルタスクに加えて単一モーダル推論を可能にする。高い音声-視覚のベンチマークを達成しつつ、単一モードの評価能力を保持する。

ABSTRACT

Attention-based models are appealing for multimodal processing because inputs from multiple modalities can be concatenated and fed to a single backbone network - thus requiring very little fusion engineering. The resulting representations are however fully entangled throughout the network, which may not always be desirable: in learning, contrastive audio-visual self-supervised learning requires independent audio and visual features to operate, otherwise learning collapses; in inference, evaluation of audio-visual models should be possible on benchmarks having just audio or just video. In this paper, we introduce Zorro, a technique that uses masks to control how inputs from each modality are routed inside Transformers, keeping some parts of the representation modality-pure. We apply this technique to three popular transformer-based architectures (ViT, Swin and HiP) and show that with contrastive pre-training Zorro achieves state-of-the-art results on most relevant benchmarks for multimodal tasks (AudioSet and VGGSound). Furthermore, the resulting models are able to perform unimodal inference on both video and audio benchmarks such as Kinetics-400 or ESC-50.

研究の動機と目的

一部のモダリティが欠けても機能する多モーダル知覚を動機づける。人間の知覚の柔軟性に触発され。
マスキングを通じて表現を単一モーダルと融合ストリームに分割し、望ましくないクロスモーダルの絡み合いを防ぐ Transformer アーキテクチャを開発する。
音声・映像のいずれか、または両方で動作できる単一モデル内で、教師あり学習と自己教師付き対比事前学習の双方を可能にする。
音声-視覚のベンチマークで最先端または競争力のある性能を示し、単一モーダルのベンチマークでの推論能力を示す。

提案手法

標準の Transformer バックボーン内で、3つの表現ストリーム（単一モーダル（音声または映像）と融合）を作る Zorro マスキングを提案する。
モダリティ固有および融合の注意マスキングを適用して、単一モーダルストリームから他のモダリティへの情報伝播を遮断し、モダリティ純粋な表現を保持する。
アーキテクチャ固有の調整を加えて Zorro を ViT、Swin、HiP バックボーンに拡張する。
音声、映像、融合、グローバル表現の出力を生成するために、クロスアテンションに基づくデコーディングクエリを使用する。
補助投影と温度スケールの Noise-Contrastive Estimation loss を介して、単一モーダル出力と融合出力を整合させる音声-視覚対照損失で事前学習を行う。
教師あり学習の間に4つの出力（音声、映像、融合、グローバル）を学習し、それぞれの出力の分類器を訓練し、予測を平均化する。

実験結果

リサーチクエスチョン

RQ1Transformer 内のマスキングは、自己教師付き損失を崩さずにクロスモーダル融合を可能にしつつ、単一モーダル表現を保持できるか。
RQ2単一の Zorro バックボーンは、マルチモーダルベンチマーク全体で効果的な自己教師付き音声-視覚事前学習と競争力のある教師あり微調整をサポートしますか。
RQ3複数モーダルのバックボーンを単一モーダルで評価する際、単一モーダル推論を維持または回復できますか。
RQ4AudioSet、VGGSound、Kinetics-400、ESC-50 における従来のマルチモーダルアーキテクチャに対する Zorro の比較的な利点は何ですか。
RQ5教師ありと自己教師あり設定で、異なるマスキング構成が性能に与える影響はどうですか。

主な発見

Zorro はいくつかの自己教師付きベンチマーク（AudioSet および VGGSound）でマルチモーダルタスクの最先端性能を達成する。
自己教師付き事前学習の下で、Zorro は AudioSet で教師あり事前学習との差を縮め、VGGSound および Kinetics-400 で競争力を維持する。
Zorro は、マルチモーダルデータで訓練されていても、映像・音声の両方のベンチマークで単一モーダル推論を可能にし、単一モーダル評価をサポートしないアーキテクチャよりも優位に立つ。
比較対象のアーキテクチャ（ViT、Swin、HiP）は異なるトレードオフを示す； Zorro-Swin はゼロから訓練したベースライン設定で強い結果を示し、ViT はモダリティ別パラメータ共有が使用される場合に堅牢な性能を提供する。
マスキング戦略（Zorro）はモダリティ純粋ストリームを維持するのに役立ち、表現崩壊を伴わない効果的な自己教師付き学習を可能にし、融合のためのクロスモーダル出力を許容する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。