[論文レビュー] VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
VATT は生のビデオ、音声、テキストを用いて畳み込みなしの Transformer を訓練し、多模态対比学習を用いる。監督付き事前学習なしで、ビデオアクション認識と音声イベント分類の分野で最先端の成果を達成します。
We present a framework for learning multimodal representations from unlabeled data using convolution-free Transformer architectures. Specifically, our Video-Audio-Text Transformer (VATT) takes raw signals as inputs and extracts multimodal representations that are rich enough to benefit a variety of downstream tasks. We train VATT end-to-end from scratch using multimodal contrastive losses and evaluate its performance by the downstream tasks of video action recognition, audio event classification, image classification, and text-to-video retrieval. Furthermore, we study a modality-agnostic, single-backbone Transformer by sharing weights among the three modalities. We show that the convolution-free VATT outperforms state-of-the-art ConvNet-based architectures in the downstream tasks. Especially, VATT's vision Transformer achieves the top-1 accuracy of 82.1% on Kinetics-400, 83.6% on Kinetics-600, 72.7% on Kinetics-700, and 41.1% on Moments in Time, new records while avoiding supervised pre-training. Transferring to image classification leads to 78.7% top-1 accuracy on ImageNet compared to 64.7% by training the same Transformer from scratch, showing the generalizability of our model despite the domain gap between videos and images. VATT's audio Transformer also sets a new record on waveform-based audio event recognition by achieving the mAP of 39.4% on AudioSet without any supervised pre-training. VATT's source code is publicly available.
研究の動機と目的
- 大規模な多模态ビデオデータを活用して、ラベル付きデータを回避する動機づけ。
- 生のビデオ、音声、テキスト入力を処理する畳み込みなしの Transformer アーキテクチャの開発。
- 横断モーダル整合性のための階層的共通空間を用いた多模態対比学習目的の提案。
- 学習された表現をビデオアクション認識、音声イベント分類、画像分類、テキストからビデオへの検索で評価。
提案手法
- ビデオ、音声、テキスト入力それぞれに対してモダリティ固有のトークン化と別個の位置エンコーディングを使用。
- シーケンス表現のための集約トークンを備えた畳み込みなしの Transformer ボディを採用。
- 訓練中にランダムなトークンのサブセットをドロップする DropToken の導入で計算量を削減。
- NCE および MIL-NCE 損失を介して video, audio, text を整列させる投影 g を用いた意味的に階層的な共通空間を構築。
- HowTo100M (video-audio-text) および AudioSet (video-audio) 上で多模態対比目的で訓練。
- 任意でモダリティ間で重みを共有してモダリティ非依存のバックボーンを形成する(VATT-MA)。
実験結果
リサーチクエスチョン
- RQ1単一の畳み込みなし Transformer バックボーンが、生のビデオ・音声・テキストを自己教師付きの多模態目標で学習できるか?
- RQ2モダリティ非依存の Transformer は、タスク全般でモダリティ別バックボーンと同等の性能を発揮するか?
- RQ3DropToken が高解像度の多模態データにおける訓練効率と下流の性能にどのように影響するか?
- RQ4VATT 表現の画像分類とゼロショットのテキストからビデオ検索への移行能力はどの程度か?
主な発見
| Method | Kinetics-400 Top-1 | Kinetics-400 Top-5 | Kinetics-600 Top-1 | Kinetics-600 Top-5 | Moments in Time Top-1 | Moments in Time Top-5 | TFLOPs |
|---|---|---|---|---|---|---|---|
| VATT-Base | 79.6 | 94.9 | 80.5 | 95.5 | 38.7 | 67.5 | 9.09 |
| VATT-Medium | 81.1 | 95.6 | 82.4 | 96.1 | 39.5 | 68.2 | 15.02 |
| VATT-Large | 82.1 | 95.5 | 83.6 | 96.6 | 41.1 | 67.7 | 29.80 |
| VATT-MA-Medium | 79.9 | 94.9 | 80.8 | 95.5 | 37.8 | 65.9 | 15.02 |
- 微調整時の Kinetics-400 の Top-1 精度 82.1%、Kinetics-600 の Top-1 精度 83.6%、Moments in Time の Top-1 41.1%(すべて監視付き事前学習なし)。
- 多模態データから事前学習された VATT の視覚バックボーンは ImageNet に移行でき、Top-1 78.7%、監視付き事前学習済み ViT などと同等の性能。
- AudioSet で微調整された Audio Transformer は平均適合率 (mAP) 39.4% を達成し、CNN ベースのベースラインを上回る。
- YouCook2 および MSR-VTT で VATT の動画-テキスト空間を用いたゼロショットのテキスト-to-ビデオ検索は、従来の多模態手法と比べて競争力のある結果を示し、バッチサイズとエポックの影響が観察される。
- モダリティ非依存バックボーン(VATT-MA)は微調整後、ビデオアクション認識でモダリティ別バックボーンと同等の性能を示す。
- DropToken は下流性能を維持しつつ事前学習の計算量を大幅に削減し、高解像度入力を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。