[論文レビュー] VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
VALOR は MGA と MGC タスクと VALOR-1M データセットを用いた tri-modality pretraining モデル(視覚・音声・言語)を導入し、複数のクロスモーダリティベンチマークで最先端の結果を達成します。
In this paper, we propose a Vision-Audio-Language Omni-peRception pretraining model (VALOR) for multi-modal understanding and generation. Different from widely-studied vision-language pretraining models, VALOR jointly models relationships of vision, audio and language in an end-to-end manner. It contains three separate encoders for single modality representations, and a decoder for multimodal conditional text generation. We design two pretext tasks to pretrain VALOR model, including Multimodal Grouping Alignment (MGA) and Multimodal Grouping Captioning (MGC). MGA projects vision, language and audio to the same common space, building vision-language, audio-language and audiovisual-language alignment simultaneously. MGC learns how to generate text tokens in conditions of vision, audio or their both. To promote vision-audio-language pretraining research, we construct a large-scale high-quality tri-modality dataset named VALOR-1M, which contains 1M audiable videos with human annotated audiovisual captions. Extensive experiments show that VALOR can learn strong multimodal correlations and be generalized to various downstream tasks (e.g., retrieval, captioning and question answering), with different input modalities (e.g., vision-language, audio-language and audiovisual-language). VALOR achieves new state-of-the-art performances on series of public cross-modality benchmarks. Code and data are available at project page https://casia-iva-group.github.io/projects/VALOR.
研究の動機と目的
- 視覚言語を超える tri-modality 理解を、音声を中核モダリティとして統合することを動機付ける。
- 視覚・音声・言語それぞれのエンコーダと、マルチモーダルデコーダを備えたエンドツーエンドの VALOR アーキテクチャを提案する。
- モーダリティ間とグループ間(T-V、T-A、T-AV)を整列・生成する前処理タスク MGA と MGC を導入する。
- ヒトが注釈した視聴覚キャプションを含む大規模視覚-音声-言語データセット VALOR-1M、視覚-聴覚-言語評価用 VALOR-32K を構築する。
提案手法
- 3 つの別個のエンコーダ(テキスト、ビジョン、オーディオ)と、条件付きテキスト生成のマルチモーダルデコーダ。
- Multimodal Grouping Alignment (MGA): テキストを視覚、音声、視聴覚モダリティと、細粒度のグループベース空間で整列させる対比学習。
- Multimodal Grouping Captioning (MGC): vision、audio、またはそれらの組み合わせを条件として、クロスアテンションを用いてモダリティを融合し、マスクされたテキストトークンを再構成する因果的Masked Language Modeling。
- トークンやモダリティ要素間の per_token および per_frame/clip の相互作用を用いた、細粒度な類似度計算と、トークン/フレーム/クリップの学習可能ウェイト付け。
- トレーニング目的は MGA と MGC の損失を、バランスハイパーパラメータ alpha で組み合わせて L = alpha * L_MGA + L_MGC。
- 下流タスクへの適応は、検索用の MGA または MGC 損失を選択し、タスクに応じてマルチモーダルデコーダの使用有無を決定する。
実験結果
リサーチクエスチョン
- RQ1ビジョン-言語 pretraining を超える tri-modality pretraining(視覚・音声・言語)は、クロスモーダリティ理解を向上させるか?
- RQ2MGA と MGC は、視覚、音声、視聴覚入力間で、識別的・生成的タスクの両方において堅牢な整列と生成を可能にするか?
- RQ3VALOR-1M および VALOR-32K を用いた retrieval、captioning、QA のデータセット横断で、 VALOR はどの程度スケールするか?
- RQ4制限されたモダリティ特化のファインチューニングで、VALOR は vision-language、audio-language、audiovisual-language のベンチマークに一般化できるか?
- RQ5三つのモダリティ間の細粒度トークン-フレーム/クリップ相互作用に基づく地固めから、どのような利得が得られるか?
主な発見
| 方法 | サンプル数 | モダリティ | VALOR-32K | MSRVTT | DiDeMo | ActivityNet | LSMDC | VATEX | |
|---|---|---|---|---|---|---|---|---|---|
| ClipBert | 5.6M | V | - | 22.0/46.8/59.9 | 20.4/48.0/60.8 | - | - | - | |
| Frozen | 6.1M | V | 32.9/60.4/71.2 | 32.5/61.5/71.2 | 31.0/59.8/72.4 | - | 15.0/30.8/39.8 | - | |
| BridgeFormer | 5.5M | V | - | 37.6/64.8/75.1 | 37.0/62.2/73.9 | - | 17.9/35.4/44.5 | - | |
| MILES | 5.5M | V | - | 37.7/63.6/73.8 | 36.6/63.9/74.0 | - | 17.8/35.6/44.1 | - | |
| OA-Trans | 5.5M | V | - | 35.8/63.4/76.5 | 34.8/64.4/75.1 | - | 18.2/34.3/43.7 | - | |
| Nagrani et al. | 1.03M | V+A | - | 35.8/65.1/76.9 | - | - | - | - | |
| LF-VILA | 8.5M | V | - | - | 35.0/64.5/75.8 | 35.3/65.4/- | - | - | |
| VALOR_B^{-} | 5.5M | V | 43.3/70.3/80.0 | 36.2/64.7/75.4 | 43.2/73.9/82.4 | 37.5/67.9/80.4 | 20.0/39.1/49.0 | 59.4/90.5/95.4 | |
| VALOR_B | 6.5M | V+A | 67.9/89.7/94.4 | 43.0/72.2/82.1 | 52.2/80.8/86.8 | 50.5/79.6/89.1 | 25.1/45.8/55.2 | 67.5/94.1/97.4 | |
| SINGULARITY | 17M | V | - | 41.5/68.7/77.0 | 53.9/79.4/86.9 | 47.1/75.5/85.5 | - | - | - |
| LAVENDER | 30M | V | - | 40.7/66.9/77.6 | 53.4/78.6/85.3 | - | 26.1/46.4/57.3 | - | |
| MV-GPT | 53M | V+S | - | 37.3/65.5/75.1 | - | - | - | - | |
| VALOR (Ours) | 6.5M | V+A | 67.9/89.7/94.4 | 43.0/72.2/82.1 | 52.2/80.8/86.8 | 50.5/79.6/89.1 | 25.1/45.8/55.2 | 67.5/94.1/97.4 |
- VALOR はテキスト-動画検索、動画 QA、テキスト-音声検索など、広範なクロスモダリティベンチマークで最先端の結果を達成した。
- VALOR-32K AV ベンチマークは、視聴覚検索とキャプション生成タスクで堅調な性能を示し、MSRVTT、DiDeMo、ActivityNet、LSMDC、VATEX などのデータセットで従来手法を上回る。
- VALOR-B 系列(事前学習データを変えたもの)は、視覚のみのテキストおよび視覚-音声-テキストタスクで競争力あるいは優れた結果を示し、クロスモーダリティ学習が効果的であることを示唆する。
- VALOR は、パラメータ数が小さいにもかかわらず、いくつかのキャプション生成ベンチマークでより大規模な vision-language モデルを上回り、 tri-modality pretraining による効率性を強調する。
- VALOR-1M/VALOR-32K データとモダリティ-グルーピング前学習は、視覚・聴覚・視聴覚入力にまたがる検索、キャプション生成、および QA のクロスモーダリティ一般化を堅牢に実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。