[論文レビュー] WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training
WenLanはMoCo-inspiredの大規模なネガティブ辞書を用いた二塔式のクロスモーダル対照学習モデル BriVL を提示します。30Mの画像-テキスト中国語データセットで訓練され、下流のvision-languageタスクでUNITERとCLIPを上回ります。
Multi-modal pre-training models have been intensively explored to bridge vision and language in recent years. However, most of them explicitly model the cross-modal interaction between image-text pairs, by assuming that there exists strong semantic correlation between the text and image modalities. Since this strong assumption is often invalid in real-world scenarios, we choose to implicitly model the cross-modal correlation for large-scale multi-modal pre-training, which is the focus of the Chinese project `WenLan' led by our team. Specifically, with the weak correlation assumption over image-text pairs, we propose a two-tower pre-training model called BriVL within the cross-modal contrastive learning framework. Unlike OpenAI CLIP that adopts a simple contrastive learning method, we devise a more advanced algorithm by adapting the latest method MoCo into the cross-modal scenario. By building a large queue-based dictionary, our BriVL can incorporate more negative samples in limited GPU resources. We further construct a large Chinese multi-source image-text dataset called RUC-CAS-WenLan for pre-training our BriVL model. Extensive experiments demonstrate that the pre-trained BriVL model outperforms both UNITER and OpenAI CLIP on various downstream tasks.
研究の動機と目的
- Webデータに共通する弱い画像-テキスト相関の下で、堅牢なマルチモーダル理解を促進する。
- MoCoに触発された対照学習を活用した二塔式のクロスモーダル事前学習フレームワーク(BriVL)を提案する。
- 事前学習のための大規模な中国語多源画像-テキストデータセット(RUC-CAS-WenLan)を構築する。
- 画像-テキスト検索と画像キャプション生成タスクにおけるBriVLの有効性を示し、展開可能な利点を提示する。
提案手法
- 画像エンコーダとテキストエンコーダを分離した二塔アーキテクチャを用いる。
- Image-Text埋め込みを整合させるため、InfoNCE損失を用いたクロスモーダル対照学習を採用する。
- 多くのネガティブサンプルを提供するため、大規模なモーメンタム更新辞書(MoCo風のキュー)を組み込む。
- RUC-CAS-WenLan(30M image-textペア)上で、1Bパラメータの BriVL モデルを事前訓練する;将来的には10Bパラメータへのスケールを計画。
- エンコーダをより大きな単一モデルのバックボーンへ置き換えやすくし、下流タスクへの適用性を高める(検索、生成、ビジュアルダイアログ)。
実験結果
リサーチクエスチョン
- RQ1ノイズの多いWeb画像-テキストデータ上で、二塔式のクロスモーダル対照框架と大規模ネガティブ辞書が単一塔モデルを上回るだろうか。
- RQ2暗黙の(弱い)クロスモーダル相関モデリングで、視覚と言語タスクの強い下流パフォーマンスを得られるか。
- RQ3 BriVLのスケーリング(パラメータ数、データ量)が中国語マルチモーダル設定の検索とキャプショニングベンチマークに与える影響は何か。
- RQ4 BriVLは中国語のマルチソースデータと関連する下流タスクでOpenAI CLIPとUNITERとどう比較されるか。
主な発見
- BriVLはAIC-ICC検証セットで画像-テキスト検索の性能がCLIPおよびUNITERを上回る(Image-to-Text: R@1 20.3 vs CLIP 13.4 and UNITER 14.8; Text-to-Image: R@1 14.4 vs CLIP 7.8 and UNITER 9.8)。
- BriVLはAIC-ICCの画像キャプション生成において比較手法の中で最高の結果を達成(CIDEr 220.7; BLEU 66.1; METEOR 41.1; ROUGE-L 71.9)。
- WenLanテストセットではBriVLが検索で大幅な利得を示す(Image-to-Text R@1 36.1; Text-to-Image R@1 36.0)CLIPとUNITERに対して。
- ユーザ調査はCLIPに対するBriVLの優れた検索品質を裏付け、BriVLをUNITERと組み合わせた場合にさらなる利得が得られる。
- BriVLは推論が速く(≈CLIPスピード、UNITERの約20倍速)、クラウドAPIや下流タスク(画像-テキスト生成など)への適用可能性を示す。
- 128 GPUで7日間訓練されたモデルは、将来の10Bパラメータ版の500M image-textペアへとスケールすることを示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。