QUICK REVIEW

[論文レビュー] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Junnan Li, Dongxu Li|arXiv (Cornell University)|Jan 28, 2022

Multimodal Machine Learning Applications被引用数 862

ひとこと要約

BLIP はノイズの多いウェブ画像-テキストペアから学習するキャプション生成とフィルタリングデータブートストラッピング（CapFilt）戦略を用いた統一的な視覚–言語事前学習フレームワーク（MED）を提示し、理解と生成タスクの最先端を達成し、ゼロショットの映像と言語転送にも強力。

ABSTRACT

Vision-Language Pre-training (VLP) has advanced the performance for many vision-language tasks. However, most existing pre-trained models only excel in either understanding-based tasks or generation-based tasks. Furthermore, performance improvement has been largely achieved by scaling up the dataset with noisy image-text pairs collected from the web, which is a suboptimal source of supervision. In this paper, we propose BLIP, a new VLP framework which transfers flexibly to both vision-language understanding and generation tasks. BLIP effectively utilizes the noisy web data by bootstrapping the captions, where a captioner generates synthetic captions and a filter removes the noisy ones. We achieve state-of-the-art results on a wide range of vision-language tasks, such as image-text retrieval (+2.7% in average recall@1), image captioning (+2.8% in CIDEr), and VQA (+1.6% in VQA score). BLIP also demonstrates strong generalization ability when directly transferred to video-language tasks in a zero-shot manner. Code, models, and datasets are released at https://github.com/salesforce/BLIP.

研究の動機と目的

単一モデルを作成し、視覚–言語理解と生成タスクの両方で優れた性能を発揮させることを目的とする。
キャプショナーによるキャプション付与とフィルターを用いてノイズの多いウェブテキストのサブ最適性に対処する。
複数のモダリティとタスクをサポートする柔軟なモデルアーキテクチャを開発する。
データ拡張パイプライン（CapFilt）を活用して事前学習データの品質を向上させる。
ゼロショット設定で動画-言語タスクへの強力な転移性能を示す。

提案手法

統一モデル内で単一のモデルに対して、 unimodal encoder、image-grounded text encoder、image-grounded text decoder を可能にする Multimodal Mixture of Encoder-Decoder (MED) を導入する。
3つの目的で事前学習する：Image-Text Contrastive (ITC)、Image-Text Matching (ITM)、およびキャプション生成のための Language Modeling (LM)。
マルチタスク学習効率を可能にするため、SA層を除いてテキストエンコーダとデコーダ間のパラメータを共有する。
CapFilt はウェブデータをブートストラップする： (i) キャプショナーがウェブ画像の合成キャプションを生成、 (ii) ITM/ITC 信号を介してノイズの多いキャプションを除去するフィルター、 (iii) クリーンなウェブデータと人手で注釈付けされたデータを組み合わせて事前学習を行う。
合成キャプションの多様性とモデル学習を高めるために核サンプリングを使用する。
データセットサイズ、バックボーン、パラメータ共有の広範なアブレーションを用いて CapFilt 効率を最適化する。

実験結果

リサーチクエスチョン

RQ1統一された視覚–言語モデル（MED）は理解と生成タスクの両方で良好な性能を発揮できるか。
RQ2ノイズの多いウェブデータを合成キャプションとフィルタリングステップでブートストラップすることで、下流の視覚–言語性能は改善されるか。
RQ3データ多様性とパラメータ共有戦略は事前学習の効率と下流の結果にどのように影響するか。
RQ4CapFilt が retrieval、captioning、VQA、NLVR2、VisDial などのゼロショットおよび微調整タスクに与える影響はどの程度か。
RQ5BLIP はゼロショット転送で動画-言語タスクへどの程度 generalize するか。

主な発見

BLIP は画像-テキスト検索、画像キャプション、VQA、視覚推論、視覚対話などの視覚–言語タスクで最先端の結果を達成する。
動画-言語タスク（テキストから動画の検索および videoQA）へのゼロショット転送が最先端の性能に達する。
CapFilt は元のノイズの多いウェブテキストを用いる場合よりも一貫して性能を向上させ、背骨が大きく、データが多いほど大きな利得を得る。
合成キャプションの多様性（核サンプリング）によって、決定的なビーム探索よりも利得が生まれる。
テキストエンコーダとデコーダのパラメータを自己注意層を除いて共有することで、性能と効率の間で好ましいバランスを提供する；キャプショナーとフィルターを分離した設定は、完全に共有する設定より一般に優れている。
CapFilt ブートストラップデータを用いた ViT-L バックボーンは強力な結果を達成し、はるかに大規模なデータセットで訓練された方法に近づくか、同等の水準に達する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。