QUICK REVIEW

[論文レビュー] Image Captioners Are Scalable Vision Learners Too

Michael Tschannen, M. Kumar|arXiv (Cornell University)|Jun 13, 2023

Multimodal Machine Learning Applications被引用数 10

ひとこと要約

この論文は、画像キャプション生成を視覚エンコーダの事前学習目的として再評価し、キャプショナーが対比的事前学習で上回るか同等であることを、多くの vision-language タスクで示す。特にスケーラブルな CapPa バリアントとデコーダを分離した場合。

ABSTRACT

Contrastive pretraining on image-text pairs from the web is one of the most popular large-scale pretraining strategies for vision backbones, especially in the context of large multimodal models. At the same time, image captioning on this type of data is commonly considered an inferior pretraining strategy. In this paper, we perform a fair comparison of these two pretraining strategies, carefully matching training data, compute, and model capacity. Using a standard encoder-decoder transformer, we find that captioning alone is surprisingly effective: on classification tasks, captioning produces vision encoders competitive with contrastively pretrained encoders, while surpassing them on vision & language tasks. We further analyze the effect of the model architecture and scale, as well as the pretraining data on the representation quality, and find that captioning exhibits the same or better scaling behavior along these axes. Overall our results show that plain image captioning is a more powerful pretraining strategy than was previously believed.

研究の動機と目的

画像キャプション生成が、CLIPのような対比的学習法と比較して視覚エンコーダの競争力のある事前学習タスクとなり得るかを評価する。
モデルアーキテクチャ、スケール、および事前学習データがキャプショニングベースの表現の品質にどのように影響するかを調査する。
自己回帰と並列デコードを組み合わせたCapPa事前学習法を開発・評価する。
キャプショニングベースのエンコーダが、VQA、OCR、細分類などの下流タスクやさまざまなデコーダとどのように相互作用するかを調べる。

提案手法

Captioner、Capとして、標準のTransformerデコーダを用いて画像キャプションを予測することでViTベースの視覚エンコーダを事前学習する。
損失やアーキテクチャを変更せず、訓練例の一部で全キャプショントークンを並列に予測する並列予測（CapPa）を導入する。
注意機構、MLP、およびLayerNormのバイアスを除去する。GELUを用いる。デコーダの入力/出力埋め込みは共有しない。デコーダの幅はエンコーダと同等だが深さは半分。
WebLI由来の英語サブセットで、1Bの画像/代替テキストペアを用いて訓練する。キャプショニングのバッチサイズは8k、CLIPベースラインは8k/16k、オプティマイザはAdaFactor、スケジュールはコサイン。
10ショット線形プローブ、ImageNet1kでの全ファインチューニング、LiTベースのゼロショット/分類および検索を、フレッシュおよびフローズンのデコーダで評価する。
計測計算量とデータを揃えた状態でCap/CapPaをCLIP*ベースラインと比較し、モデルサイズ（ViT-S/M/B、ViT-L/14）におけるスケーリング挙動を検討する。

実験結果

リサーチクエスチョン

RQ1画像キャプショニング alone は、ビジョン言語タスクにおいて対比的な事前学習と同等以上の性能を視覚エンコーダにもたらすことができるのか。
RQ2アーキテクチャの選択、モデルスケール、事前学習データがキャプショニングベースの表現の品質にどう影響するか。
RQ3CapPa の訓練変種は、自己回帰キャプショニングやCLIPと比較して下流タスクの性能とゼロショット能力を改善するか。
RQ4キャプショナー由来のエンコーダは、キャプショニング、VQA、OCR、細分類などのタスクで、デコーダがランダム初期化か事前学習済み/凍結かに応じて、さまざまなデコーダと組み合わせたとき転移性能はどの程度か。

主な発見

Captioner（Cap）モデルは、少数ショット分類でCLIPと競合する視覚エンコーダを生み出し、ビジョン言語転移の大規模ラベル付きデータセットでも競合的である。
CapPa は自己回帰デコードと並列デコードを組み合わせ、Capを常に上回り、CLIP* に匹敵・上回ることが多い。特にキャプショニングとVQAタスクで。
CapPa はスケーリングに有利を示す。より大きなモデルとより多いデータは Cap との差を拡大し、大規模バッチサイズで CLIP* に対して競争力がある。LiTデコーダと組み合わせたゼロショット分類では CapPa がしばしば CLIP* を上回る。
キャプショニングベースの表現は、CLIP系と比較して細分類やARO/SugarCrepe風の関係性・順序属性で優れた性能を示す。
CapPa エンコーダと凍結された言語デコーダ（T5、GPT-2）を組み合わせた場合、CapPa は複数のタスクで性能を維持または向上させ、事前学習済み言語モデルとの互換性が高いことを示唆する。
データ源が WebLI のサブセットであろうと LAION-400M であろうと、CapPa は CLIP* と競合しており、事前学習データへの頑健性を示す。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。