QUICK REVIEW

[論文レビュー] How Much Can CLIP Benefit Vision-and-Language Tasks?

Sheng Shen, Liunian Harold Li|arXiv (Cornell University)|Jul 13, 2021

Multimodal Machine Learning Applications参考文献 68被引用数 152

ひとこと要約

本論文は、CLIPを視覚エンコーダとしてV&Lモデルに直接ファインチューニングおよびV&L事前学習で用いることを調査し、複数のタスクで競争力のある、または最先端の結果を達成する。

ABSTRACT

Most existing Vision-and-Language (V&L) models rely on pre-trained visual encoders, using a relatively small set of manually-annotated data (as compared to web-crawled data), to perceive the visual world. However, it has been observed that large-scale pretraining usually can result in better generalization performance, e.g., CLIP (Contrastive Language-Image Pre-training), trained on a massive amount of image-caption pairs, has shown a strong zero-shot capability on various vision tasks. To further study the advantage brought by CLIP, we propose to use CLIP as the visual encoder in various V&L models in two typical scenarios: 1) plugging CLIP into task-specific fine-tuning; 2) combining CLIP with V&L pre-training and transferring to downstream tasks. We show that CLIP significantly outperforms widely-used visual encoders trained with in-domain annotated data, such as BottomUp-TopDown. We achieve competitive or better results on diverse V&L tasks, while establishing new state-of-the-art results on Visual Question Answering, Visual Entailment, and V&L Navigation tasks. We release our code at https://github.com/clip-vil/CLIP-ViL.

研究の動機と目的

CLIPの大規模で言語-supervised学習を活用して、V&Lの視覚エンコーダの改善を促す。
2つの設定（直接タスク特化のファインチューニングとダウンストリームタスクへの転送を含むV&L事前学習）における視覚エンコーダとしてのCLIPを評価する。
多様なV&Lタスクにおいて、従来のドメイン内注釈付きエンコーダよりも改善を示す。
V&Lタスク全般におけるCLIPの強みと限界を特定し、再現性のためのオープンソースリソースを提供する。

提案手法

既存のV&LモデルにCLIP視覚エンコーダを組み込み、VQA、画像キャプション、Vision-and-Language Navigation (VLN) の3タスクでファインチューニングする。
CLIP系列（CLIP-Res50、CLIP-Res101、CLIP-Res50x4、CLIP-ViT-B）をImageNet事前学習ベースラインと比較する。
V&L事前学習では、領域ベースの表現をCLIP特徴に置換し、再構成、画像-テキストマッチング、VQA目的で事前学習する。
CLIP-ViLとCLIP-ViL_pアーキテクチャを提案し、テキストとCLIP視覚埋め込みを取り込む統一TransformerでV&L事前学習を行う。
VQAにおけるゼロショットCLIPの性能を評価し、事前学習/ファインチューニング中に視覚バックボーンをアンフリーズする影響を分析する。

実験結果

リサーチクエスチョン

RQ1視覚エンコーダをCLIPに置換することで、V&Lタスク（VQA、画像キャプション、VLN）の性能はどう変化するか？
RQ2CLIPベースのV&Lモデルは、領域ベースのエンコーダと比較して競争力のある、または最先端の結果を達成するか？
RQ3CLIPとV&L事前学習を組み合わせることによる下流タスクの利点と制限は何か？
RQ4CLIP視覚バックボーンをアンフリーズすることはV&Lの性能にどう影響するか？
RQ5ゼロショットのCLIPはファインチューニングなしでV&Lタスクを解決できるか？

主な発見

CLIP-ViLは、直接ファインチューニング設定で強力なベースラインよりVQAの精度を1.4ポイント改善。
画像キャプションでは、CLIP-Res50およびCLIP-Res50x4がドメイン内ImageNetベースラインを上回り、CIDErとSPICEの顕著な改善を達成。
CLIP-ViL_p（CLIP-Res50x4使用）はVQA（76.70%テスト）およびSNLI-VE（80.20%テスト）で新たな最先端を達成。
V&L事前学習におけるCLIP-Res50x4はVQAでVinVL（領域ベース）を上回り、事前学習ステップ数が少なく、領域データの利点があるGQAではVinVLに近づく。
事前学習/ファインチューニング中にCLIP視覚バックボーンをアンフリーズすると、CLIP-Res50の方が一部の領域ベースのベースラインより大きな利得を生み、視覚エンコーダへの逆伝播の適応効果を示す。
ファインチューニングせずゼロショットのCLIPはVQAでほぼ運任せの性能で、プロンプト設計をしても対話的モデリングとタスク固有の訓練の必要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。