QUICK REVIEW

[論文レビュー] FILIP: Fine-grained Interactive Language-Image Pre-Training

Lewei Yao, Runhui Huang|arXiv (Cornell University)|Nov 9, 2021

Multimodal Machine Learning Applications参考文献 29被引用数 205

ひとこと要約

FILIPは、画像とテキストの整合性をトークンごとの最大類似度を用いた細粒度のクロスモーダル後方結合で導入し、オフライン事前計算と新しい300M画像-テキストデータセット（FILIP300M）を用いて強力なゼロショットおよび検索性能を実現する。

ABSTRACT

Unsupervised large-scale vision-language pre-training has shown promising advances on various downstream tasks. Existing methods often model the cross-modal interaction either via the similarity of the global feature of each modality which misses sufficient information, or finer-grained interactions using cross/self-attention upon visual and textual tokens. However, cross/self-attention suffers from inferior efficiency in both training and inference. In this paper, we introduce a large-scale Fine-grained Interactive Language-Image Pre-training (FILIP) to achieve finer-level alignment through a cross-modal late interaction mechanism, which uses a token-wise maximum similarity between visual and textual tokens to guide the contrastive objective. FILIP successfully leverages the finer-grained expressiveness between image patches and textual words by modifying only contrastive loss, while simultaneously gaining the ability to pre-compute image and text representations offline at inference, keeping both large-scale training and inference efficient. Furthermore, we construct a new large-scale image-text pair dataset called FILIP300M for pre-training. Experiments show that FILIP achieves state-of-the-art performance on multiple downstream vision-language tasks including zero-shot image classification and image-text retrieval. The visualization on word-patch alignment further shows that FILIP can learn meaningful fine-grained features with promising localization ability.

研究の動機と目的

グローバル特徴類似性を超えた、細粒度の視覚-言語整合性を動機づける。
クロスモーダル後方結合を備えた効率的なデュアルストリームVLPフレームワークを提供する。
トークンごと最大類似度が、オフライン前計算を可能にしつつ細粒度の整合性を改善することを実証する。
新しい大規模データセット FILIP300M（300Mの画像-テキストペア）で有効性を示す。
データ拡張とプロンプトテンプレート戦略を探索し、ゼロショットおよび検索性能を向上させる。

提案手法

画像とテキストのデュアルストリームVision Transformerエンコーダ。
画像パッチとテキストトークン間でトークン-wise最大類似度を計算するクロスモーダル後方結合を用い、パディングされていないトークンの平均を取って画像-テキスト類似度を形成する（式3–5）。
画像→テキストおよびテキスト→画像のペアに対する対比 losses を用い、二方向損失の和の1/2を採用する（式1）。
プロンプトテンプレートとプロンプトアンサンブルを用いてゼロショット分類を改善し、アンサンブルには平均トークン-wise類似度を用いる（セクション3.1.2）。
AutoAugmentを含む画像・テキストの拡張と、テキストのバック翻訳を用いて追加ペアを作成する（セクション3.2）。
FILIP300M（約340Mのクリーンなペア）上での事前学習、データセットフィルタリングと追加の公開データセット（CC3M、CC12M、YFCC100M）の統合（セクション3.3）。

実験結果

リサーチクエスチョン

RQ1デュアルストリームモデルの効率性を損なうことなく、トークン-wise細粒度のクロスモーダル相互作用は視覚-言語の整合性を向上させることができるか？
RQ2グローバル特徴類似性をトークンレベルの最大類似度に置換することで、標準データセット全体のゼロショットおよび検索性能が向上するか？
RQ3大規模VLPにおけるデータ拡張とプロンプトテンプレートはゼロショット分類と検索にどのような影響を与えるか？
RQ4大規模でありながら効率的に活用されたデータセット（FILIP300M）の下流の視覚-言語タスクへの影響はどの程度か？
RQ5画像/テキスト表現のオフライン前計算は、細粒度の相互作用とスケーラブル推論と互換性があるか？

主な発見

Model	CIFAR10	CIFAR100	Caltech101	StanfordCars	Flowers102	Food101	SUN397	DTD	Aircrafts	OxfordPets	EuroSAT	ImageNet	Average
CLIP-ViT-B/32	91.3	65.1	87.9	59.4	66.7	84.4	63.2	44.5	21.2	87.0	49.4	63.2	65.3
FILIP_base-ViT-B/32	86.9	65.5	91.9	55.4	85.3	82.8	69.1	49.3	57.2	88.1	49.9	68.8	70.9
CLIP-ViT-L/14	96.2	77.9	92.6	77.3	78.7	92.9	67.7	55.3	36.1	93.5	59.9	75.3	75.3
FILIP_large-ViT-L/14	95.7	75.3	93.0	70.8	90.1	92.2	73.1	60.7	60.2	92.0	59.2	77.1	78.3

FILIPはゼロショット画像分類や画像-テキスト検索を含む複数の下流タスクで最先端の結果を達成する。
ゼロショットの12データセットImageNet分類で、FILIP baseは平均Top-1を5.6ポイント、FILIP largeは3.0ポイント、それぞれCLIPより少ない学習データ（340M対400M）で改善。
ゼロショットの画像-テキスト検索で、MSCOCOにおいてCLIPを上回る顕著な改善（例：image-to-text R@1: 60.1 vs CLIPベースラインの59.?、表の正確な数値あり）。
Flickr30KとMSCOCOで、ゼロショットおよびファインチューニング済みの画像-テキスト検索設定のいずれでも競争力のある、あるいは優れた結果を達成し、いくつかの指標で最先端を達成（Tables 2–3）。
語句-パッチのアライメント可視化は、例えば“electric”や“locomotive”といった部品を物体内で正しく局在させるなど、意味のある細粒度のアライメントを示す。
アブレーション研究は、画像/テキスト拡張とクロスモーダル後方結合がそれぞれ性能向上に寄与することを確認（Table 4）。
効率性分析は、最適化（埋め込みサイズの削減、fp16精度、トークン選択）とともに、後方結合がメモリ/時間コストを抑えつつ実用的であることを示す（Table 5）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。