Skip to main content
QUICK REVIEW

[論文レビュー] Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm

Yangguang Li, Feng Liang|arXiv (Cornell University)|Oct 11, 2021
Multimodal Machine Learning Applications参考文献 39被引用数 127
ひとこと要約

DeCLIPは自己監督学習、マルチビュー監督、最近傍監督を導入し、対照的な言語-画像の事前学習におけるデータ効率を改善し、CLIPよりはるかに少ないデータ量でゼロショットおよび転移性能を高水準で達成します。

ABSTRACT

Recently, large-scale Contrastive Language-Image Pre-training (CLIP) has attracted unprecedented attention for its impressive zero-shot recognition ability and excellent transferability to downstream tasks. However, CLIP is quite data-hungry and requires 400M image-text pairs for pre-training, thereby restricting its adoption. This work proposes a novel training paradigm, Data efficient CLIP (DeCLIP), to alleviate this limitation. We demonstrate that by carefully utilizing the widespread supervision among the image-text pairs, our De-CLIP can learn generic visual features more efficiently. Instead of using the single image-text contrastive supervision, we fully exploit data potential through the use of (1) self-supervision within each modality; (2) multi-view supervision across modalities; (3) nearest-neighbor supervision from other similar pairs. Benefiting from intrinsic supervision, our DeCLIP-ResNet50 can achieve 60.4% zero-shot top1 accuracy on ImageNet, which is 0.8% above the CLIP-ResNet50 while using 7.1 x fewer data. Our DeCLIP-ResNet50 outperforms its counterpart in 8 out of 11 visual datasets when transferred to downstream tasks. Moreover, Scaling up the model and computing also works well in our framework.Our code, dataset and models are released at: https://github.com/Sense-GVT/DeCLIP

研究の動機と目的

  • 巨大データセットに依存せず、画像と言語のペアからデータ効率の良い視覚表現を学ぶ動機付け。
  • 各モダリティ内およびモダリティ間の内在的監視を活用して頑健な表現を学ぶ。
  • ペア間で類似のキャプションを活用する最近傍監視を導入。
  • 複数のアーキテクチャとデータセットにおけるデータ効率と転移性を示す。

提案手法

  • 2タワーの画像エンコーダとテキストエンコーダを用いたCLIPフレームワークをベースにする。
  • 画像にはSimSiamを、テキストにはMLMを用いて各モダリティ内の自己監督を追加。
  • 拡張ビューからの2x2の画像-テキストペアを対照することでマルチビュー監督を導入。
  • FIFO埋め込みキューを介して追加の監督として最近傍のテキスト埋め込みをサンプリングする最近傍監督を提案。
  • 損失を L_DeCLIP = (1-α-β-γ)L_CLIP + αL_ISS + αL_TSS + βL_MVS + γL_NNS に結合。

実験結果

リサーチクエスチョン

  • RQ1多模態データ内の内部監視は言語-画像事前学習のデータ効率を改善できるか?
  • RQ2自己監督、マルチビュー、最近傍シグナルはゼロショットおよび転移性能にどう寄与するか?
  • RQ3異なるエンコーダアーキテクチャとデータセットサイズにおけるDeCLIPのデータ効率とスケーラビリティは?
  • RQ4前処理データを減らした場合でも下流タスクで競争力のあるまたは優れた性能を維持するか?

主な発見

  • DeCLIPは88MデータでImageNetのゼロショットTop-1が60.4%、CLIP-ResNet50より0.8ポイント高く、データ量を約7.1倍削減して達成。
  • 同じデータ予算(88M)では、DeCLIP-ResNet50/ViT-B32はそれぞれ62.5%、66.2%のゼロショット精度に到達し、対応するCLIP系列を上回る。
  • より大きなモデルへスケールすると(RegNetY-64GF + BERT)、88Mデータで73.7%のゼロショット精度となり、資源を抑えつつCLIP-R50×64と同等程度に。
  • CLIPと比較して11の下流データセットのうち8件で転移性能を改善(平均利得約0.8%)。
  • アブレーション実験では、自己監督、マルチビュー、最近傍シグナルのそれぞれが性能向上に寄与し、最近傍監督が顕著な改善を加えることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。