QUICK REVIEW

[論文レビュー] Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP)

Alex Chengyu Fang, Gabriel Ilharco|arXiv (Cornell University)|May 3, 2022

Multimodal Machine Learning Applications被引用数 27

ひとこと要約

本研究はCLIP風のロバストネスの5つの潜在的原因を体系的に検証し、ロバストネスは訓練データの分布の多様性が支配的であり、言語監督と損失関数はほとんど寄与しないと結論づけた。さらに、制御された言語-画像実験を可能にするImageNet-Captionsを導入し、自然なシフト全体でロバストネスの主な推進力が画像分布であることを示している。

ABSTRACT

Contrastively trained language-image models such as CLIP, ALIGN, and BASIC have demonstrated unprecedented robustness to multiple challenging natural distribution shifts. Since these language-image models differ from previous training approaches in several ways, an important question is what causes the large robustness gains. We answer this question via a systematic experimental investigation. Concretely, we study five different possible causes for the robustness gains: (i) the training set size, (ii) the training distribution, (iii) language supervision at training time, (iv) language supervision at test time, and (v) the contrastive loss function. Our experiments show that the more diverse training distribution is the main cause for the robustness gains, with the other factors contributing little to no robustness. Beyond our experimental results, we also introduce ImageNet-Captions, a version of ImageNet with original text annotations from Flickr, to enable further controlled experiments of language-image training.

研究の動機と目的

対照的学習により訓練された言語画像モデル（CLIP、ALIGN、BASIC）において、ロバストネスの原因となり得る要因を特定する。
訓練セットサイズ、訓練分布、訓練時およびテスト時の言語監督、対照的損失がロバストネスに与える影響を定量化する。
言語効果をデータ分布効果から分離するための制御された実験フレームワークとベースラインを提供する。
制御された言語-画像実験を可能にするImageNet-Captionsを導入し、CLIP風のロバストネスを模倣するより単純なベースラインを提供する。

提案手法

訓練セットサイズ、訓練分布、訓練時の言語監督、テスト時の言語監督（プロンプト）、対照的損失という5つの候補要因を変化させた制御実験を実施する。
ImageNetの元のFlickrキャプションを含むImageNet-Captionsを導入し、標準分類と同じ画像で言語-画像訓練を可能にする。
言語を使わない簡易ベースラインを作成する。画像で事前訓練した後、テキスト照合を介してImageNetクラスに一致させ、言語効果を分離する。
効果的ロバストネスとして定義されるロバスト性を評価する。これは、観測されたテスト精度とイン-domain精度から分布外精度への基礎マッピングの差として定義される。
ImageNet-Captions上でCLIPを訓練し、ImageNetおよび自然分布シフト（ImageNet-V2, ImageNet-R, ImageNet-Sketch, ObjectNet, ImageNet-A）で画像のみ分類ベースラインと比較する。
YFCC-15Mを用いて、画像のみの事前訓練と最小限のテキスト照合でCLIP風のロバストネスに到達できるかを検証する。

実験結果

リサーチクエスチョン

RQ1訓練セットサイズを単独で増やすだけで、CLIP風モデルの効果的なロバストネスは改善されるか。
RQ2ロバストネスは主に言語監督や対照的損失ではなく、訓練分布の多様性によって左右されるのか。
RQ3訓練時またはテスト時の言語監督はCLIP風のロバストネスを説明できるのか、それとも分布の多様性が主要因か。
RQ4言語フリーの訓練パラダイム（画像のみと単純なテキスト照合）はCLIPと同等の効果的ロバストネスを達成するか。
RQ5テスト時のプロンプトやテンプレートはロバストネスの寄与においてどのような役割を果たすか。

主な発見

訓練分布の多様性が、自然分布シフト全体でCLIP風ロバストネスの主な推進力である。
訓練時の言語監督は、訓練画像が標準的な分類データセットと同じ場合、ロバストネスを顕著には高めない。
言語監督は主に、一定のクラスラベルを必要とせずに、多様な視覚分布での訓練を容易にする。
画像のみの事前訓練と最小限のテキスト照合を組み合わせると、いくつかの分布シフトでCLIPのロバストネスに匹敵でき、ロバストネスは言語監督ではなくデータ分布によって決まることを示している。
ImageNet-Captionsは、同じ画像上での言語-画像訓練と純粋な分類訓練の制御された比較を可能にする。
テスト時のプロンプト戦略は精度とロバストネスを変える可能性があるが、効果的ロバストネスの変化は、プロンプトから得られる内在的なロバストネスの利得というより、全体の精度差に大きく結びついている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。