[論文レビュー] Learning Transferable Visual Models From Natural Language Supervision
CLIP は 400M の画像とテキストのペアから画像エンコーダとテキストエンコーダを共同訓練し、自然言語を用いて分類器を形成することで、画像–テキストの組み合わせを予測します。これにより、30 以上の視覚ベンチマークへゼロショット転送を可能にします。
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.
研究の動機と目的
- 自然言語監督から直接視覚表現を学習して、固定された後付けカテゴリの制限を克服する動機付け。
- ウェブ規模の画像-テキストデータへモデルをスケールさせ、データセット特定のファインチューニングなしで多様な視覚タスクへ転移を研究する。
- ゼロショット CLIP が多くのデータセットで完全監視ベースラインに匹敵または上回ることを示し、頑健性とプロンプトを分析する。
提案手法
- 画像エンコーダとテキストエンコーダを共同訓練し、バッチ対上のコントラスト学習によって画像とテキストの埋め込みを整列させる。
- 大規模な 400M (image, text) データセット(WIT)を英語のキャプション/説明とともに使用する。
- テキストエンコーダで生成されたテキスト由来の分類器を用いて画像を分類し、ゼロショット転移を評価する。
- ResNet ベースと Vision Transformer の画像エンコーダ、そして Transformer テキストエンコーダを用いた実験。
- プロンプト工学とテキストプロンプトのアンサンブルを適用してゼロショット精度を改善する。
- 大規模バッチ対比学習で訓練し、線形射影を用いてマルチモーダル埋め込み空間へ写像する。マッチ/ミスマッチペアに対して対称クロスエントロピー損失を最適化する。
実験結果
リサーチクエスチョン
- RQ1自然言語監督から学習したモデルは、データセット特定のラベルなしで幅広い視覚タスクへ効果的に転移できるか?
- RQ2ゼロショット CLIP の性能は、多様なデータセットとタスクで監視付きベースラインと比較してどうか?
- RQ3どの要因(アーキテクチャ、データ規模、プロンプト)がゼロショット転移性能と頑健性に影響を与えるか?
主な発見
| Dataset | aYahoo | ImageNet | SUN |
|---|---|---|---|
| Visual N-Grams | 72.4 | 11.5 | 23.0 |
| CLIP | 98.4 | 76.2 | 58.5 |
- CLIP は 30+ の視覚データセットへゼロショット転移を非自明に達成し、データセット特定の訓練なしでしばしば完全監督ベースラインと競合する。
- ImageNet のゼロショットでは、CLIP は元の ResNet-50 の精度と同等を達成し、1.28 百万の ImageNet 訓練例を使用せず。
- プロンプト設計とアンサンブルはゼロショット精度を大幅に向上させ(データセット横断で ImageNet にほぼ 5 ポイントの向上)。
- ゼロショット CLIP は、一般的な物体データセットのほとんどといくつかのアクション認識データセット(例:Kinetics700、UCF101)で完全監視 ResNet-50 ベースラインを上回ることがある。
- Visual N-Grams と比較すると、CLIP はゼロショット ImageNet や他データセットを大幅に改善する。CLIP-ResNet-50 は、同様のデータ規模でゼロから訓練した場合 Visual N-Grams の ImageNet 結果に匹敵する。
- ゼロショット CLIP は、同等精度の監視付き ImageNet モデルより頑健性が高く、ゼロショット評価が幅広い能力をより反映していることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。