[論文レビュー] Demystifying CLIP Data
本論文は、MetaCLIP を提案する。これは metadata-driven データキュレーション手法で、raw web data からメタデータに基づくサブセットをバランスさせることにより CLIP 型データ収集を明らかにし改善する。追加のモデリング変更なしで、複数の ViT スケールにわたり CLIP より高い zero-shot ImageNet 精度を達成する。
Contrastive Language-Image Pre-training (CLIP) is an approach that has advanced research and applications in computer vision, fueling modern recognition systems and generative models. We believe that the main ingredient to the success of CLIP is its data and not the model architecture or pre-training objective. However, CLIP only provides very limited information about its data and how it has been collected, leading to works that aim to reproduce CLIP's data by filtering with its model parameters. In this work, we intend to reveal CLIP's data curation approach and in our pursuit of making it open to the community introduce Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP takes a raw data pool and metadata (derived from CLIP's concepts) and yields a balanced subset over the metadata distribution. Our experimental study rigorously isolates the model and training settings, concentrating solely on data. MetaCLIP applied to CommonCrawl with 400M image-text data pairs outperforms CLIP's data on multiple standard benchmarks. In zero-shot ImageNet classification, MetaCLIP achieves 70.8% accuracy, surpassing CLIP's 68.3% on ViT-B models. Scaling to 1B data, while maintaining the same training budget, attains 72.4%. Our observations hold across various model sizes, exemplified by ViT-H achieving 80.5%, without any bells-and-whistles. Curation code and training data distribution on metadata is made available at https://github.com/facebookresearch/MetaCLIP.
研究の動機と目的
- CLIP のデータキュレーション手法と、それを固定したままのアーキテクチャと学習スケジュールでのモデル性能への影響を明らかにする。
- メタデータ由来のバランスを用いた透明でオープンなデータキュレーションパイプラインとして MetaCLIP を提案する。
- 複数のモデルサイズとデータ規模において、生データウェブと比較した metadata 指向のキュレーションの利点を定量化する。
提案手法
- WordNet の同義語集合と Wikipedia のエントリから派生したメタデータ集合を構築し、CLIP のクエリ空間を模倣する。
- 大規模プール(CommonCrawl)からのメタデータエントリと画像テキストペアを整合させるためにサブ文字列一致を適用する。
- エントリからテキストへの inverted index を構築し、一致の分布を分析してデータ特性を明らかにする。
- 各エントリのカウントを閾値 t に制限してデータをバランスさせ、ヘッドエントリとテールエントリを均等化しノイズを低減する。
- D から M と t を用いて D* をキュレーションする、独立サンプリングによるシンプルで拡張性のあるアルゴリズムを提供し、コストの高い inverted-index のストレージを回避する。
- CLIP に類似したトレーニング予算のもとで ViT-B/32、ViT-B/16、ViT-L/14、ViT-H/14 の各に対して評価する。
実験結果
リサーチクエスチョン
- RQ1モデルや学習目的を変更せずに、metadata駆動のバランスが視覚言語事前学習のトレーニングデータの質と分布を改善できるか?
- RQ2metadata キュレーションとバランシングが ImageNet の zero-shot 性能や、モデルサイズとデータ規模全般のベンチマークスイートにどう影響するか?
- RQ3データ規模(400M 対 1B 対 2.5B)とバランシング閾値 t が下流の精度とデータ多様性に与える影響は?
- RQ4同じ予算でウェブソースデータを用いた場合、MetaCLIP は CLIP および OpenCLIP とどう比較されるか?
主な発見
- 400M データを用いる MetaCLIP は、ViT モデル全体で zero-shot ImageNet において CLIP の WIT400M および LAION-400M を上回る(例: ViT-B/32: 70.8% vs 68.3%)。
- t = 20k でのメタデータカウントのバランスは、アンバランスデータより性能が高く、ヘッドエントリの優位性を大幅に低減する。
- 同じ予算で 1B および 2.5B データへスケールしても ImageNet 性能を維持または向上。例: MetaCLIP (2.5B) の ViT-L/14 は 79.0–79.4%、ViT-H/14 は 80.5% で ImageNet。
- MetaCLIP は ViT-B/32、ViT-B/16、ViT-L/14 で CLIP および OpenCLIP より 26 タスクの平均精度が高い。
- オンラインバランシング(データローダ)も同程度の利得を提供し、実運用での潜在性を示す。
- アブレーションにより t は 15k–35k の範囲で頑健であり、400M スケールでは p=20k がしばしば最適。アン balanced な 1.6B データは balanced 設定と比較して ImageNet 性能を劣化させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。