[論文レビュー] DataComp: In search of the next generation of multimodal datasets
DataCompは大規模なベンチマーク(CommonPool)と2つのトラック(FilteringとBYOD)を導入し、データセット設計がマルチモーダル CLIP モデルに与える影響を研究。慎重にフィルタリングされた小規模データセットが、同じ計算量の下で大規模で未フィルタリングなプールを上回ることを示す。DataComp -1Bはベンチマーク内で最先端のゼロショットImageNet精度を達成。
Multimodal datasets are a critical component in recent breakthroughs such as Stable Diffusion and GPT-4, yet their design does not receive the same research attention as model architectures or training algorithms. To address this shortcoming in the ML ecosystem, we introduce DataComp, a testbed for dataset experiments centered around a new candidate pool of 12.8 billion image-text pairs from Common Crawl. Participants in our benchmark design new filtering techniques or curate new data sources and then evaluate their new dataset by running our standardized CLIP training code and testing the resulting model on 38 downstream test sets. Our benchmark consists of multiple compute scales spanning four orders of magnitude, which enables the study of scaling trends and makes the benchmark accessible to researchers with varying resources. Our baseline experiments show that the DataComp workflow leads to better training sets. In particular, our best baseline, DataComp-1B, enables training a CLIP ViT-L/14 from scratch to 79.2% zero-shot accuracy on ImageNet, outperforming OpenAI's CLIP ViT-L/14 by 3.7 percentage points while using the same training procedure and compute. We release DataComp and all accompanying code at www.datacomp.ai.
研究の動機と目的
- マルチモーダルデータセットの研究を、単なるモデル中心の改善だけでなく、データ中心の厳密な研究を動機づけ、実現する。
- 標準化され拡張可能なベンチマーク(DataComp)を提供し、データ選別戦略を比較可能にする固定の学習レシピを提供する。
- フィルタリング実験と安全性を重視したデータセット構築のため、12.8Bの画像-テキストプールであるCommonPoolを導入。
- データソースの選択とフィルタリング技術が、38の下流タスクにおけるゼロショット性能にどう影響するかを評価。
- 同じ計算予算の下で、慎重にフィルタリングされたサブセットが、より大きな未フィルタリングプールを上回ることを示す。
提案手法
- 固定アーキテクチャとハイパーパラメータを横断する、CLIP風の訓練設定を4つの計算規模で作成。
- CommonPoolをCommon Crawlから収集し、NSFWフィルタリング、重複排除、顔ぼかしを適用。サンプルごとにメタデータを提供。
- 2つの競技トラック:Filtering(CommonPoolからのサブセット)とBring Your Own Data(BYOD)外部ソース付き;4つの計算規模(小〜xlarge)。
- 訓練済みモデルを38の下流タスク(分類と検索)でゼロショット設定で評価。スケールを関連づけるために順位相関を使用。
- DataComp -1Bを2つの有望なフィルタリングベースラインから構築されたwinner datasetとして提供し、LAION-2BとOpenAI CLIPのベースラインと比較。
実験結果
リサーチクエスチョン
- RQ1固定計算量の下で、データソースの選択とフィルタリング戦略がゼロショットのマルチモーダルモデル性能にどのように影響するか?
- RQ2CLIPモデルの訓練時に、より小さく慎重にフィルタリングされたデータセットは、より大きく未フィルタリングなプールよりも一般化性能が良いのか?
- RQ3データ選別による観測上の利益は、異なる計算規模やデータセットプール全体で一貫しているか?
- RQ4BYODの外部データソースは、厳選されたプールを超えてゼロショット性能をさらに向上させることができるか?
- RQ5マルチモーダル学習のデータセット設計におけるデータ多様性と反復のトレードオフは何か?
主な発見
| データセット | サンプル | 訓練計算量(MACs) | アーキテクチャ | ImageNet精度 |
|---|---|---|---|---|
| OpenAI’s WIT | 0.4B | 13B | ViT-L/14 | 75.5 |
| LAION-400M | 0.4B | 13B | ViT-L/14 | 72.8 |
| LAION-2B (2.3B samples, 13B MACs) | 2.3B | 13B | ViT-L/14 | 73.1 |
| LAION-2B (2.3B samples, 34B MACs) | 2.3B | 34B | ViT-L/14 | 78.0 |
| LAION-2B (2.3B samples, 34B MACs) | 2.3B | 34B | ViT-g/14 | 78.5 |
| DataComp -1B (ours) | 1.4B | 13B | ViT-L/14 | 79.2 |
- フィルタリング戦略は、規模とタスクを問わず、一般に非フィルタリングのベースラインを上回る。
- 画像ベースのフィルタリングとCLIPスコアフィルタリングの交差は、多くのタスクで最良の結果をしばしば生む。
- DataComp -1B(ターゲットプールからの1.4Bサンプル)は、79.2%のImageNetゼロショット精度を達成し、同じ計算量でOpenAIのCLIP ViT-L/14を3.7ポイント上回る。
- DataComp -1Bは同じ計算予算の下でLAION-2Bを上回る。
- BYODの外部データソースは、いくつかの設定でCommonPoolのみのアプローチより性能を向上させる(例:大規模で+4.3ポイント)。
- 小さく、より厳格にフィルタリングされたデータセットは、より大きくて未フィルタリングなプールより一般化性能が良く、規模を超えて性能向上が持続する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。