QUICK REVIEW

[論文レビュー] LAION-5B: An open large-scale dataset for training next generation image-text models

Christoph Schuhmann, Romain Beaumont|arXiv (Cornell University)|Oct 16, 2022

Natural Language Processing Techniques被引用数 1,035

ひとこと要約

LAION-5B は CLIP でフィルタリングされた 5.85B の画像-テキストペアを含む公開オープンデータセットを提供し、CLIP様式モデルおよび生成モデルの大規模な再現と微調整を可能にする。

ABSTRACT

Groundbreaking language-vision architectures like CLIP and DALL-E proved the utility of training on large amounts of noisy image-text data, without relying on expensive accurate labels used in standard vision unimodal supervised learning. The resulting models showed capabilities of strong text-guided image generation and transfer to downstream tasks, while performing remarkably at zero-shot classification with noteworthy out-of-distribution robustness. Since then, large-scale language-vision models like ALIGN, BASIC, GLIDE, Flamingo and Imagen made further improvements. Studying the training and capabilities of such models requires datasets containing billions of image-text pairs. Until now, no datasets of this size have been made openly available for the broader research community. To address this problem and democratize research on large-scale multi-modal models, we present LAION-5B - a dataset consisting of 5.85 billion CLIP-filtered image-text pairs, of which 2.32B contain English language. We show successful replication and fine-tuning of foundational models like CLIP, GLIDE and Stable Diffusion using the dataset, and discuss further experiments enabled with an openly available dataset of this scale. Additionally we provide several nearest neighbor indices, an improved web-interface for dataset exploration and subset generation, and detection scores for watermark, NSFW, and toxic content detection. Announcement page https://laion.ai/laion-5b-a-new-era-of-open-large-scale-multi-modal-datasets/

研究の動機と目的

大規模な公開データセットを提供してマルチモーダル研究を民主化する
多様な下流タスクで CLIP に類似したモデルの再現性とベンチマークを可能にする
バイアスとコンテンツ安全性を検証するためのツールと安全機構（NSFW、透かし、多言語対応）を提供する
データセットの規模がゼロショットおよびロバスト性性能に与える影響を探る
大規模の未整量データセットの倫理的配慮と限界について論じる

提案手法

Common Crawl からデータを収集する3段階のパイプライン（ウェブページのフィルタリング、画像-テキストペアのダウンロード、コンテンツフィルタリング）を組み立てる
英語および多言語バリアント向けにViT-B/32 CLIPを用いたコサイン類似度で画像-テキストペアをフィルタリングする
CLD3でテキスト言語を分類し、言語対応フィルタリングとメタデータタグ付けを適用する
最近傍検索インターフェースの提供とサブセットの抽出（例: LAION-2B-en、LAION-Aesthetic）
安全タグ付け（NSFW、透かし）とParquetメタデータを備えたオープンソースツールとデータセットを公開する
LAION-400M および LAION-2B-en でCLIP再現実験を実施し、ゼロショットおよびロバスト性の性能を検証する

実験結果

リサーチクエスチョン

RQ1公開された大規模画像-テキストデータセットは、産業界の大手が使用する大規模閉鎖データセットのゼロショットおよびロバスト性性能と同等になり得るか？
RQ2オープンな CLIP 類似トレーニングのデータとモデル規模を拡大すると、下流のゼロショット精度や VTAB 系ベンチマークにどのような影響を与えるか？
RQ3未整頓のウェブデータでマルチモーダルモデルを訓練する際の影響、偏り、および安全性についての配慮は何か？
RQ4十億規模のデータ品質を CLIP ベースのフィルタリングでどれだけ効果的に制御できるか、そしてこのようなフィルタリングの限界は何か？

主な発見

Model	Pre-training	INet	INet-v2	INet-R	INet-S	ObjNet	VTAB+
B/32	CLIP WIT	63.3	56.0	69.4	42.3	44.2	45.4
LAION-400M	LAION-400M	62.9	55.1	73.4	49.4	43.9	45.6
LAION-2B-en	LAION-2B-en	65.7	57.4	75.9	52.9	48.7	47.9
B/16	CLIP WIT	68.3	61.9	77.7	48.2	55.3	47.5
LAION-400M	LAION-400M	67.0	59.6	77.9	52.4	51.5	48.3
B/16+	LAION-400M	69.2	61.5	80.5	54.4	53.9	49.2
L/14	CLIP WIT	75.6	69.8	87.9	59.6	69.0	55.7
LAION-400M	LAION-400M	72.8	65.4	84.7	59.6	51.8	-9.1
LAION-2B-en	LAION-2B-en	75.2	67.7	87.4	65.5	54.6	-1.2

LAION-400M および 2B-en で訓練された CLIP モデルは、OpenAI の私的 WIT データで学習した CLIP に対してゼロショット ImageNet およびロバスト性性能で競争力を持つ。
LAION-2B-en へのスケーリングは、十分な計算資源があれば複数のデータセットおよびプロンプトで性能を向上させる。
LAION-5B は GLIDE のような生成モデルの再現と微調整を成功させ、生成タスクへの転移を示す。
著者らは研究とデータセット探索を促進するため、最近傍インデックスや CLIP 検索UI など複数のサブセットとツールを提供している。
データセットは完成品ではなく、偏りと安全性の影響を慎重に分析した上で学術研究に使用すべきである。
下流のテストセットとの重複や代替テキストの品質・ノイズは、汎化を評価する際の重要な考慮事項である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。