QUICK REVIEW

[論文レビュー] LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs

Christoph Schuhmann, Richard Vencu|arXiv (Cornell University)|Nov 3, 2021

Multimodal Machine Learning Applications参考文献 11被引用数 367

ひとこと要約

本論文は LAION-400M を提示します。これは 400 million CLIP-filtered image-text pairs と、埋め込み、kNN インデックス、ツールを公開したデータセットであり、マルチモーダルモデルの大規模トレーニングと DALL-E風のデモンストレーションを可能にします。

ABSTRACT

Multi-modal language-vision models trained on hundreds of millions of image-text pairs (e.g. CLIP, DALL-E) gained a recent surge, showing remarkable capability to perform zero- or few-shot learning and transfer even in absence of per-sample labels on target image data. Despite this trend, to date there has been no publicly available datasets of sufficient scale for training such models from scratch. To address this issue, in a community effort we build and release for public LAION-400M, a dataset with CLIP-filtered 400 million image-text pairs, their CLIP embeddings and kNN indices that allow efficient similarity search.

研究の動機と目的

最先端のマルチモーダルモデルをサンプルごとのラベルなしで訓練するために、公開された大規模な image-text データセットの必要性を動機づける。
Common Crawl データから LAION-400M を構築・公開するエンドツーエンドのプロセスを説明する。
研究と訓練を促進するためのツールとベンチマーク（埋め込み、kNN インデックス、ウェブデモ）を提供する。
DALL-E 風のトレーニング例と定性的結果を通じてデータセットの実用性を示す。

提案手法

ペタバイト規模の Common Crawl データを分散処理して画像URLとキャプションを抽出する。
代替テキスト長、画像サイズ、重複の除去、CLIP に基づくコサイン類似度の閾値を用いたフィルタリングパイプライン。
CLIP ベースのフィルタリングを行い違法コンテンツを除去し、画像・テキストの埋め込みを計算する。
webdataset 形式で画像とメタデータを効率的にクロール、リサイズ、保存する img2dataset ライブラリの開発。
高速な類似検索を可能にする CLIP 埋め込みと kNN インデックスの提供。
事前計算済みの埋め込みとインデックスを用いた画像-テキスト検索を可能にする Web デモ。

実験結果

リサーチクエスチョン

RQ1400M 対の公開された大規模な画像-テキストデータセットは、競争力のある品質を持つマルチモーダルモデルの訓練をサポートできるだろうか？
RQ2規模拡大時のデータ品質と安全性を確保するCLIPベースのフィルタリングはどれほど効果的か？
RQ3このようなデータセットで効率的な研究を促進するために、どのようなツールとデータ表現（埋め込み、kNN インデックス）が必要か？
RQ4LAION-400M のサブセットは DALL-E風のテキストから画像への生成の訓練を支援し、定性的結果を得られるか？

主な発見

指標	値
ユニークなサンプル数	413M
高さまたは幅 ≥ 1024 の数	26M
高さと幅 ≥ 1024 の数	9.6M
高さと幅 ≥ 512 の数	67M
高さまたは幅 ≥ 512 の数	112M
高さと幅 ≥ 256 の数	211M
高さまたは幅 ≥ 256 の数	268M

LAION-400M は 400 million の画像-テキストペアと、それらの CLIP 埋め込み、および効率的な類似検索のための kNN インデックスを提供します。
NSFW と検出された画像は 1% 未満で、必要に応じてユーザー側のフィルタリングを可能にします。
ウェブデモはデータセット内の多様で意味的に関連する画像-テキストの連携を示します。
サブセット（7.2M 枚の画像を1エポック訓練）で学習した DALL-E風モデルは、収束が速く、比較的高品質なサンプルを示します。
LAION-400M のサブセット（例: 3M、7.2M）は、テキストから画像へのモデルの訓練に用いられ、観察可能な進歩と一貫した出力を生むことができます。
データセットにはさまざまな解像度の訓練サブセットを作成できる画像サイズ分布が含まれています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。