[論文レビュー] Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text
MMC4 は、テキストのみの c4 データセットからの文に画像を挿入することで構築された、公開されている十億規模の画像-テキストコーパスであり、マルチモーダルな in-context 学習を可能にする。ドキュメント内の整合性が高く、プライバシーと効率のためのサブセットを提供し、OpenFlamingo の実験で有用性が検証されている。
In-context vision and language models like Flamingo support arbitrarily interleaved sequences of images and text as input. This format not only enables few-shot learning via interleaving independent supervised (image, text) examples, but also, more complex prompts involving interaction between images, e.g., "What do image A and image B have in common?" To support this interface, pretraining occurs over web corpora that similarly contain interleaved images+text. To date, however, large-scale data of this form have not been publicly available. We release Multimodal C4, an augmentation of the popular text-only C4 corpus with images interleaved. We use a linear assignment algorithm to place images into longer bodies of text using CLIP features, a process that we show outperforms alternatives. Multimodal C4 spans everyday topics like cooking, travel, technology, etc. A manual inspection of a random sample of documents shows that a vast majority (88%) of images are topically relevant, and that linear assignment frequently selects individual sentences specifically well-aligned with each image (80%). After filtering NSFW images, ads, etc., the resulting corpus consists of 101.2M documents with 571M images interleaved in 43B English tokens.
研究の動機と目的
- マルチモーダル in-context 学習を支えるために、大規模で公開されている挿入型の画像-テキストコーパスの作成を動機づける。
- CLIPベースの線形割当を用いて、文書内の画像と文を整列させる構築パイプラインを説明する。
- 幅広いトピックと文書ソースにわたる画像とテキストの品質・関連性・整合性を評価する。
- プライバシーと開発ニーズに対応するため、フィルタ済みのサブセット(mmc4-ff および mmc4-core)を提供する。
- mmc4-coreコーパス上でOpenFlamingoを用いた初期的なマルチモーダルモデル訓練の利点を実証する。
提案手法
- テキストのみの C4 コーパスを拡張し、ウェブページから画像を取得して二部割当て方式で挿入する。
- 各文書内でCLIP ViT-L/14を用いて画像と文のペアごとの類似度を計算する。
- 1文につき1画像の制約のもと、線形割当アルゴリズムを適用して画像と文を対応づける。
- サイズ・アスペクト比・重複・NSFWコンテンツのフィルタリングを多段パイプラインで実施する。
- サブセット mmc4-ff(顔を抑えた)および mmc4-core(より厳格なフィルタリングとダウンサイジング)を作成する。
- 代替割当手法を可能にするドキュメント内の類似性行列と整列を提供する。
実験結果
リサーチクエスチョン
- RQ1大規模な挿入型画像+テキストデータは、非挿入型の画像-キャプションデータと比較してマルチモーダルin-context学習を改善するだろうか?
- RQ2テキストと挿入された画像は文書内の文とどれほどよく整列するか、トピックを横断してこの整列の品質はどうか?
- RQ3フィルタリング(プライバシー・NSFW・顔)と文書/画像統計の効果とトレードオフが下流のモデル訓練に与える影響は?
- RQ4mmc4-ff や mmc4-core のようなサブセットは、開発者にとって使えるプライバシー重視の代替手段を提供するか?
主な発見
- MMC4 は 101.2M 件の文書に 571M 枚の画像を挿入し、43B トークンで構成されている。
- 主に二つのサブセットが公開される:mmc4-ff は顔が少なく、mmc4-core はより厳格なフィルタリング。
- 手動サンプリングでは、画像の88%が文書のトピックに関連し、80%が割り当てられた文に適切に整列している。
- ゼロショットの CLIP ViT-L/14 を用いた文書内の画像-テキスト整列は、整列ベンチマークのいくつかのファインチューニング済みベースラインより優れている。
- 線形割当は文書内の画像分布をより均等に広げ、画像を含む文の平均割合を 22%(最大割当)から 34%(線形割当)へ増加させる。
- mmc4 のドキュメント200件のランダムサンプル(836枚の画像)では、87.7% がトピック的に関連する画像、80.4% が文に対応している画像を示し、28.3% には顔、1.6% に透かし、3.9% ロゴ、3.2% 広告、0.7% 重複がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。