[論文レビュー] RedCaps: web-curated image-text data created by the people, for the people
RedCaps は Reddit から収集された大規模な画像テキストデータセット(12M ペア)で、最小限のフィルタリングとサブレディット主導のキュレーションを特徴とし、キャプション生成モデルの訓練と、以前のウェブデータソースのいくつかを上回る転移可能な視覚表現を可能にします。
Large datasets of paired images and text have become increasingly popular for learning generic representations for vision and vision-and-language tasks. Such datasets have been built by querying search engines or collecting HTML alt-text -- since web data is noisy, they require complex filtering pipelines to maintain quality. We explore alternate data sources to collect high quality data with minimal filtering. We introduce RedCaps -- a large-scale dataset of 12M image-text pairs collected from Reddit. Images and captions from Reddit depict and describe a wide variety of objects and scenes. We collect data from a manually curated set of subreddits, which give coarse image labels and allow us to steer the dataset composition without labeling individual instances. We show that captioning models trained on RedCaps produce rich and varied captions preferred by humans, and learn visual representations that transfer to many downstream tasks.
研究の動機と目的
- Reddit 上の人間が作成したコンテンツを活用して、高品質な画像-テキストペアのデータソース選択を動機づける。
- サブレディットのテーマから得られる粗いラベルを用いた、規模が大きく容易に拡張可能な画像-テキストデータセットを構築する。
- リッチなキャプションを生成し、転用可能な視覚表現を学習する視覚と言語モデルの訓練を可能にする。
- RedCaps から学習した表現の、さまざまな下流タスクへの転送可能性を評価する。)
提案手法
- 高画像投稿を含む手動でキュレーションされたセットから画像-テキストペアを収集する。
- 画像投稿を3つのホスティングドメインにフィルタリングし、低評価やNSFWコンテンツを除去する。最小限のキャプション整形を適用する。
- トレーニング中にキャプションの前置きとして Reddit の subreddit トークンを使用し、データセットのスタイルを反映させる。
- VirTex を VirTex-v2 に適応させ、より深い Transformer、30k 単語語彙、およびサブレディット トークンによるキャプションの前置を導入する。
- RedCaps で訓練し、ゼロショット、リニアプローブ、下流タスク全般の転移性能について SBU および CC-3M と比較する。
- オープンソースの訓練コードと事前学習済みチェックポイントを公開。
実験結果
リサーチクエスチョン
- RQ1Reddit のような人間中心のプラットフォームを選択し、サブレディットを手動でキュレーションすることで、ウェブソースから高品質な画像-テキストデータを得ることはできるか。
- RQ2Reddit ベースの RedCaps から学習した表現は、SBU や CC-3M から学習した表現より下流の視覚タスクへより良く転用されるか。
- RQ3RedCaps は、多様でコミュニティ主導のキャプションスタイルを用いた高品質な画像キャプション生成を支援できるか。
- RQ4サブレディット条件付きキャプショニングは、言語と視覚表現学習にどのような影響を与えるか。
- RQ5視覚と言語モデルのために Reddit由来の画像-テキストデータを使用する際の倫理的配慮と潜在的なバイアスは何か。
主な発見
- RedCaps には 12,011,111 の画像-テキストペアが 350 の subreddits(2008–2020; フィルタリング後の最終データセット)から含まれている。
- RedCaps で訓練されたキャプショニングモデルは、CC-3M のキャプションより人間に好まれる豊かで多様なキャプションを生成する。
- RedCaps 学習済みの特徴は eleven downstream datasets に転移し、ほとんどの場合 zero-shot および linear-probe 設定で SBU および CC-3M のベースラインを上回る。
- Zero-shot および linear-probe 評価は、RedCaps がいくつかのデータセットで SBU および CC-3M より高いスコアを達成することを示し、標準的な転移タスクでは競争力のある性能を示す。
- キャプショニング評価では、人間の作業者が CC-3M と比較して多数のテスト画像に対して RedCaps 生成キャプションを好んだことを示している。
- RedCaps はいくつかの多言語データセットの英語サブセットよりも大きく、CC-12M に匹敵する一方で、実験に公開されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。