QUICK REVIEW

[論文レビュー] StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

Yonglong Tian, Lijie Fan|arXiv (Cornell University)|Jun 1, 2023

Multimodal Machine Learning Applications被引用数 23

ひとこと要約

この論文は、Stable Diffusion 由来の合成画像で自己教師付き学習が実画像のベースラインと同等またはそれを上回ることを示し、同じキャプションから得られる複数の画像を活用して表現を改善する StableRep という多重陽性対比学習法を提案します。

ABSTRACT

We investigate the potential of learning visual representations using synthetic images generated by text-to-image models. This is a natural question in the light of the excellent performance of such models in generating high-quality images. We consider specifically the Stable Diffusion, one of the leading open source text-to-image models. We show that (1) when the generative model is configured with proper classifier-free guidance scale, training self-supervised methods on synthetic images can match or beat the real image counterpart; (2) by treating the multiple images generated from the same text prompt as positives for each other, we develop a multi-positive contrastive learning method, which we call StableRep. With solely synthetic images, the representations learned by StableRep surpass the performance of representations learned by SimCLR and CLIP using the same set of text prompts and corresponding real images, on large scale datasets. When we further add language supervision, StableRep trained with 20M synthetic images achieves better accuracy than CLIP trained with 50M real images.

研究の動機と目的

テキストから画像へ生成された Stable Diffusion を用いた合成データから視覚表現を学習する動機づけ。
自己教師付き学習のための画像品質/多様性に対するガイダンススケールの影響を調査。
多くの合成画像をキャプションごとに活用する多重陽性対比損失（StableRep）を開発。
ImageNet 線形プローブ、Few-shot タスク、ドメイン横断データセットで表現品質を評価。
合成データと組み合わせた場合の言語監督の影響を探る。

提案手法

大規模な画像-テキストデータセット（CC3M, CC12M, RedCaps）から各キャプションに対して Stable Diffusion で1画像を生成する。
合成画像上で自己教師付き手法（SimCLR, MAE, BYOL, MoCo-v3, DINO）を訓練し、リアル画像ベースラインと比較する。
StableRep を導入：キャプションごとに複数の画像を生成（異なる潜在ノイズを用いて）し、これらの陽性間でマルチ陽性対比損失を適用。
マルチ陽性損失を、 Ground-truth のマッチ分布と候補埋め込みのソフトマックスとのクロスエントロピーとして定式化（式 2–4）。
ガイダンススケール w を調整して画像品質と多様性のバランスを取る；線形プロービング、Few-shot、セグメンテーションのベンチマークを評価。
任意で言語監督（i2t, t2i）を追加して StableRep+ を作成し、CLIP と比較する。

実験結果

リサーチクエスチョン

RQ1合成画像による自己教師付き視覚表現学習は、同じサイズの実画像からの学習に匹敵するか、それを上回るか？
RQ2同じキャプションから生成された複数の画像を陽性として扱うことで表現が改善されるか（StableRep）？
RQ3StableRep は標準ベンチマークとデータセット全体で CLIP および SimCLR と比べてどうか？
RQ4合成画像の事前学習と組み合わせた場合、言語監督の影響は？
RQ5画像プロンプト、ガイダンススケール、陽性の数などの設計選択は性能とスケーラビリティにどう影響するか？

主な発見

データセット	Real (SimCLR)	Syn (SimCLR)	Real (CLIP)	Syn (CLIP)	StableRep (Syn)	Notes
CC12M	61.5	70.3	63.7	67.8	73.5	Table 1a results for CC12M
RedCaps	61.8	71.9	62.8	69.2	74.5	Table 1b results for RedCaps

適切なガイダンススケール（SSL: w およそ 6–8、CLIP: 2–10）を用いた StableDiffusion は、合成画像が線形評価で実画像の SSL ベースラインを上回ることがある。
複数のプロンプト生成画像を用いる StableRep のマルチ陽性損失は表現品質を向上させ、いくつかの設定で合成データを用いた場合に SimCLR および CLIP を上回る。
StableRep は合成画像のみで訓練した ViT-B/16 で ImageNet の線形精度 76.7% を達成。
言語監督と組み合わせた場合、StableRep が 2000万枚の合成画像で訓練され CLIP が 5000万枚の実画像で訓練された場合に線形精度で上回る。
StableRep+ は FairFace および ARO の公平性・組成性指標を改善し、合成データで一部の最悪クラスの精度を緩和できる。
CC12M および RedCaps を跨ぎ、StableRep は ImageNet の線形プロービングで CLIP が実画像で訓練された場合を上回り、11 データセット平均で強い横断領域性能を示す。
Few-shot タスクでは、StableRep は複数のデータセットで強力な結果を示し、しばしば CLIP および SimCLR のベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。