[论文解读] StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners
论文表明,对 Stable Diffusion 生成的合成图像进行自监督学习可以达到甚至超过真实图像基线,并引入 StableRep,一种利用同一字幕的多张图像来提升表征的多正对比学习方法。
We investigate the potential of learning visual representations using synthetic images generated by text-to-image models. This is a natural question in the light of the excellent performance of such models in generating high-quality images. We consider specifically the Stable Diffusion, one of the leading open source text-to-image models. We show that (1) when the generative model is configured with proper classifier-free guidance scale, training self-supervised methods on synthetic images can match or beat the real image counterpart; (2) by treating the multiple images generated from the same text prompt as positives for each other, we develop a multi-positive contrastive learning method, which we call StableRep. With solely synthetic images, the representations learned by StableRep surpass the performance of representations learned by SimCLR and CLIP using the same set of text prompts and corresponding real images, on large scale datasets. When we further add language supervision, StableRep trained with 20M synthetic images achieves better accuracy than CLIP trained with 50M real images.
研究动机与目标
- 从文本到图像模型(Stable Diffusion)生成的合成数据中学习视觉表征的动机。
- 研究引导尺度如何影响自监督学习的图像质量/多样性。
- 开发一个多正对比损失(StableRep),利用每个字幕的多张合成图像。
- 在 ImageNet 线性探针、少样本任务和跨域数据集上评估表征质量。
- 探讨与合成数据结合时语言监督的影响。
提出的方法
- 使用 Stable Diffusion 从大型图像-文本数据集(CC3M、CC12M、RedCaps)为每个字幕生成一张图像。
- 在合成图像上训练自监督方法(SimCLR、MAE、BYOL、MoCo-v3、DINO),并与真实图像基线进行比较。
- 引入 StableRep:对同一字幕通过不同潜在噪声生成多张图像,并在这些正样本之间使用多正对比损失。
- 将多正损失形式化为 Ground-truth 匹配分布与候选嵌入的 softmax 之间的交叉熵(方程 2–4)。
- 尝试引导尺度 w,以平衡图像质量与多样性;评估线性探测、少样本和分割基准。
- 可选地加入语言监督(i2t、t2i)来创建 StableRep+ 并与 CLIP 进行对比。
实验结果
研究问题
- RQ1对合成图像进行自监督视觉表征学习,是否能匹配或超过使用同等尺寸真实图像的学习?
- RQ2将同一字幕生成的多张图像视为正样本是否能提升表征(StableRep)?
- RQ3相较于 CLIP 和 SimCLR,StableRep 在标准基准和数据集上的表现如何?
- RQ4将语言监督与合成图像预训练结合时的效果如何?
- RQ5设计选择(图像提示、引导尺度、正样本数量)如何影响性能和可扩展性?
主要发现
| 数据集 | 真实图像(SimCLR) | 合成图像(SimCLR) | 真实图像(CLIP) | 合成图像(CLIP) | StableRep(合成) | 备注 |
|---|---|---|---|---|---|---|
| CC12M | 61.5 | 70.3 | 63.7 | 67.8 | 73.5 | Table 1a results for CC12M |
| RedCaps | 61.8 | 71.9 | 62.8 | 69.2 | 74.5 | Table 1b results for RedCaps |
- 对 StableDiffusion 使用合适的引导尺度(SSL 时 w 约为 6–8,CLIP 时 2–10)可得到在线性评估上优于真实图像 SSL 基线的合成图像。
- StableRep 的多正损失,使用多张提示生成的图像提高了表征质量;在若干设置中,StableRep 在合成数据上超过了 SimCLR 和 CLIP。
- StableRep 在仅用合成图像训练的 ViT-B/16 上对 ImageNet 达到 76.7% 的线性准确率。
- 在语言监督下,StableRep 使用 20M 合成图像训练,在线性准确度上超过在 50M 实图图像上训练的 CLIP。
- StableRep+ 提升了 FairFace 和 ARO 基准上的公平性/构成性指标;使用合成数据时,它可以缓解某些最坏类别的准确率。
- 在 CC12M 和 RedCaps 上,StableRep 在 ImageNet 的线性探针表现优于在真实图像上训练的 CLIP,并显示出强跨域表现(11 个数据集的平均值)。
- 在少样本任务中,StableRep 在多个数据集上取得强劲结果,通常优于 CLIP 和 SimCLR 基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。