[论文解读] Text-to-Image Diffusion Models are Zero-Shot Classifiers
本文表明文本到图像扩散模型(例如 Imagen、Stable Diffusion)可以作为零样本图像分类器,通过将去噪视为类别似然的代理,在与 CLIP 相当的准确性下表现出对纹理线索和属性绑定的强大鲁棒性;并且还引入提高时效性/效率的技术,使该方法更具实际可用性。
The excellent generative capabilities of text-to-image diffusion models suggest they learn informative representations of image-text data. However, what knowledge their representations capture is not fully understood, and they have not been thoroughly explored on downstream tasks. We investigate diffusion models by proposing a method for evaluating them as zero-shot classifiers. The key idea is using a diffusion model's ability to denoise a noised image given a text description of a label as a proxy for that label's likelihood. We apply our method to Stable Diffusion and Imagen, using it to probe fine-grained aspects of the models' knowledge and comparing them with CLIP's zero-shot abilities. They perform competitively with CLIP on a wide range of zero-shot image classification datasets. Additionally, they achieve state-of-the-art results on shape/texture bias tests and can successfully perform attribute binding while CLIP cannot. Although generative pre-training is prevalent in NLP, visual foundation models often use other methods such as contrastive learning. Based on our findings, we argue that generative pre-training should be explored as a compelling alternative for vision-language tasks.
研究动机与目标
- 研究文本到图像扩散模型是否学习到可转移到零样本分类的表示。
- 在多样的零样本图像分类任务中,定量比较扩散模型与 CLIP 的表现。
- 检验扩散模型对纹理-形状冲突的鲁棒性以及其进行属性绑定的能力。
- 开发提高效率的改进,使扩散模型的零样本分类更具实际可行性。
提出的方法
- 将类别标签转换为文本提示,并使用扩散模型通过重新加权的变分下界作为对数似然的代理来对图像进行评分。
- 将零样本分类器的决策定义为在随机去噪步骤中选择最小化扩散损失 L_Diffusion 的类别。
- 使用时间步和前向噪声样本的蒙特卡洛采样来估计扩散损失中的期望。
- 通过跨类别共享噪声来提高效率,因此对所有候选类别对同一带噪声的图像进行评分,从而降低方差。
- 在线裁剪不可信的类别,使用配对t检验为更可信的类别分配更多样本,形成连续消除的过程。
实验结果
研究问题
- RQ1文本到图像扩散模型是否能够作为多样数据集的有效零样本分类器?
- RQ2扩散模型的零样本分类在准确性和鲁棒性方面与 CLIP 相比如何?
- RQ3扩散模型在纹理或风格线索会误导传统判别模型时,是否表现出鲁棒性?
- RQ4扩散模型是否具备超越 CLIP 的属性绑定和组合推理能力?
主要发现
- 扩散模型在多数据集上实现的零样本分类准确性与 CLIP 相当。
- Imagen 和 Stable Diffusion 对纹理线索表现出强鲁棒性,在 Cue-Conflict 数据集上实现了最先进的性能。
- 在某些设置下,扩散模型可以对合成数据进行属性绑定,而 CLIP 无法做到。
- 提出的效率技术(共享噪声和裁剪)显著降低计算量,使零样本评估更快,尽管仍比典型判别分类器慢。
- 研究表明生成式预训练可以产生适合判别任务的强大视觉-语言表征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。