Skip to main content
QUICK REVIEW

[论文解读] Intriguing properties of generative classifiers

Priyank Jaini, Kevin Clark|arXiv (Cornell University)|Sep 28, 2023
Generative Adversarial Networks and Image Synthesis被引用 9
一句话总结

论文表明来自文本到图像模型的零样本生成分类器表现出类似人类的形状偏差、近人类水平的OOD准确性、人类对错的模式以及对视觉错觉的理解,在若干方面超过了许多判别模型。

ABSTRACT

What is the best paradigm to recognize objects -- discriminative inference (fast but potentially prone to shortcut learning) or using a generative model (slow but potentially more robust)? We build on recent advances in generative modeling that turn text-to-image models into classifiers. This allows us to study their behavior and to compare them against discriminative models and human psychophysical data. We report four intriguing emergent properties of generative classifiers: they show a record-breaking human-like shape bias (99% for Imagen), near human-level out-of-distribution accuracy, state-of-the-art alignment with human classification errors, and they understand certain perceptual illusions. Our results indicate that while the current dominant paradigm for modeling human object recognition is discriminative inference, zero-shot generative models approximate human object recognition data surprisingly well.

研究动机与目标

  • 评估生成模型在零-shot 设置下是否能够执行对象识别,以及它们的行为与判别模型和人类相比如何。
  • 刻画在具有挑战性的分布外数据集上生成型分类器的新兴感知特性。
  • 研究生成型分类器是否与人类的错误模式保持一致并理解感知错觉。
  • 探究驱动生成型分类器形状偏差和鲁棒性的因素,以及对脑启发感知的潜在影响。

提出的方法

  • 通过使用如“A bad photo of a y.”等提示来计算类别似然 p(x|y),并将文本到图像模型视为零-shot 分类器,选择具有最高似然性的类别。
  • 通过扩散变分下界(式(2))近似扩散模型的条件对数似然。
  • 在来自 model-vs-human 工具箱的17个具有挑战性的分布外数据集上评估三大模型家族—Imagen(扩散)、Stable Diffusion(潜在空间中的扩散)和 Parti(自回归)。
  • 与52个判别基线和人类心理物理数据进行对比。
  • 将图像预处理为模型特定分辨率,并使用固定的提示方案来推导分类决策。
  • 在各数据集上测量形状偏差、OOD准确度和错误一致性。

实验结果

研究问题

  • RQ1零-shot 生成型分类器是否表现出与判别模型相似的人类形状偏差?
  • RQ2与人类和判别模型相比,生成型分类器在分布外对象识别任务上的表现如何?
  • RQ3生成型分类器是否与人类分类错误保持一致并揭示人类式感知错觉的理解?
  • RQ4哪些因素促成扩散风格生成模型的形状偏差和鲁棒性?

主要发现

模型模型类型形状偏差OOD 准确度错误一致性
Imagen (1 prompt)zero-shot99%0.710.31
StableDiffuson (1 prompt)zero-shot93%0.690.26
Parti (1 prompt)zero-shot92%0.580.23
CLIP (1 prompt)zero-shot80%0.550.26
CLIP (80 prompts)zero-shot57%0.710.28
ViT-22B-384 trained on 4B imagesdiscriminative87%0.800.26
ViT-L trained on IN-21Kdiscriminative42%0.730.21
RN-50 trained on IN-1Kdiscriminative21%0.560.21
RN-50 trained w/ diffusion noisediscriminative57%0.570.24
RN-50 train+eval w/ diffusion noisediscriminative78%0.430.18
  • Imagen 具有99%的形状偏差、近人类水平的OOD准确性以及与人类高度一致的错误模式。
  • Stable Diffusion 具有93%的形状偏差和强烈但略低于Imagen的OOD鲁棒性。
  • Parti 具有92%的形状偏差、显著的OOD鲁棒性以及比多数基线更高的错误一致性提升。
  • 生成型分类器呈现出类似人类的错误模式,在多个数据集上在错误一致性方面超过了此前的SOTA判别模型。
  • 它们还通过基于重构的提示展示了对某些视觉错觉的理解。
  • 在17个OOD数据集上,零-shot 生成型分类器在鲁棒性任务上接近人类水平。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。