Skip to main content
QUICK REVIEW

[论文解读] Label-Efficient Semantic Segmentation with Diffusion Models

Dmitry Baranchuk, Ivan Rubachev|arXiv (Cornell University)|Dec 6, 2021
Generative Adversarial Networks and Image Synthesis被引用 28
一句话总结

论文使用预训练去噪扩散概率模型(DDPM)的中间激活作为逐像素表示来进行少样本语义分割,与基于GAN的和自监督基线相比取得强劲结果。

ABSTRACT

Denoising diffusion probabilistic models have recently received much research attention since they outperform alternative approaches, such as GANs, and currently provide state-of-the-art generative performance. The superior performance of diffusion models has made them an appealing tool in several applications, including inpainting, super-resolution, and semantic editing. In this paper, we demonstrate that diffusion models can also serve as an instrument for semantic segmentation, especially in the setup when labeled data is scarce. In particular, for several pretrained diffusion models, we investigate the intermediate activations from the networks that perform the Markov step of the reverse diffusion process. We show that these activations effectively capture the semantic information from an input image and appear to be excellent pixel-level representations for the segmentation problem. Based on these observations, we describe a simple segmentation method, which can work even if only a few training images are provided. Our approach significantly outperforms the existing alternatives on several datasets for the same amount of human supervision.

研究动机与目标

  • 推动并证明DDPM可以为分割提供有价值的像素级语义表示。
  • 显示中间DDPM激活捕捉了与密集预测相关的语义信息。
  • 提出一个简单的分割流水线,使用DDPM激活结合少量有标签数据。
  • 在多个数据集上对DDPM基表示与基于GAN的和自监督基线进行实证比较。

提出的方法

  • 通过在选定的扩散步t和解码块B,将损坏的真实图像输入到DDPM的噪声预测网络U-Net来提取像素级表示。
  • 将中间激活上采样到图像分辨率并跨块与步进行连接,形成8448维的像素特征。
  • 在带标签像素上训练一个MLP集成来预测每个像素的类别(半监督 setting)。
  • 在推理阶段,对测试图像提取像素特征,并通过MLP集成的多数投票来预测标签。
  • 在多个数据集上将DDPM表示与基于GAN的、自监督和自编码器基线进行比较。

实验结果

研究问题

  • RQ1中间DDPM激活是否包含适用于分割的具备语义意义的逐像素信息?
  • RQ2一种简单、标注高效的分割流水线是否能利用DDPM基表示在少样本设置中优于现有基线?
  • RQ3DDPM基表示与基于GAN的和自监督表示在细粒度语义分割方面有何比较?
  • RQ4扩散步t以及所选的UNet块对分割质量有何影响?

主要发现

MethodBedroom-28FFHQ-34Cat-15Horse-21CelebA-19ADE Bedroom-30
ALAE20.0 ± 1.048.1 ± 1.349.7 ± 0.715.0 ± 0.5
VDVAE57.3 ± 1.154.1 ± 1.0
GAN Inversion13.9 ± 0.651.7 ± 0.821.4 ± 1.717.7 ± 0.451.5 ± 2.311.1 ± 0.2
GAN Encoder22.4 ± 1.653.9 ± 1.332.0 ± 1.826.7 ± 0.753.9 ± 0.815.7 ± 0.3
SwAV42.4 ± 1.756.9 ± 1.345.1 ± 2.154.0 ± 0.952.4 ± 1.330.6 ± 1.6
MAE45.0 ± 2.058.8 ± 1.152.4 ± 2.363.4 ± 1.457.8 ± 0.431.7 ± 1.8
DatasetGAN31.3 ± 2.357.0 ± 1.136.5 ± 2.345.4 ± 1.4
DatasetDDPM47.9 ± 2.956.0 ± 0.947.6 ± 1.560.8 ± 1.0
DDPM (Ours)49.4 ± 1.959.1 ± 1.453.7 ± 3.365.0 ± 0.859.9 ± 1.034.6 ± 1.7
  • DDPM基表示在若干少样本分割数据集上显著优于大多数基线(表2)。
  • DDPM在Bedroom-28、FFHQ-34、Cat-15、Horse-21、CelebA-19、ADE Bedroom-30等数据集上通常优于DatasetGAN,并在GAN基和自监督方法上往往超过。
  • DDPM在使用真实数据训练时比大多数基线具有更高的平均IoU,并且在使用合成GAN数据训练时仍具备竞争力(表3)。
  • 最具信息量的语义信号来自中间UNet块和后期扩散步,较小物体受益于较浅的块,较大物体受益于较深的块(第3.1节)。
  • 提出的基于DDPM的方法对输入干扰具有鲁棒性,在不同监督水平下仍保持其优势(表2–4,图6)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。