QUICK REVIEW

[論文レビュー] Label-Efficient Semantic Segmentation with Diffusion Models

Dmitry Baranchuk, Ivan Rubachev|arXiv (Cornell University)|Dec 6, 2021

Generative Adversarial Networks and Image Synthesis被引用数 28

ひとこと要約

この論文は、事前学習済みのノイズ除去拡散確率モデル（DDPM）の中間活性をピクセル単位の表現として用い、少数ショットのセマンティックセグメンテーションを行い、GANベースおよび自己教師付けベースラインと比較して強い成果を達成している。

ABSTRACT

Denoising diffusion probabilistic models have recently received much research attention since they outperform alternative approaches, such as GANs, and currently provide state-of-the-art generative performance. The superior performance of diffusion models has made them an appealing tool in several applications, including inpainting, super-resolution, and semantic editing. In this paper, we demonstrate that diffusion models can also serve as an instrument for semantic segmentation, especially in the setup when labeled data is scarce. In particular, for several pretrained diffusion models, we investigate the intermediate activations from the networks that perform the Markov step of the reverse diffusion process. We show that these activations effectively capture the semantic information from an input image and appear to be excellent pixel-level representations for the segmentation problem. Based on these observations, we describe a simple segmentation method, which can work even if only a few training images are provided. Our approach significantly outperforms the existing alternatives on several datasets for the same amount of human supervision.

研究の動機と目的

DDPMがセグメンテーションの貴重なピクセルレベルの表現を提供できることを動機づけ、実証する。
DDPMの中間活性が密集予測に関連する意味情報を捉えることを示す。
DDPM活性を小さなラベル付きデータセットと組み合わせたシンプルなセグメンテーション手法を提案する。
実データでのトレーニングと、GANベースおよび自己教師付けベースラインに対するDDPMベースの表現を実験的に比較する。

提案手法

選択された拡散ステップ t とデコーダブロック B で DDPM ノイズ予測ネット U-Net に腐敗させた実画像を入力してピクセルレベルの表現を抽出する。
中間活性を画像解像度にアップサンプリングし、ブロックとステップを横断して連結し、8448 次元のピクセル特徴を形成する。
ラベル付きピクセル上で MLP のアンサンブルを訓練し、ピクセルごとのクラスを予測する（半教師あり設定）。
推論時には、テスト画像のピクセル特徴を抽出し、MLPアンサンブルの多数決でラベルを予測する。
DDPM表現を複数データセットでGANベース、自 Superviseds、オートエンコーダベースと比較する。

実験結果

リサーチクエスチョン

RQ1中間の DDPM 活性にはセグメンテーションに適した意味的に有意義なピクセル単位情報が含まれているか。
RQ2単純でラベル効率の高いセグメンテーション手法は、DDPMベースの表現を活用して、少数ショット設定で既存のベースラインを上回ることができるか。
RQ3DDPMベースの表現は、 GANベースおよび自己教師付け表現と比較して、細粒度のセマンティックセグメンテーションにおいてどうか。
RQ4拡散ステップ t および選択した UNet ブロックがセグメンテーション品質に与える影響は何か。

主な発見

手法	Bedroom-28	FFHQ-34	Cat-15	Horse-21	CelebA-19	ADE Bedroom-30
ALAE	20.0 ± 1.0	48.1 ± 1.3	—	—	49.7 ± 0.7	15.0 ± 0.5
VDVAE	—	57.3 ± 1.1	—	—	54.1 ± 1.0	—
GAN Inversion	13.9 ± 0.6	51.7 ± 0.8	21.4 ± 1.7	17.7 ± 0.4	51.5 ± 2.3	11.1 ± 0.2
GAN Encoder	22.4 ± 1.6	53.9 ± 1.3	32.0 ± 1.8	26.7 ± 0.7	53.9 ± 0.8	15.7 ± 0.3
SwAV	42.4 ± 1.7	56.9 ± 1.3	45.1 ± 2.1	54.0 ± 0.9	52.4 ± 1.3	30.6 ± 1.6
MAE	45.0 ± 2.0	58.8 ± 1.1	52.4 ± 2.3	63.4 ± 1.4	57.8 ± 0.4	31.7 ± 1.8
DatasetGAN	31.3 ± 2.3	57.0 ± 1.1	36.5 ± 2.3	45.4 ± 1.4	—	—
DatasetDDPM	47.9 ± 2.9	56.0 ± 0.9	47.6 ± 1.5	60.8 ± 1.0	—	—
DDPM (Ours)	49.4 ± 1.9	59.1 ± 1.4	53.7 ± 3.3	65.0 ± 0.8	59.9 ± 1.0	34.6 ± 1.7

DDPMベースの表現は、いくつかの少数ショットセグメンテーションデータセットで多くのベースラインを大幅に上回る（表2）。
DDPMは DatasetGAN を上回り、多くの場合 GANベースおよび自己教師付け手法を上回る Bedroom-28, FFHQ-34, Cat-15, Horse-21, CelebA-19, ADE-Bedroom-30 で。
DDPMは実データで訓練した場合に多くのベースラインより高い平均 IoU を達成し、合成 GAN データで訓練した場合にも競争力を維持する（表3）。
最も有益な意味的信号は中間 UNet ブロックと後期の拡散ステップから得られ、小さな物体は浅いブロック、大きな物体は深いブロックから恩恵を受ける（セクション 3.1）。
提案された DDPM ベースの手法は入力の破損に対して頑健で、監視レベルの変化下でもその利点を維持する（Tables 2–4, Fig. 6）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。