QUICK REVIEW

[논문 리뷰] Label-Efficient Semantic Segmentation with Diffusion Models

Dmitry Baranchuk, Ivan Rubachev|arXiv (Cornell University)|2021. 12. 06.

Generative Adversarial Networks and Image Synthesis인용 수 28

한 줄 요약

이 논문은 사전 학습된 노이즈 제거 확률 모델(DDPM)의 중간 활성화를 픽셀 단위 표현으로 사용하여 소샷 의미 분할을 수행하고 GAN 기반 및 자기지도 기반 기준선에 비해 강력한 성능을 달성한다.

ABSTRACT

Denoising diffusion probabilistic models have recently received much research attention since they outperform alternative approaches, such as GANs, and currently provide state-of-the-art generative performance. The superior performance of diffusion models has made them an appealing tool in several applications, including inpainting, super-resolution, and semantic editing. In this paper, we demonstrate that diffusion models can also serve as an instrument for semantic segmentation, especially in the setup when labeled data is scarce. In particular, for several pretrained diffusion models, we investigate the intermediate activations from the networks that perform the Markov step of the reverse diffusion process. We show that these activations effectively capture the semantic information from an input image and appear to be excellent pixel-level representations for the segmentation problem. Based on these observations, we describe a simple segmentation method, which can work even if only a few training images are provided. Our approach significantly outperforms the existing alternatives on several datasets for the same amount of human supervision.

연구 동기 및 목표

DDPM이 분할을 위한 가치 있는 픽셀 수준 의미 표현을 제공할 수 있음을 동기 부여하고 입증한다.
중간 DDPM 활성화가 밀도 예측과 관련된 의미 정보를 포착하는지 보여준다.
적은 라벨 세트를 사용하는 간단한 분할 파이프라인을 제안한다.
여러 데이터셋에서 DDPM 기반 표현과 GAN 기반 및 자기지도 기반 기준선을 경험적으로 비교한다.

제안 방법

손상된 실제 이미지를 선택된 확산 단계 t와 디코더 블록 B에서 DDPM 노이즈 예측자 U-Net에 통과시켜 픽셀 수준 표현을 추출한다.
중간 활성화를 이미지 해상도로 업샘플링하고 블록과 단계에 걸쳐 연결해 8448 차원의 픽셀 특성을 형성한다.
레이블된 픽셀에 대해 다층 퍼셉트론(MLP) 앙상블을 학습시켜 픽셀당 클래스를 예측한다(반지도 학습 설정).
추론 시 테스트 이미지를 위한 픽셀 특징을 추출하고 MLP 앙상블의 다수결 투표를 통해 라벨을 예측한다.
여러 데이터셋에서 DDPM 표현을 GAN 기반, 자기지도 및 오토인코더 기준선과 비교한다.

실험 결과

연구 질문

RQ1중간 DDPM 활성화가 분할에 적합한 의미 있는 픽셀 단위 정보를 포함하는가?
RQ2단순하고 라벨 효율적인 분할 파이프라인이 DDPM 기반 표현을 활용하여 소샷 설정에서 기존 기준선을 능가할 수 있는가?
RQ3DDPM 기반 표현은 GAN 기반 및 자기지도 표현과 비교하여 미세한 의미 분할에 얼마나 적합한가?
RQ4확산 단계 t와 선택된 UNet 블록이 분할 품질에 어떤 영향을 미치는가?

주요 결과

Method	Bedroom-28	FFHQ-34	Cat-15	Horse-21	CelebA-19	ADE Bedroom-30
ALAE	20.0 ± 1.0	48.1 ± 1.3	—	—	49.7 ± 0.7	15.0 ± 0.5
VDVAE	—	57.3 ± 1.1	—	—	54.1 ± 1.0	—
GAN Inversion	13.9 ± 0.6	51.7 ± 0.8	21.4 ± 1.7	17.7 ± 0.4	51.5 ± 2.3	11.1 ± 0.2
GAN Encoder	22.4 ± 1.6	53.9 ± 1.3	32.0 ± 1.8	26.7 ± 0.7	53.9 ± 0.8	15.7 ± 0.3
SwAV	42.4 ± 1.7	56.9 ± 1.3	45.1 ± 2.1	54.0 ± 0.9	52.4 ± 1.3	30.6 ± 1.6
MAE	45.0 ± 2.0	58.8 ± 1.1	52.4 ± 2.3	63.4 ± 1.4	57.8 ± 0.4	31.7 ± 1.8
DatasetGAN	31.3 ± 2.3	57.0 ± 1.1	36.5 ± 2.3	45.4 ± 1.4	—	—
DatasetDDPM	47.9 ± 2.9	56.0 ± 0.9	47.6 ± 1.5	60.8 ± 1.0	—	—
DDPM (Ours)	49.4 ± 1.9	59.1 ± 1.4	53.7 ± 3.3	65.0 ± 0.8	59.9 ± 1.0	34.6 ± 1.7

DDPM 기반 표현은 여러 소샷 분할 데이터셋에서 많은 기준선보다 크게 우수한 성능을 보인다(표 2).
DDPM은 Bedroom-28, FFHQ-34, Cat-15, Horse-21, CelebA-19, ADE-Bedroom-30에서 DatasetGAN을 능가하고 종종 GAN 기반 및 자기지도 방법보다 우수하다.
DDPM은 실제 데이터로 학습했을 때 대부분의 기준선보다 높은 평균 IoU를 달성하며, 합성 GAN 데이터로 학습한 경우에도 경쟁력을 유지한다(표 3).
가장 정보량이 높은 의미 신호는 중간 UNet 블록과 이후 확산 단계에서 나오며, 작은 물체는 얕은 블록에서, 큰 물체는 더 깊은 블록에서 이점이 크다(섹션 3.1).
제안된 DDPM 기반 방법은 입력 왜곡에 대한 강건성을 시현하고 감독 수준의 변화에서도 우위를 유지한다(표 2–4, 그림 6).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.