QUICK REVIEW

[논문 리뷰] Image Super-Resolution via Iterative Refinement

Chitwan Saharia, Jonathan Ho|arXiv (Cornell University)|2021. 04. 15.

Advanced Image Processing Techniques인용 수 46

한 줄 요약

SR3는 조건부 이미지 초해상도에 확산 모델을 적용하여 반복적 노이즈 제거 과정으로 고충실도 출력을 생성하고, cascaded 고해상도 생성을 가능하게 한다.

ABSTRACT

We present SR3, an approach to image Super-Resolution via Repeated Refinement. SR3 adapts denoising diffusion probabilistic models to conditional image generation and performs super-resolution through a stochastic denoising process. Inference starts with pure Gaussian noise and iteratively refines the noisy output using a U-Net model trained on denoising at various noise levels. SR3 exhibits strong performance on super-resolution tasks at different magnification factors, on faces and natural images. We conduct human evaluation on a standard 8X face super-resolution task on CelebA-HQ, comparing with SOTA GAN methods. SR3 achieves a fool rate close to 50%, suggesting photo-realistic outputs, while GANs do not exceed a fool rate of 34%. We further show the effectiveness of SR3 in cascaded image generation, where generative models are chained with super-resolution models, yielding a competitive FID score of 11.3 on ImageNet.

연구 동기 및 목표

확산 확률 모델을 조건부 이미지 생성(초해상도용)으로 적응시키는 것.
저해상도 입력에 조건화된 denoising U-Net을 개발하여 출력을 반복적으로 정제한다.
얼굴 및 자연 이미지 SR에서 SR3를 평가하고, 지각적 속임수율 연구 및 연쇄적 고해상도 생성을 포함한다.

제안 방법

저해상도 입력에 조건화된 가우스 노이즈를 고해상도 이미지로 변환하는 조건부 DDPM 프레임워크를 사용한다.
노이즈 epsilon를 예측하는 (x, y_t, gamma)를 입력으로 받아 denoise objective를 사용하는 U-Net denoiser f_theta를 학습한다.
저해상도 입력의 업샘플링된 값을 연결(concatenation)하고 gamma를 노이즈 스케일 스칼라로 사용하여 denoiser를 조건화한다.
고정된 유한한 수의 정제 단계 T를 사용하여 추론하며, Gaussian 후방분포 p_theta(y_{t-1}|y_t,x)를 따른다.
gamma-연결 조건에서 확산 스케줄을 채택하고, 예측된 노이즈를 epsilon과 일치시키는 손실로 학습한다.
옵션으로 SR3 모델을 서로 다른 스케일로 Cascading하여 고해상도 출력을 효율적으로 구성한다.
지각적 품질을 위한 인간 속임수율 연구를 사용해 평가하고, cascaded 생성에 대해 자동 지표 (FID/IS)를 포함한다.

실험 결과

연구 질문

RQ1SR3가 얼굴과 자연 이미지에 걸친 고충실도 초해상도를 위한 조건부 분포 p(y|x)를 효과적으로 모델링할 수 있는가?
RQ2SR3가 GAN 기반 방법(FSRGAN, PULSE) 및 회귀 기반 베이스라인과 비교해 지각적 품질 및 입력과의 일관성에서 어떤 차이를 보이는가?
RQ3스케일을 가로질러 SR3를 연쇄적으로 적용하는 것이 1024x1024 얼굴 및 256x256 ImageNet 생성에서 효율적이고 고품질의 결과를 가능하게 하는가?
RQ4확산 기반의 반복적 정제가 인간 속임수율 결과 및 FID/IS와 같은 표준 지표에 미치는 영향은 무엇인가?
RQ5업샘플된 x와 gamma 조건화를 하나로 연결(concatenation)하는 조건부 접근법이 고품질 SR에 충분한가?

주요 결과

모델	PSNR	SSIM	일관성
PULSE	16.88	0.44	161.1
FSRGAN	23.01	0.62	33.8
Regression	23.96	0.69	2.71
SR3	23.04	0.65	2.68

SR3는 최첨단 GAN과 비교하여 경쟁력 있는 또는 우수한 지각적 품질을 달성한다(8x CelebA-HQ 얼굴 SR에서 인간 속임수율이 약 50%에 근접).
SR3는 보조 일관성 손실 없이도 GAN 기반 방법보다 저해상도 입력과의 일관성을 더 잘 제공한다.
ImageNet 자연 이미지에서 SR3는 PSNR/SSIM이 낮은 점에도 불구하고 회귀 베이스라인보다 더 높은 FID/IS를 달성한다.
연쇄적 SR3 파이프라인은 1024x1024 얼굴과 256x256 ImageNet 샘플을 경쟁력 있는 FID 점수로 생성할 수 있다.
자동화된 지표 (PSNR/SSIM)는 고충실도 다중 모드 출력에 대한 인간 선호도와 일치하지 않을 수 있으며, SR3는 많은 설정에서 지각적 품질을 향상시킨다.
무조건적 cascade(64x64에서 더 높은 해상도로)는 단계적 정제를 통해 고해상도 이미지를 합성할 수 있는 능력을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.