Skip to main content
QUICK REVIEW

[논문 리뷰] Image Super-Resolution via Iterative Refinement

Chitwan Saharia, Jonathan Ho|arXiv (Cornell University)|2021. 04. 15.
Advanced Image Processing Techniques인용 수 46
한 줄 요약

SR3는 조건부 이미지 초해상도에 확산 모델을 적용하여 반복적 노이즈 제거 과정으로 고충실도 출력을 생성하고, cascaded 고해상도 생성을 가능하게 한다.

ABSTRACT

We present SR3, an approach to image Super-Resolution via Repeated Refinement. SR3 adapts denoising diffusion probabilistic models to conditional image generation and performs super-resolution through a stochastic denoising process. Inference starts with pure Gaussian noise and iteratively refines the noisy output using a U-Net model trained on denoising at various noise levels. SR3 exhibits strong performance on super-resolution tasks at different magnification factors, on faces and natural images. We conduct human evaluation on a standard 8X face super-resolution task on CelebA-HQ, comparing with SOTA GAN methods. SR3 achieves a fool rate close to 50%, suggesting photo-realistic outputs, while GANs do not exceed a fool rate of 34%. We further show the effectiveness of SR3 in cascaded image generation, where generative models are chained with super-resolution models, yielding a competitive FID score of 11.3 on ImageNet.

연구 동기 및 목표

  • 확산 확률 모델을 조건부 이미지 생성(초해상도용)으로 적응시키는 것.
  • 저해상도 입력에 조건화된 denoising U-Net을 개발하여 출력을 반복적으로 정제한다.
  • 얼굴 및 자연 이미지 SR에서 SR3를 평가하고, 지각적 속임수율 연구 및 연쇄적 고해상도 생성을 포함한다.

제안 방법

  • 저해상도 입력에 조건화된 가우스 노이즈를 고해상도 이미지로 변환하는 조건부 DDPM 프레임워크를 사용한다.
  • 노이즈 epsilon를 예측하는 (x, y_t, gamma)를 입력으로 받아 denoise objective를 사용하는 U-Net denoiser f_theta를 학습한다.
  • 저해상도 입력의 업샘플링된 값을 연결(concatenation)하고 gamma를 노이즈 스케일 스칼라로 사용하여 denoiser를 조건화한다.
  • 고정된 유한한 수의 정제 단계 T를 사용하여 추론하며, Gaussian 후방분포 p_theta(y_{t-1}|y_t,x)를 따른다.
  • gamma-연결 조건에서 확산 스케줄을 채택하고, 예측된 노이즈를 epsilon과 일치시키는 손실로 학습한다.
  • 옵션으로 SR3 모델을 서로 다른 스케일로 Cascading하여 고해상도 출력을 효율적으로 구성한다.
  • 지각적 품질을 위한 인간 속임수율 연구를 사용해 평가하고, cascaded 생성에 대해 자동 지표 (FID/IS)를 포함한다.

실험 결과

연구 질문

  • RQ1SR3가 얼굴과 자연 이미지에 걸친 고충실도 초해상도를 위한 조건부 분포 p(y|x)를 효과적으로 모델링할 수 있는가?
  • RQ2SR3가 GAN 기반 방법(FSRGAN, PULSE) 및 회귀 기반 베이스라인과 비교해 지각적 품질 및 입력과의 일관성에서 어떤 차이를 보이는가?
  • RQ3스케일을 가로질러 SR3를 연쇄적으로 적용하는 것이 1024x1024 얼굴 및 256x256 ImageNet 생성에서 효율적이고 고품질의 결과를 가능하게 하는가?
  • RQ4확산 기반의 반복적 정제가 인간 속임수율 결과 및 FID/IS와 같은 표준 지표에 미치는 영향은 무엇인가?
  • RQ5업샘플된 x와 gamma 조건화를 하나로 연결(concatenation)하는 조건부 접근법이 고품질 SR에 충분한가?

주요 결과

모델PSNRSSIM일관성
PULSE16.880.44161.1
FSRGAN23.010.6233.8
Regression23.960.692.71
SR323.040.652.68
  • SR3는 최첨단 GAN과 비교하여 경쟁력 있는 또는 우수한 지각적 품질을 달성한다(8x CelebA-HQ 얼굴 SR에서 인간 속임수율이 약 50%에 근접).
  • SR3는 보조 일관성 손실 없이도 GAN 기반 방법보다 저해상도 입력과의 일관성을 더 잘 제공한다.
  • ImageNet 자연 이미지에서 SR3는 PSNR/SSIM이 낮은 점에도 불구하고 회귀 베이스라인보다 더 높은 FID/IS를 달성한다.
  • 연쇄적 SR3 파이프라인은 1024x1024 얼굴과 256x256 ImageNet 샘플을 경쟁력 있는 FID 점수로 생성할 수 있다.
  • 자동화된 지표 (PSNR/SSIM)는 고충실도 다중 모드 출력에 대한 인간 선호도와 일치하지 않을 수 있으며, SR3는 많은 설정에서 지각적 품질을 향상시킨다.
  • 무조건적 cascade(64x64에서 더 높은 해상도로)는 단계적 정제를 통해 고해상도 이미지를 합성할 수 있는 능력을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.