Skip to main content
QUICK REVIEW

[논문 리뷰] Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild

Hshmat Sahak, Daniel Watson|arXiv (Cornell University)|2023. 02. 15.
Advanced Image Processing Techniques인용 수 23
한 줄 요약

SR3+를 도입한 확산 기반의 블라인드(분포 외) 이미지 초해상도 모델이 합성 저하 및 노이즈 컨디셔닝 보강을 결합해 최첨단 결과를 달성하고 대규모 데이터로 학습한 뒤 RealSR/DRealSR에서 제로샷으로 테스트되었다.

ABSTRACT

Diffusion models have shown promising results on single-image super-resolution and other image- to-image translation tasks. Despite this success, they have not outperformed state-of-the-art GAN models on the more challenging blind super-resolution task, where the input images are out of distribution, with unknown degradations. This paper introduces SR3+, a diffusion-based model for blind super-resolution, establishing a new state-of-the-art. To this end, we advocate self-supervised training with a combination of composite, parameterized degradations for self-supervised training, and noise-conditioing augmentation during training and testing. With these innovations, a large-scale convolutional architecture, and large-scale datasets, SR3+ greatly outperforms SR3. It outperforms Real-ESRGAN when trained on the same data, with a DRealSR FID score of 36.82 vs. 37.22, which further improves to FID of 32.37 with larger models, and further still with larger training sets.

연구 동기 및 목표

  • 열악한 환경에서 저하가 알려지지 않은 상태의 강건한 블라인드 단일 이미지 초해상도를 목표로 한다.
  • 분포 외 입력에서도 효과적으로 작용하는 확산 기반 모델을 개발한다.
  • 일반화를 향상시키기 위해 합성 저하와 노이즈 컨디셔닝 보강을 포함한 자기지도 학습을 활용한다.
  • 모델 크기와 학습 데이터의 증가가 상당한 이득을 가져온다는 것을 보여준다.

제안 방법

  • 합성 초해상도를 위한 컨볼루션 U-Net 기반 확산 모델(SR3+-style)을 조건부 초해상도에 사용한다.
  • 실제 세계의 손상에 근접하도록 훈련 중 고차원적 매개변수화된 저하를 적용한다.
  • 강건성을 높이고 테스트 시 컨디셔닝을 가능하게 하도록 노이즈 컨디셔닝 보강을 도입한다.
  • 성능 확장을 위해 대규모 데이터셋(DF2K+OST 및 최대 61M 이미지)에서 학습한다.
  • FID, PSNR, SSIM 지표를 사용한 RealSR 및 DRealSR에서 제로샷 테스트로 평가한다.
Figure 2 : The SR3+ data pipeline applies a sequence of degradations to HR training images (like Real-ESRGAN but without additive noise). To form the conditioning signal for the neural denoiser, we up-sample the LR image and applied noise conditioning augmentation.
Figure 2 : The SR3+ data pipeline applies a sequence of degradations to HR training images (like Real-ESRGAN but without additive noise). To form the conditioning signal for the neural denoiser, we up-sample the LR image and applied noise conditioning augmentation.

실험 결과

연구 질문

  • RQ1실제 세계의 저하 하에서 확산 기반 모델이 블라인드 초해상도에서 최첨단 성능을 달성할 수 있는가?
  • RQ2고차 저하 및 노이즈 컨디셔닝 보강이 분포 외 입력에 대한 강건성을 시너지로 개선하는가?
  • RQ3모델 크기와 학습 데이터 규모가 RealSR/DRealSR 벤치마크에서 SR3+의 성능에 어떤 영향을 주는가?
  • RQ4블라인드 SR에서 지각적 충실도(FID)와 기준 기반 지표(PSNR/SSIM) 간의 트레이드오프는 무엇인가?
  • RQ5제로샷 설정에서 다양한 데이터셋 및 이미지 콘텐츠(예: 텍스트가 많은 이미지)에서 SR3+가 견고한가?

주요 결과

ModelFID(10k) RealSR ↓FID(10k) DRealSR ↓PSNR RealSR ↑PSNR DRealSR ↑SSIM RealSR ↑SSIM DRealSR ↑
Real-ESRGAN34.2137.2225.1425.850.72790.7808
SR3+ (40M, DF2K + OST)31.97?24.8425.180.68270.7201
SR3+ (400M, DF2K + OST)27.34?23.8424.360.6620.719
SR3+ (400M, 61M Dataset)24.3232.3724.8925.740.69220.7547
  • SR3+가 40M 파라미터에서 RealSR에서 Real-ESRGAN과 경쟁력 있는 FID(10k)를 달성한다.
  • 동일 데이터로 학습된 더 큰 SR3+ 모델(400M)은 FID를 개선하고 RealSR에서 Real-ESRGAN을 능가하며 DRealSR에서 격차를 좁힌다.
  • 고차 저하와 노이즈 컨디셔닝 보강을 함께 사용하면 FID가 크게 향상되며(구성 요소 중 하나를 제거하면 FID가 10포인트 이상 악화).
  • 훨씬 더 큰 61M 이미지 데이터셋을 사용하면 400M 파라미터에서 FID가 32.37로 추가로 개선되고 텍스처가 더 사실적이고 일관되다.
  • 테스트 시 노이즈 컨디셔닝 보강(t_eval ≈ 0.1)은 텍스처 품질을 개선하고 합리적인 정합성을 유지하나 t_eval가 커질수록 정합성 왜곡 및 헛현상이 발생할 위험이 있다.
  • SR3+는 일반적으로 Real-ESRGAN보다 더 선명하고 사실적인 질감을 제공하지만 PSNR/SSIM으로 평가할 때 정확한 고주파 텍스트에서 다소 뒤처질 수 있으며, 이 지표는 다중 모달 출력에서 그럴듯한 고주파 디테일을 페널티로 삼을 수 있다.
Figure 3 : Sample comparison between Real-ESRGAN and various SR3+ models (ours). We observe that Real-ESRGAN often suffers from oversmoothing and excessive contrast, while SR3+ is capable of generating high-fidelity, realistic textures.
Figure 3 : Sample comparison between Real-ESRGAN and various SR3+ models (ours). We observe that Real-ESRGAN often suffers from oversmoothing and excessive contrast, while SR3+ is capable of generating high-fidelity, realistic textures.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.