[논문 리뷰] Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild
SR3+를 도입한 확산 기반의 블라인드(분포 외) 이미지 초해상도 모델이 합성 저하 및 노이즈 컨디셔닝 보강을 결합해 최첨단 결과를 달성하고 대규모 데이터로 학습한 뒤 RealSR/DRealSR에서 제로샷으로 테스트되었다.
Diffusion models have shown promising results on single-image super-resolution and other image- to-image translation tasks. Despite this success, they have not outperformed state-of-the-art GAN models on the more challenging blind super-resolution task, where the input images are out of distribution, with unknown degradations. This paper introduces SR3+, a diffusion-based model for blind super-resolution, establishing a new state-of-the-art. To this end, we advocate self-supervised training with a combination of composite, parameterized degradations for self-supervised training, and noise-conditioing augmentation during training and testing. With these innovations, a large-scale convolutional architecture, and large-scale datasets, SR3+ greatly outperforms SR3. It outperforms Real-ESRGAN when trained on the same data, with a DRealSR FID score of 36.82 vs. 37.22, which further improves to FID of 32.37 with larger models, and further still with larger training sets.
연구 동기 및 목표
- 열악한 환경에서 저하가 알려지지 않은 상태의 강건한 블라인드 단일 이미지 초해상도를 목표로 한다.
- 분포 외 입력에서도 효과적으로 작용하는 확산 기반 모델을 개발한다.
- 일반화를 향상시키기 위해 합성 저하와 노이즈 컨디셔닝 보강을 포함한 자기지도 학습을 활용한다.
- 모델 크기와 학습 데이터의 증가가 상당한 이득을 가져온다는 것을 보여준다.
제안 방법
- 합성 초해상도를 위한 컨볼루션 U-Net 기반 확산 모델(SR3+-style)을 조건부 초해상도에 사용한다.
- 실제 세계의 손상에 근접하도록 훈련 중 고차원적 매개변수화된 저하를 적용한다.
- 강건성을 높이고 테스트 시 컨디셔닝을 가능하게 하도록 노이즈 컨디셔닝 보강을 도입한다.
- 성능 확장을 위해 대규모 데이터셋(DF2K+OST 및 최대 61M 이미지)에서 학습한다.
- FID, PSNR, SSIM 지표를 사용한 RealSR 및 DRealSR에서 제로샷 테스트로 평가한다.

실험 결과
연구 질문
- RQ1실제 세계의 저하 하에서 확산 기반 모델이 블라인드 초해상도에서 최첨단 성능을 달성할 수 있는가?
- RQ2고차 저하 및 노이즈 컨디셔닝 보강이 분포 외 입력에 대한 강건성을 시너지로 개선하는가?
- RQ3모델 크기와 학습 데이터 규모가 RealSR/DRealSR 벤치마크에서 SR3+의 성능에 어떤 영향을 주는가?
- RQ4블라인드 SR에서 지각적 충실도(FID)와 기준 기반 지표(PSNR/SSIM) 간의 트레이드오프는 무엇인가?
- RQ5제로샷 설정에서 다양한 데이터셋 및 이미지 콘텐츠(예: 텍스트가 많은 이미지)에서 SR3+가 견고한가?
주요 결과
| Model | FID(10k) RealSR ↓ | FID(10k) DRealSR ↓ | PSNR RealSR ↑ | PSNR DRealSR ↑ | SSIM RealSR ↑ | SSIM DRealSR ↑ |
|---|---|---|---|---|---|---|
| Real-ESRGAN | 34.21 | 37.22 | 25.14 | 25.85 | 0.7279 | 0.7808 |
| SR3+ (40M, DF2K + OST) | 31.97 | ? | 24.84 | 25.18 | 0.6827 | 0.7201 |
| SR3+ (400M, DF2K + OST) | 27.34 | ? | 23.84 | 24.36 | 0.662 | 0.719 |
| SR3+ (400M, 61M Dataset) | 24.32 | 32.37 | 24.89 | 25.74 | 0.6922 | 0.7547 |
- SR3+가 40M 파라미터에서 RealSR에서 Real-ESRGAN과 경쟁력 있는 FID(10k)를 달성한다.
- 동일 데이터로 학습된 더 큰 SR3+ 모델(400M)은 FID를 개선하고 RealSR에서 Real-ESRGAN을 능가하며 DRealSR에서 격차를 좁힌다.
- 고차 저하와 노이즈 컨디셔닝 보강을 함께 사용하면 FID가 크게 향상되며(구성 요소 중 하나를 제거하면 FID가 10포인트 이상 악화).
- 훨씬 더 큰 61M 이미지 데이터셋을 사용하면 400M 파라미터에서 FID가 32.37로 추가로 개선되고 텍스처가 더 사실적이고 일관되다.
- 테스트 시 노이즈 컨디셔닝 보강(t_eval ≈ 0.1)은 텍스처 품질을 개선하고 합리적인 정합성을 유지하나 t_eval가 커질수록 정합성 왜곡 및 헛현상이 발생할 위험이 있다.
- SR3+는 일반적으로 Real-ESRGAN보다 더 선명하고 사실적인 질감을 제공하지만 PSNR/SSIM으로 평가할 때 정확한 고주파 텍스트에서 다소 뒤처질 수 있으며, 이 지표는 다중 모달 출력에서 그럴듯한 고주파 디테일을 페널티로 삼을 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.