[논문 리뷰] SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models
SRDiff는 저해상도 입력에 조건부로 다양하고 고품질의 SR 출력이 생성되는 단일 영상 초해상도용 최초의 확산 기반 모델로, 작은 발자국과 안정적인 학습을 제공합니다.
Single image super-resolution (SISR) aims to reconstruct high-resolution (HR) images from the given low-resolution (LR) ones, which is an ill-posed problem because one LR image corresponds to multiple HR images. Recently, learning-based SISR methods have greatly outperformed traditional ones, while suffering from over-smoothing, mode collapse or large model footprint issues for PSNR-oriented, GAN-driven and flow-based methods respectively. To solve these problems, we propose a novel single image super-resolution diffusion probabilistic model (SRDiff), which is the first diffusion-based model for SISR. SRDiff is optimized with a variant of the variational bound on the data likelihood and can provide diverse and realistic SR predictions by gradually transforming the Gaussian noise into a super-resolution (SR) image conditioned on an LR input through a Markov chain. In addition, we introduce residual prediction to the whole framework to speed up convergence. Our extensive experiments on facial and general benchmarks (CelebA and DIV2K datasets) show that 1) SRDiff can generate diverse SR results in rich details with state-of-the-art performance, given only one LR input; 2) SRDiff is easy to train with a small footprint; and 3) SRDiff can perform flexible image manipulation including latent space interpolation and content fusion.
연구 동기 및 목표
- 과도한 매끄러짐과 모드 붕괴를 피하면서 부정확한 단일 영상 초해상(SISR) 문제를 해결한다.
- 단일 LR 입력으로 다양하고 현실적인 SR 출력이 가능하도록 한다.
- 적대적 학습이나 흐름 기반 제약 없이 안정적이고 가벼운 학습을 달성한다.
- 잠재 공간 조작과 콘텐츠 융합을 지원하여 유연한 SR 응용에 활용한다.
제안 방법
- LR 입력에 조건화된 SR 이미지로 가우시안 노이즈를 매핑하기 위해 확산 확률 모델을 사용한다.
- LR 이미지로부터 조건 정보를 추출하기 위해 사전 학습된 LR 인코더를 도입한다.
- 수렴 속도를 높이기 위해 HR 이미지와 업샘플링된 LR 이미지 사이의 차이를 모델링하여 잔차 예측을 적용한다.
- 데이터 가능도에 대한 변분 하한의 변형(ELBO)을 사용하여 노이즈 예측기 εθ를 이용해 최적화한다.
- RRDB 기반 LR 인코더와 통합된 U-Net 기반의 조건부 노이즈 예측기를 활용한다.
- 가우시안 xT에서 x0로 반복적으로 디노이즈하고, 업샘플링된 LR 이미지를 더해 SR 출력을 형성하는 추론을 수행한다.
실험 결과
연구 질문
- RQ1확산 모델을 SISR에 효과적으로 활용하여 단일 LR 입력으로 다양하고 고품질의 SR 솔루션을 생성할 수 있는가?
- RQ2잔차 예측을 포함시키는 것이 확산 기반 SISR에서 학습 안정성과 추론 속도를 개선하는가?
- RQ3PSNR 중심, GAN 기반, 흐름 기반 SR 방법과 비교했을 때 모델 크기, 학습 시간, 성능의 트레이드 오프는 무엇인가?
- RQ4SRDiff가 SR 설정에서 잠재 공간 보간 및 콘텐츠 융합과 같은 유연한 이미지 조작을 지원하는가?
주요 결과
| 방법 | PSNR | SSIM | LPIPS | LR-PSNR | 시그마 |
|---|---|---|---|---|---|
| Bicubic | 23.38 | 0.65 | 0.484 | 34.66 | 0.00 |
| RRDB | 26.89 | 0.78 | 0.220 | 48.01 | 0.00 |
| ESRGAN | 23.24 | 0.66 | 0.115 | 39.91 | 0.00 |
| ProgFSR | 24.21 | 0.69 | 0.126 | 42.19 | 0.00 |
| SRFlow | 25.32 | 0.72 | 0.108 | 50.73 | 5.21 |
| SRDiff | 25.38 | 0.74 | 0.106 | 52.34 | 6.13 |
| ProgFSR | 24.21 | 0.69 | 0.126 | 42.19 | 0.00 |
| SRDiff | 25.32 | 0.73 | 0.106 | 51.41 | 6.19 |
| Bicubic | 26.70 | 0.77 | 0.409 | 38.70 | 0.00 |
| EDS R | 28.98 | 0.83 | 0.270 | 54.89 | 0.00 |
| RRDB | 29.44 | 0.84 | 0.253 | 49.20 | 0.00 |
| RankSRGAN | 26.55 | 0.75 | 0.128 | 42.33 | 0.00 |
| ESRGAN | 26.22 | 0.75 | 0.124 | 39.03 | 0.00 |
| SRFlow | 27.09 | 0.76 | 0.120 | 49.96 | 5.14 |
| SRDiff | 27.41 | 0.79 | 0.136 | 55.21 | 6.09 |
- SRDiff는 LR 일치를 유지하면서 다양하고 고품질의 SR 출력을 달성하고 CelebA(8×) 및 DIV2K(4×)에서 여러 최첨단 방법들보다 성능을 능가한다.
- SRDiff는 약 1200만 개의 파라미터를 사용하고, 단일 GPU에서 약 30시간 정도 수렴하며 SRFlow(≈40M)보다 발자국이 작다.
- 잔차 예측은 수렴 속도를 높이고 SR 품질을 향상시키며, 차등 실험에서 확산 단계와 모델 폭 전반에 걸친 이점을 보여준다.
- SRDiff는 잠재 공간 보간 및 콘텐츠 융합을 가능하게 하여 유연한 SR 이미지 조작을 가능하게 한다.
- GAN 기반 방법과 비교하여 SRDiff는 판별자 학습 및 아티팩트를 피하고, 흐름 기반 방법과 비교하여 더 적은 구조적 제약을 가지며 가볍게 유지된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.