[논문 리뷰] Exploiting Diffusion Prior for Real-World Image Super-Resolution
이 논문은 사전 학습된 텍스트-이미지 확산 모델을 고정된 프라이어로 사용하고, 재학습 없이 확산 모델의 프리 트레이닝을 유지하며 경량의 시간 인식 인코더와 제어 가능한 특징 래핑 모듈 및 점진적 집계 샘플링을 통해 실제 세계 블라인드 초해상도를 달성한다.
We present a novel approach to leverage prior knowledge encapsulated in pre-trained text-to-image diffusion models for blind super-resolution (SR). Specifically, by employing our time-aware encoder, we can achieve promising restoration results without altering the pre-trained synthesis model, thereby preserving the generative prior and minimizing training cost. To remedy the loss of fidelity caused by the inherent stochasticity of diffusion models, we employ a controllable feature wrapping module that allows users to balance quality and fidelity by simply adjusting a scalar value during the inference process. Moreover, we develop a progressive aggregation sampling strategy to overcome the fixed-size constraints of pre-trained diffusion models, enabling adaptation to resolutions of any size. A comprehensive evaluation of our method using both synthetic and real-world benchmarks demonstrates its superiority over current state-of-the-art approaches. Code and models are available at https://github.com/IceClear/StableSR.
연구 동기 및 목표
- 사전 학습된 확산 모델의 생성 프라이어를 재학습 없이 보존하면서 블라인드 SR 방법을 동기화하고 개발한다.
- LR 입력을 사용해 동결된 확산 모델을 조건화하는 경량의 시간 인식 인코더를 제안한다.
- 재구성 중 충실도와 현실감의 균형을 맞추기 위해 tunable한 가중치 w를 갖는 제어 가능한 특징 래핑 모듈(CFW)을 도입한다.
- 타일 기반 경계 아티팩트를 피하고 임의의 대출 출력 크기를 처리하기 위한 점진적 집계 샘플링 전략을 개발한다.
- 합성 및 실제 세계 SR 벤치마크에서 최첨단 방법과 비교하여 우수한 성능을 보여준다.
제안 방법
- 다중 해상도 특징 변조(SFT)를 통해 SR를 조건화하도록 Frozen된 Stable Diffusion 모델에 경량의 시간 인식 인코더를 미세 조정한다.
- 시간 인식 가이던스를 도입하여 확산 단계마다 조건 강도가 적합하게 조정되도록 하여 추론 중 더 강한 가이던스를 가능하게 한다.
- 엔코더/디코더 특징을 tunable weight w로 융합하는 제어 가능한 특징 래핑(CFW) 모듈을 추가하여 충실도와 리얼리즘을_trade-off한다.
- 확산 출력의 색상 편향을 줄이기 위해 색 보정(픽셀 도메인 및 웨이브렛 기반 변형)을 적용한다.
- 확산 반복 동안 겹치는 패치와 가우시안 가중 융합을 통해 임의 해상도를 처리하는 점진적 집계 샘플링 전략을 적용한다.

실험 결과
연구 질문
- RQ1재훈련 없이도 사전 학습된 확산 모델을 어떻게 실제 세계의 블라인드 SR에 활용할 수 있는가?
- RQ2생성 프리어를 보존하면서 LR 이미지에 대해 동결된 확산 프라이어를 조건화하는 데 필요한 경량 구성 요소는 무엇인가?
- RQ3확산 기반 SR에서 충실도-현실감 트레이드오프를 제어 가능하게 관리할 수 있는가?
- RQ4경계 아티팩트 없이 확산 기반 SR로 임의의 이미지 해상도를 달성할 수 있는가?
- RQ5확산 프라이어 기반 SR 방법이 합성 및 실제 벤치마크에서 기존의 실제 세계 SR 베이스라인을 능가하는가?
주요 결과
| Dataset | PSNR | SSIM | LPIPS | FID | CLIP-IQA | MUSIQ |
|---|---|---|---|---|---|---|
| DIV2K Valid | 24.62 | 0.5970 | 0.5276 | 49.49 | 0.3534 | 28.57 |
| RealSR | 27.30 | 0.7579 | 0.3570 | 0.3687 | 38.26 | |
| DRealSR | 30.19 | 0.8148 | 0.3938 | 0.3744 | 26.93 | |
| DPED-iphone | - | - | - | - | 0.4496 | 45.60 |
- StableSR은 합성 및 실제 세계 벤치마크에서 FID, CLIP-IQA, MUSIQ와 같은 지각 지표에서 최첨단 SR 방법을 능가한다.
- 시간 인식 가이던스는 추론 중 확산 조건화 강도를 적응적으로 조절하여 충실도와 선명도를 향상시킨다.
- 제어 가능한 특징 래핑은 높은 충실도 구조와 현실적 텍스처 사이의 tunable 균형을 제공하며 실제적으로 충실도-현실감 트레이드오프를 달성한다(최적은 대략 w=0.5 근처).
- 점진적 집계 샘플링은 512x512를 넘는 해상도에서도 타일 기반 경계 아티팩트 없이 안정적인 SR을 가능하게 한다.
- 색 보정(픽셀 도메인 및 웨이브렛 기반)은 색상 편향을 줄이고 시각적 품질을 향상시킨다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.