Skip to main content
QUICK REVIEW

[논문 리뷰] Exploiting Diffusion Prior for Real-World Image Super-Resolution

Jianyi Wang, Zongsheng Yue|arXiv (Cornell University)|2023. 05. 11.
Advanced Image Processing Techniques인용 수 10
한 줄 요약

이 논문은 사전 학습된 텍스트-이미지 확산 모델을 고정된 프라이어로 사용하고, 재학습 없이 확산 모델의 프리 트레이닝을 유지하며 경량의 시간 인식 인코더와 제어 가능한 특징 래핑 모듈 및 점진적 집계 샘플링을 통해 실제 세계 블라인드 초해상도를 달성한다.

ABSTRACT

We present a novel approach to leverage prior knowledge encapsulated in pre-trained text-to-image diffusion models for blind super-resolution (SR). Specifically, by employing our time-aware encoder, we can achieve promising restoration results without altering the pre-trained synthesis model, thereby preserving the generative prior and minimizing training cost. To remedy the loss of fidelity caused by the inherent stochasticity of diffusion models, we employ a controllable feature wrapping module that allows users to balance quality and fidelity by simply adjusting a scalar value during the inference process. Moreover, we develop a progressive aggregation sampling strategy to overcome the fixed-size constraints of pre-trained diffusion models, enabling adaptation to resolutions of any size. A comprehensive evaluation of our method using both synthetic and real-world benchmarks demonstrates its superiority over current state-of-the-art approaches. Code and models are available at https://github.com/IceClear/StableSR.

연구 동기 및 목표

  • 사전 학습된 확산 모델의 생성 프라이어를 재학습 없이 보존하면서 블라인드 SR 방법을 동기화하고 개발한다.
  • LR 입력을 사용해 동결된 확산 모델을 조건화하는 경량의 시간 인식 인코더를 제안한다.
  • 재구성 중 충실도와 현실감의 균형을 맞추기 위해 tunable한 가중치 w를 갖는 제어 가능한 특징 래핑 모듈(CFW)을 도입한다.
  • 타일 기반 경계 아티팩트를 피하고 임의의 대출 출력 크기를 처리하기 위한 점진적 집계 샘플링 전략을 개발한다.
  • 합성 및 실제 세계 SR 벤치마크에서 최첨단 방법과 비교하여 우수한 성능을 보여준다.

제안 방법

  • 다중 해상도 특징 변조(SFT)를 통해 SR를 조건화하도록 Frozen된 Stable Diffusion 모델에 경량의 시간 인식 인코더를 미세 조정한다.
  • 시간 인식 가이던스를 도입하여 확산 단계마다 조건 강도가 적합하게 조정되도록 하여 추론 중 더 강한 가이던스를 가능하게 한다.
  • 엔코더/디코더 특징을 tunable weight w로 융합하는 제어 가능한 특징 래핑(CFW) 모듈을 추가하여 충실도와 리얼리즘을_trade-off한다.
  • 확산 출력의 색상 편향을 줄이기 위해 색 보정(픽셀 도메인 및 웨이브렛 기반 변형)을 적용한다.
  • 확산 반복 동안 겹치는 패치와 가우시안 가중 융합을 통해 임의 해상도를 처리하는 점진적 집계 샘플링 전략을 적용한다.
Figure 1 : Qualitative comparisons of BSRGAN (Zhang et al., 2021b ) , Real-ESRGAN+ (Wang et al., 2021c ) , FeMaSR (Chen et al., 2022 ) , LDM (Rombach et al., 2022 ) , and our StableSR on real-world examples. ( Zoom in for details )
Figure 1 : Qualitative comparisons of BSRGAN (Zhang et al., 2021b ) , Real-ESRGAN+ (Wang et al., 2021c ) , FeMaSR (Chen et al., 2022 ) , LDM (Rombach et al., 2022 ) , and our StableSR on real-world examples. ( Zoom in for details )

실험 결과

연구 질문

  • RQ1재훈련 없이도 사전 학습된 확산 모델을 어떻게 실제 세계의 블라인드 SR에 활용할 수 있는가?
  • RQ2생성 프리어를 보존하면서 LR 이미지에 대해 동결된 확산 프라이어를 조건화하는 데 필요한 경량 구성 요소는 무엇인가?
  • RQ3확산 기반 SR에서 충실도-현실감 트레이드오프를 제어 가능하게 관리할 수 있는가?
  • RQ4경계 아티팩트 없이 확산 기반 SR로 임의의 이미지 해상도를 달성할 수 있는가?
  • RQ5확산 프라이어 기반 SR 방법이 합성 및 실제 벤치마크에서 기존의 실제 세계 SR 베이스라인을 능가하는가?

주요 결과

DatasetPSNRSSIMLPIPSFIDCLIP-IQAMUSIQ
DIV2K Valid24.620.59700.527649.490.353428.57
RealSR27.300.75790.35700.368738.26
DRealSR30.190.81480.39380.374426.93
DPED-iphone----0.449645.60
  • StableSR은 합성 및 실제 세계 벤치마크에서 FID, CLIP-IQA, MUSIQ와 같은 지각 지표에서 최첨단 SR 방법을 능가한다.
  • 시간 인식 가이던스는 추론 중 확산 조건화 강도를 적응적으로 조절하여 충실도와 선명도를 향상시킨다.
  • 제어 가능한 특징 래핑은 높은 충실도 구조와 현실적 텍스처 사이의 tunable 균형을 제공하며 실제적으로 충실도-현실감 트레이드오프를 달성한다(최적은 대략 w=0.5 근처).
  • 점진적 집계 샘플링은 512x512를 넘는 해상도에서도 타일 기반 경계 아티팩트 없이 안정적인 SR을 가능하게 한다.
  • 색 보정(픽셀 도메인 및 웨이브렛 기반)은 색상 편향을 줄이고 시각적 품질을 향상시킨다.
Figure 2 : Framework of StableSR. We first finetune the time-aware encoder that is attached to a fixed pre-trained Stable Diffusion model. Features are combined with trainable spatial feature transform (SFT) layers. Such a simple yet effective design is capable of leveraging rich diffusion prior for
Figure 2 : Framework of StableSR. We first finetune the time-aware encoder that is attached to a fixed pre-trained Stable Diffusion model. Features are combined with trainable spatial feature transform (SFT) layers. Such a simple yet effective design is capable of leveraging rich diffusion prior for

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.