QUICK REVIEW

[논문 리뷰] Exploiting Diffusion Prior for Real-World Image Super-Resolution

Jianyi Wang, Zongsheng Yue|arXiv (Cornell University)|2023. 05. 11.

Advanced Image Processing Techniques인용 수 10

한 줄 요약

이 논문은 사전 학습된 텍스트-이미지 확산 모델을 고정된 프라이어로 사용하고, 재학습 없이 확산 모델의 프리 트레이닝을 유지하며 경량의 시간 인식 인코더와 제어 가능한 특징 래핑 모듈 및 점진적 집계 샘플링을 통해 실제 세계 블라인드 초해상도를 달성한다.

ABSTRACT

We present a novel approach to leverage prior knowledge encapsulated in pre-trained text-to-image diffusion models for blind super-resolution (SR). Specifically, by employing our time-aware encoder, we can achieve promising restoration results without altering the pre-trained synthesis model, thereby preserving the generative prior and minimizing training cost. To remedy the loss of fidelity caused by the inherent stochasticity of diffusion models, we employ a controllable feature wrapping module that allows users to balance quality and fidelity by simply adjusting a scalar value during the inference process. Moreover, we develop a progressive aggregation sampling strategy to overcome the fixed-size constraints of pre-trained diffusion models, enabling adaptation to resolutions of any size. A comprehensive evaluation of our method using both synthetic and real-world benchmarks demonstrates its superiority over current state-of-the-art approaches. Code and models are available at https://github.com/IceClear/StableSR.

연구 동기 및 목표

사전 학습된 확산 모델의 생성 프라이어를 재학습 없이 보존하면서 블라인드 SR 방법을 동기화하고 개발한다.
LR 입력을 사용해 동결된 확산 모델을 조건화하는 경량의 시간 인식 인코더를 제안한다.
재구성 중 충실도와 현실감의 균형을 맞추기 위해 tunable한 가중치 w를 갖는 제어 가능한 특징 래핑 모듈(CFW)을 도입한다.
타일 기반 경계 아티팩트를 피하고 임의의 대출 출력 크기를 처리하기 위한 점진적 집계 샘플링 전략을 개발한다.
합성 및 실제 세계 SR 벤치마크에서 최첨단 방법과 비교하여 우수한 성능을 보여준다.

제안 방법

다중 해상도 특징 변조(SFT)를 통해 SR를 조건화하도록 Frozen된 Stable Diffusion 모델에 경량의 시간 인식 인코더를 미세 조정한다.
시간 인식 가이던스를 도입하여 확산 단계마다 조건 강도가 적합하게 조정되도록 하여 추론 중 더 강한 가이던스를 가능하게 한다.
엔코더/디코더 특징을 tunable weight w로 융합하는 제어 가능한 특징 래핑(CFW) 모듈을 추가하여 충실도와 리얼리즘을_trade-off한다.
확산 출력의 색상 편향을 줄이기 위해 색 보정(픽셀 도메인 및 웨이브렛 기반 변형)을 적용한다.
확산 반복 동안 겹치는 패치와 가우시안 가중 융합을 통해 임의 해상도를 처리하는 점진적 집계 샘플링 전략을 적용한다.

Figure 1 : Qualitative comparisons of BSRGAN (Zhang et al., 2021b ) , Real-ESRGAN+ (Wang et al., 2021c ) , FeMaSR (Chen et al., 2022 ) , LDM (Rombach et al., 2022 ) , and our StableSR on real-world examples. ( Zoom in for details )

실험 결과

연구 질문

RQ1재훈련 없이도 사전 학습된 확산 모델을 어떻게 실제 세계의 블라인드 SR에 활용할 수 있는가?
RQ2생성 프리어를 보존하면서 LR 이미지에 대해 동결된 확산 프라이어를 조건화하는 데 필요한 경량 구성 요소는 무엇인가?
RQ3확산 기반 SR에서 충실도-현실감 트레이드오프를 제어 가능하게 관리할 수 있는가?
RQ4경계 아티팩트 없이 확산 기반 SR로 임의의 이미지 해상도를 달성할 수 있는가?
RQ5확산 프라이어 기반 SR 방법이 합성 및 실제 벤치마크에서 기존의 실제 세계 SR 베이스라인을 능가하는가?

주요 결과

Dataset	PSNR	SSIM	LPIPS	FID	CLIP-IQA	MUSIQ
DIV2K Valid	24.62	0.5970	0.5276	49.49	0.3534	28.57
RealSR	27.30	0.7579	0.3570		0.3687	38.26
DRealSR	30.19	0.8148	0.3938		0.3744	26.93
DPED-iphone	-	-	-	-	0.4496	45.60

StableSR은 합성 및 실제 세계 벤치마크에서 FID, CLIP-IQA, MUSIQ와 같은 지각 지표에서 최첨단 SR 방법을 능가한다.
시간 인식 가이던스는 추론 중 확산 조건화 강도를 적응적으로 조절하여 충실도와 선명도를 향상시킨다.
제어 가능한 특징 래핑은 높은 충실도 구조와 현실적 텍스처 사이의 tunable 균형을 제공하며 실제적으로 충실도-현실감 트레이드오프를 달성한다(최적은 대략 w=0.5 근처).
점진적 집계 샘플링은 512x512를 넘는 해상도에서도 타일 기반 경계 아티팩트 없이 안정적인 SR을 가능하게 한다.
색 보정(픽셀 도메인 및 웨이브렛 기반)은 색상 편향을 줄이고 시각적 품질을 향상시킨다.

Figure 2 : Framework of StableSR. We first finetune the time-aware encoder that is attached to a fixed pre-trained Stable Diffusion model. Features are combined with trainable spatial feature transform (SFT) layers. Such a simple yet effective design is capable of leveraging rich diffusion prior for

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.