QUICK REVIEW

[논문 리뷰] ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting

Zongsheng Yue, Jianyi Wang|arXiv (Cornell University)|2023. 07. 23.

Advanced Image Processing Techniques인용 수 57

한 줄 요약

ResShift는 잔차를 이동시켜 HR과 LR 간 전이를 수행하는 확산 기반 SR 모델을 제시하며, 15개의 샘플링 스텝만으로도 포스트 가속 없이 경쟁력 있는 결과를 달성합니다.

ABSTRACT

Diffusion-based image super-resolution (SR) methods are mainly limited by the low inference speed due to the requirements of hundreds or even thousands of sampling steps. Existing acceleration sampling techniques inevitably sacrifice performance to some extent, leading to over-blurry SR results. To address this issue, we propose a novel and efficient diffusion model for SR that significantly reduces the number of diffusion steps, thereby eliminating the need for post-acceleration during inference and its associated performance deterioration. Our method constructs a Markov chain that transfers between the high-resolution image and the low-resolution image by shifting the residual between them, substantially improving the transition efficiency. Additionally, an elaborate noise schedule is developed to flexibly control the shifting speed and the noise strength during the diffusion process. Extensive experiments demonstrate that the proposed method obtains superior or at least comparable performance to current state-of-the-art methods on both synthetic and real-world datasets, even only with 15 sampling steps. Our code and model are available at https://github.com/zsyOAOA/ResShift.

연구 동기 및 목표

품질을 희생하지 않으면서 추론 속도를 개선한 확산 기반 SR를 동기 부여한다.
잔차를 이동시켜 LR 이미지에서 시작해 HR 이미지를 복원하는 확산 과정을 설계한다.
확산 과정에서 이동 속도와 잡음 강도를 제어하기 위한 유연한 잡음 스케줄을 개발한다.
계산 오버헤드를 줄이기 위해 잠재 공간에서의 학습 및 추론을 가능하게 한다.

제안 방법

e0 = y0 - x0인 잔차를 점진적으로 이동시켜 HR 이미지와 LR 이미지 사이의 Markov 체인을 구성한다.
잔차에 비례하는 드리프트와 tunable noise 항이 있는 q(x_t|x_{t-1}, y0) 전이(식 1)를 정의한다.
해석적으로 다루기 쉬운 주변 분포 q(x_t|x0,y0) (식 2)와 다루기 쉬운 역과정 p_theta(x_{t-1}|x_t,y0) (식 4)를 도출한다.
역 평균을 예측하기 위해 x0를 예측하는 네트워크 f_theta로 매개화하고(식 7), 가중된 KL 목표를 잡음 제거 스타일의 손실(Eq. 8)로 단순화하여 학습한다.
원시 이미지가 아닌 잠재 코드에서 작동함으로써 잠재 공간(VQGAN)에서 학습을 선택적으로 수행한다.

실험 결과

연구 질문

RQ1LR-to-HR 복원에 맞춤화된 확산 모델이 SR 충실도와 현실감을 유지하면서 추론 스텝을 줄일 수 있는가?
RQ2HR와 LR 사이의 잔차를 이동시키는 것이 SR를 위한 가우시안 노이즈 기반 확산보다 더 효율적인 확산 과정을 제공하는가?
RQ3유연한 잡음 스케줄이 SR 결과의 충실도-현실감 트레이드오프에 어떤 영향을 미치는가?
RQ4합성 및 실제 SR 벤치마크에서의 ResShift의 성능과 효율성은 최첨단 방법과 비교하여 어떠한가?

주요 결과

ResShift는 단 15개의 샘플링 스텝으로 경쟁력 있는 또는 우수한 PSNR/SSIM과 더 나은 지각적 현실감(LPIPS, CLIPIQA)을 달성한다.
제안된 잔차 이동 확산 커널은 기존 확산 SR 방법보다 더 짧은 Markov 체인을 가능하게 하여 추론 효율성을 높인다.
유연한 잡음 스케줄(kappa와 eta_t)은 충실도-현실감 트레이드오프를 제공하고 특정 설정에서는 잠재 확산 모델과 유사한 확산 다이나믹스를 모방할 수 있다.
ImageNet-Test 실험에서 ResShift는 PSNR 및 LPIPS에서 여러 기준선보다 우수하고 실제 데이터셋에서 강한 CLIPIQA 및 MUSIQ 점수를 유지한다.
VQGAN을 통한 잠재 공간 구현은 핵심 확산 형태를 바꾸지 않으면서도 학습 시간 부담을 더 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.