QUICK REVIEW

[논문 리뷰] Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild

Hshmat Sahak, Daniel Watson|arXiv (Cornell University)|2023. 02. 15.

Advanced Image Processing Techniques인용 수 23

한 줄 요약

SR3+를 도입한 확산 기반의 블라인드(분포 외) 이미지 초해상도 모델이 합성 저하 및 노이즈 컨디셔닝 보강을 결합해 최첨단 결과를 달성하고 대규모 데이터로 학습한 뒤 RealSR/DRealSR에서 제로샷으로 테스트되었다.

ABSTRACT

Diffusion models have shown promising results on single-image super-resolution and other image- to-image translation tasks. Despite this success, they have not outperformed state-of-the-art GAN models on the more challenging blind super-resolution task, where the input images are out of distribution, with unknown degradations. This paper introduces SR3+, a diffusion-based model for blind super-resolution, establishing a new state-of-the-art. To this end, we advocate self-supervised training with a combination of composite, parameterized degradations for self-supervised training, and noise-conditioing augmentation during training and testing. With these innovations, a large-scale convolutional architecture, and large-scale datasets, SR3+ greatly outperforms SR3. It outperforms Real-ESRGAN when trained on the same data, with a DRealSR FID score of 36.82 vs. 37.22, which further improves to FID of 32.37 with larger models, and further still with larger training sets.

연구 동기 및 목표

열악한 환경에서 저하가 알려지지 않은 상태의 강건한 블라인드 단일 이미지 초해상도를 목표로 한다.
분포 외 입력에서도 효과적으로 작용하는 확산 기반 모델을 개발한다.
일반화를 향상시키기 위해 합성 저하와 노이즈 컨디셔닝 보강을 포함한 자기지도 학습을 활용한다.
모델 크기와 학습 데이터의 증가가 상당한 이득을 가져온다는 것을 보여준다.

제안 방법

합성 초해상도를 위한 컨볼루션 U-Net 기반 확산 모델(SR3+-style)을 조건부 초해상도에 사용한다.
실제 세계의 손상에 근접하도록 훈련 중 고차원적 매개변수화된 저하를 적용한다.
강건성을 높이고 테스트 시 컨디셔닝을 가능하게 하도록 노이즈 컨디셔닝 보강을 도입한다.
성능 확장을 위해 대규모 데이터셋(DF2K+OST 및 최대 61M 이미지)에서 학습한다.
FID, PSNR, SSIM 지표를 사용한 RealSR 및 DRealSR에서 제로샷 테스트로 평가한다.

Figure 2 : The SR3+ data pipeline applies a sequence of degradations to HR training images (like Real-ESRGAN but without additive noise). To form the conditioning signal for the neural denoiser, we up-sample the LR image and applied noise conditioning augmentation.

실험 결과

연구 질문

RQ1실제 세계의 저하 하에서 확산 기반 모델이 블라인드 초해상도에서 최첨단 성능을 달성할 수 있는가?
RQ2고차 저하 및 노이즈 컨디셔닝 보강이 분포 외 입력에 대한 강건성을 시너지로 개선하는가?
RQ3모델 크기와 학습 데이터 규모가 RealSR/DRealSR 벤치마크에서 SR3+의 성능에 어떤 영향을 주는가?
RQ4블라인드 SR에서 지각적 충실도(FID)와 기준 기반 지표(PSNR/SSIM) 간의 트레이드오프는 무엇인가?
RQ5제로샷 설정에서 다양한 데이터셋 및 이미지 콘텐츠(예: 텍스트가 많은 이미지)에서 SR3+가 견고한가?

주요 결과

Model	FID(10k) RealSR ↓	FID(10k) DRealSR ↓	PSNR RealSR ↑	PSNR DRealSR ↑	SSIM RealSR ↑	SSIM DRealSR ↑
Real-ESRGAN	34.21	37.22	25.14	25.85	0.7279	0.7808
SR3+ (40M, DF2K + OST)	31.97	?	24.84	25.18	0.6827	0.7201
SR3+ (400M, DF2K + OST)	27.34	?	23.84	24.36	0.662	0.719
SR3+ (400M, 61M Dataset)	24.32	32.37	24.89	25.74	0.6922	0.7547

SR3+가 40M 파라미터에서 RealSR에서 Real-ESRGAN과 경쟁력 있는 FID(10k)를 달성한다.
동일 데이터로 학습된 더 큰 SR3+ 모델(400M)은 FID를 개선하고 RealSR에서 Real-ESRGAN을 능가하며 DRealSR에서 격차를 좁힌다.
고차 저하와 노이즈 컨디셔닝 보강을 함께 사용하면 FID가 크게 향상되며(구성 요소 중 하나를 제거하면 FID가 10포인트 이상 악화).
훨씬 더 큰 61M 이미지 데이터셋을 사용하면 400M 파라미터에서 FID가 32.37로 추가로 개선되고 텍스처가 더 사실적이고 일관되다.
테스트 시 노이즈 컨디셔닝 보강(t_eval ≈ 0.1)은 텍스처 품질을 개선하고 합리적인 정합성을 유지하나 t_eval가 커질수록 정합성 왜곡 및 헛현상이 발생할 위험이 있다.
SR3+는 일반적으로 Real-ESRGAN보다 더 선명하고 사실적인 질감을 제공하지만 PSNR/SSIM으로 평가할 때 정확한 고주파 텍스트에서 다소 뒤처질 수 있으며, 이 지표는 다중 모달 출력에서 그럴듯한 고주파 디테일을 페널티로 삼을 수 있다.

Figure 3 : Sample comparison between Real-ESRGAN and various SR3+ models (ours). We observe that Real-ESRGAN often suffers from oversmoothing and excessive contrast, while SR3+ is capable of generating high-fidelity, realistic textures.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.