[논문 리뷰] SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and Improved Training for Image Super-Resolution
SwinFIR은 전역 정보를 포착하기 위해 Fast Fourier Convolution 기반 Spatial Frequency Block을 도입하고, 데이터 증강 및 피처 앙상블을 통해 이미지 초해상도에서 상태-오브-더-아트(SOTA) 수준의 결과를 달성합니다.
Transformer-based methods have achieved impressive image restoration performance due to their capacities to model long-range dependency compared to CNN-based methods. However, advances like SwinIR adopts the window-based and local attention strategy to balance the performance and computational overhead, which restricts employing large receptive fields to capture global information and establish long dependencies in the early layers. To further improve the efficiency of capturing global information, in this work, we propose SwinFIR to extend SwinIR by replacing Fast Fourier Convolution (FFC) components, which have the image-wide receptive field. We also revisit other advanced techniques, i.e, data augmentation, pre-training, and feature ensemble to improve the effect of image reconstruction. And our feature ensemble method enables the performance of the model to be considerably enhanced without increasing the training and testing time. We applied our algorithm on multiple popular large-scale benchmarks and achieved state-of-the-art performance comparing to the existing methods. For example, our SwinFIR achieves the PSNR of 32.83 dB on Manga109 dataset, which is 0.8 dB higher than the state-of-the-art SwinIR method.
연구 동기 및 목표
- 초기 층에서 전역 정보를 활용하여 이미지 초해상도를 향상시키려는 동기를 부여합니다.
- 로컬 CNN 특징과 Fast Fourier Convolution을 통합하는 글로벌 특징 추출기를 설계합니다.
- 훈련 시점의 개선(손실, 데이터 증강, 사전 학습)을 탐구하여 SR 성능을 향상시킵니다.
- 추가 학습이나 추론 시간 없이 결과를 향상시키는 제로-코스트 포스트-프로세싱 앙상블을 제안합니다.
제안 방법
- 깊은 특징 추출에서 SwinIR 합성곱을 Spatial Frequency Block(SFB)으로 교체합니다. SFB는 공간 CNN 경로와 주파수 영역 FFT 경로를 결합합니다.
- 주파수 분기에서 Fast Fourier Convolution(FFC)을 사용하여 전역 정보를 포착하고 잔여 공간 경로와 융합합니다.
- 훈련 안정성과 성능을 위해 L1/L2 대신 Charbonnier 손실을 채택합니다.
- 채널 셔플, Mixup 등 픽셀 도메인 데이터 증강을 적용하여 일반화를 향상시킵니다.
- 훈련/테스트 시간을 늘리지 않고 여러 학습 모델을 앙상블하는 피처 앙상블 포스트-프로세싱 기법을 도입합니다.
실험 결과
연구 질문
- RQ1공간 주파수 블록이 SR에서 전역 정보를 효과적으로 포착하고 순수하게 로컬 윈도우 transformers를 능가할 수 있을까요?
- RQ2채널 셔플과 Mixup과 같은 데이터 증강 전략이 이 설정에서 SR 성능을 크게 향상시킬까요?
- RQ3제로-코스트 피처 앙상블이 추가 계산 없이 데이터세트 전반에서 SR 결과를 안정적으로 향상시킬까요?
- RQ4프리-학습과 더 큰 윈도우를 사용할 때 표준 SR 벤치마크에서 SwinFIR은 SwinIR 및 EDT와 어떻게 비교되나요?
주요 결과
- SwinFIR은 Manga109에서 PSNR 32.83 dB를 달성하여 최첨단 SwinIR 방법보다 0.80 dB 더 높은 성능을 보입니다.
- Manga109와 Urban100 전반에서 SwinFIR은 SwinIR 대비 PSNR이 약 0.30~0.80 dB, EDT 대비 0.24~0.44 dB 개선을 제공합니다.
- SwinFIR-T(경량 버전)는 Manga109에서 31.50 dB PSNR을 달성하며 SwinIR/EDT-T와 유사한 파라미터 수로 각각 0.58 dB, 0.15 dB 앞섭니다.
- 제안된 데이터 증강(예: 채널 셔플, Mixup) 및 피처 앙상블 포스트-프로세싱은 학습/테스트 시간 증대 없이 주목할 만한 이점을 제공합니다.
- SwinFIR 및 그 스테레오 SR 버전인 SwinFIRSSR은 KITTI, Middlebury, Flickr1024 데이터세트를 포함한 고전적, 경량, 스테레오 SR 벤치마크 전반에서 강한 성능을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.