[논문 리뷰] Restormer: Efficient Transformer for High-Resolution Image Restoration
Restormer는 다중 Dconv 헤드 전이 주의(attention)와 게이티드-Dconv 피드포워드 네트워크를 갖춘 경량 트랜스포머를 도입하여 선형 복잡도로 고해상도 이미지 복원을 가능하게 하며, 여러 작업에서 최첨단 성능을 달성합니다.
Since convolutional neural networks (CNNs) perform well at learning generalizable image priors from large-scale data, these models have been extensively applied to image restoration and related tasks. Recently, another class of neural architectures, Transformers, have shown significant performance gains on natural language and high-level vision tasks. While the Transformer model mitigates the shortcomings of CNNs (i.e., limited receptive field and inadaptability to input content), its computational complexity grows quadratically with the spatial resolution, therefore making it infeasible to apply to most image restoration tasks involving high-resolution images. In this work, we propose an efficient Transformer model by making several key designs in the building blocks (multi-head attention and feed-forward network) such that it can capture long-range pixel interactions, while still remaining applicable to large images. Our model, named Restoration Transformer (Restormer), achieves state-of-the-art results on several image restoration tasks, including image deraining, single-image motion deblurring, defocus deblurring (single-image and dual-pixel data), and image denoising (Gaussian grayscale/color denoising, and real image denoising). The source code and pre-trained models are available at https://github.com/swz30/Restormer.
연구 동기 및 목표
- 강한 이미지 사전 정보와 긴 범위 의존성이 필요한 ill-posed 문제로서 이미지 복원을 제시한다.
- 표준 self-attention의 제곱 복잡도를 극복하여 고해상도 복원을 가능하게 한다.
- 다음과 같은 새로운 구성 요소(MDTA와 GDFN)와 다중 스케일 컨텍스트 학습을 위한 점진적 학습 전략으로 Restormer를 제안한다.
제안 방법
- 로컬 윈도우로 분할하지 않고 고해상도 이미지를 처리하는 인코더-디코더 아키텍처를 도입한다.
- 일반 다중-head self-attention을 선형 복잡도로 교차 채널 공분산을 계산하는 다중 Dconv 헤드 전이 주의(MDTA)로 대체하고, 1x1 및 depthwise 합성곱을 통해 로컬 컨텍스트를 통합한다.
- 게이팅 메커니즘과 depthwise 합성곱을 사용하는 게이티드-Dconv 피드포워드 네트워크(GDFN)를 제안하여 특징 변환을 제어하고 풍부하게 만든다.
- 전진 학습 전략으로 작은 패치에서 큰 배치로 시작하여 점차 더 큰 패치로 이동하고 배치를 작게 조정해 전역 이미지 통계를 포착한다.
- deraining, deblurring, defocus deblurring (single-image 및 dual-pixel), 그리고 denoising에 대해 작업별 Restormer 모델을 학습시키고 매개변수 수와 FLOPs를 상당히 작게 유지한다.
실험 결과
연구 질문
- RQ1Restormer가 고해상도 이미지 복원에 적합한 선형 복잡도로 전역 픽셀 상호작용을 모델링할 수 있는가?
- RQ2제안된 MDTA와 GDFN 구성요소가 전통적인 attention 및 feed-forward 네트워크와 복원 작업에서 어떻게 비교되는가?
- RQ3다중 복원 작업에 걸쳐 전체 해상도 이미지의 성능을 향상시키는가?
- RQ4deraining, motion deblurring, defocus deblurring, 및 denoising 데이터셋에서 Restormer의 최첨단 성능은 무엇인가?
주요 결과
- Restormer는 다중 데이터셋에서 이미지 deraining, 단일 이미지 모션 디블러링, defocus 디블러링(단일 이미지 및 이중 픽셀), 및 이미지 denoising에 최첨단 결과를 달성한다.
- 평균적으로 Restormer는 이전 최상위 deraining 방법보다 1.05 dB 더 우수하다(다섯 개의 Rain 데이터셋에서).
- 모션 디블러링의 경우 Restormer는 MIMO-UNet+ 대비 평균 PSNR/SSIM을 0.47 dB, MPRNet 대비 0.26 dB 향상시키고, MPRNet보다 FLOPs를 81% 줄였으며 IPT보다 파라미터를 4.4배 줄였고 런타임은 29배 빨랐다.
- 가우시안 그레이스케일/컬러 노이즈 제거 및 실제 영상 노이즈 제거에서 Restormer는 선도하는 CNN/트랜스포머 방법과 동등하거나 우수하며, SIDD/DND 벤치마크의 실제 영상 노이즈 제거에서 더 높은 PSNR을 달성한다.
- Restormer는 강한 일반화 능력을 보여주며, GoPro로 deblurring을 학습시키고도 다른 데이터셋에서 최첨단 성능을 달성한다.
- 절제 연구는 MDTA와 GDFN의 조합이 고해상도 도시 데이터셋에서 가장 좋은 PSNR을 낳음을 보여주며, 이는 설계 선택의 타당성을 검증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.