Skip to main content
QUICK REVIEW

[논문 리뷰] Spatial-Frequency Attention for Image Denoising

Shi Guo, Hongwei Yong|arXiv (Cornell University)|2023. 02. 27.
Image and Signal Denoising Methods인용 수 9
한 줄 요약

SFANet은 window-based spatial self-attention과 window-based frequency channel attention을 UNet 스타일 백본에서 결합하고, dilated self-attention과 FFT 기반 주파수 모델링으로 이미지 노이즈 제거에서 장거리 의존성을 포착한다.

ABSTRACT

The recently developed transformer networks have achieved impressive performance in image denoising by exploiting the self-attention (SA) in images. However, the existing methods mostly use a relatively small window to compute SA due to the quadratic complexity of it, which limits the model's ability to model long-term image information. In this paper, we propose the spatial-frequency attention network (SFANet) to enhance the network's ability in exploiting long-range dependency. For spatial attention module (SAM), we adopt dilated SA to model long-range dependency. In the frequency attention module (FAM), we exploit more global information by using Fast Fourier Transform (FFT) by designing a window-based frequency channel attention (WFCA) block to effectively model deep frequency features and their dependencies. To make our module applicable to images of different sizes and keep the model consistency between training and inference, we apply window-based FFT with a set of fixed window sizes. In addition, channel attention is computed on both real and imaginary parts of the Fourier spectrum, which further improves restoration performance. The proposed WFCA block can effectively model image long-range dependency with acceptable complexity. Experiments on multiple denoising benchmarks demonstrate the leading performance of SFANet network.

연구 동기 및 목표

  • 작은 윈도우 자기주에 의한 한계를 넘어 이미지 노이즈 제거를 위한 향상된 장거리 의존성 모델링의 필요성 제시.
  • global 주파수 정보를 활용하기 위한 window-based frequency channel attention (WFCA) 제안.
  • 얕은 특징에서 receptive fields를 확장하기 위한 공간 주의(attention)와 dilated self-attention의 결합.
  • WFCA 블록에서 학습/추론 크기 독립성을 보장하기 위한 window-based FFT 도입.
  • 여러 노이즈 제거 벤치마크에서 선도적 성능 시연.

제안 방법

  • SFANet을 두 모듈로 소개: Spatial Attention Module (SAM)과 Frequency Attention Module (FAM).
  • SAM은 window-based self-attention과 다중 스케일 확장된 dilated self-attention (MDSA) 블록으로 초기 스케일에서 receptive field를 확장.
  • FAM은 non-overlapping 패치에 FFT를 적용하고 실수부와 허수부 푸리에 구성요소에 대해 채널 어텐션을 수행하는 window-based frequency channel attention (WFCA)을 도입.
  • WFCA는 FFT를 이용해 고정 크기 패치에서 작동하여 학습/추론 주파수 해상도 일치를 강제.
  • 복소수 주파수 특성은 concatenated real+imaginary 채널 어텐션 메커니즘과 역 FFT를 통해 패치를 재구성하는 방식으로 처리.
  • 전체 손실은 Charbonnier이며, 학습은 네 스케일과 스킵 연결을 갖춘 UNet 백본으로 구성되고, 최종 재구성은 3x3 convo를 사용.

실험 결과

연구 질문

  • RQ1window-based 및 dilated self-attention이 작은 윈도우를 넘는 노이즈 제거에서 장거리 공간 의존성을 효과적으로 포착할 수 있는가?
  • RQ2실수 및 허수 구성요소를 사용하는 FFT 기반 주파수 도메인 어텐션을 도입하면 순수 공간/자기 주의 방법보다 복원 성능이 향상되는가?
  • RQ3윈도우 기반 WFCA 블록이 주파수 해상도 불일치 없이 다양한 이미지 크기에서도 성능을 유지하는가?
  • RQ4SFANet은 표준 벤치마크에서 최첨단 노이즈 제거 방법과 어떻게 비교되는가?

주요 결과

  • SFANet은 여러 denoising 벤치마크에서 state-of-the-art 방법과 비교해 선두 성능을 달성.
  • WFCA는 큰 FFT 창(예: 64x64)을 사용하여 계산 복잡도에 허용되는 범위에서 글로벌 주파수 정보 활용 가능.
  • Fourier 스펙트럼의 실수부와 허수부를 채널 어텐션에 사용하는 것이 오로지 실수부만 사용할 때보다 복원 성능을 향상.
  • SAM의 dilated self-attention은 계산 복잡도 제곱 증가 없이 receptive field를 확장해 장거리 모델링을 개선.
  • SAM과 FAM을 갖춘 UNet 기반 백본은 Restormer 및 SwinIR를 포함한 다수 SA 기반 및 비local 노이즈 제거 모델보다 벤치마크 데이터셋에서 우수한 성능을 보임.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.