Skip to main content
QUICK REVIEW

[논문 리뷰] Dual Aggregation Transformer for Image Super-Resolution

Zheng Chen, Yulun Zhang|arXiv (Cornell University)|2023. 08. 07.
Advanced Image Processing Techniques인용 수 18
한 줄 요약

본 논문은 Dual Aggregation Transformer (DAT)를 이미지 초해상도에 제안하며, 공간 및 채널 자기주의를 번갈아 배치하고 적응적 상호작용과 공간 게이트 FFN을 통해 강력한 블록 간/블록 내 특징 집합화를 달성하고 최첨단 방법들을 능가한다.

ABSTRACT

Transformer has recently gained considerable popularity in low-level vision tasks, including image super-resolution (SR). These networks utilize self-attention along different dimensions, spatial or channel, and achieve impressive performance. This inspires us to combine the two dimensions in Transformer for a more powerful representation capability. Based on the above idea, we propose a novel Transformer model, Dual Aggregation Transformer (DAT), for image SR. Our DAT aggregates features across spatial and channel dimensions, in the inter-block and intra-block dual manner. Specifically, we alternately apply spatial and channel self-attention in consecutive Transformer blocks. The alternate strategy enables DAT to capture the global context and realize inter-block feature aggregation. Furthermore, we propose the adaptive interaction module (AIM) and the spatial-gate feed-forward network (SGFN) to achieve intra-block feature aggregation. AIM complements two self-attention mechanisms from corresponding dimensions. Meanwhile, SGFN introduces additional non-linear spatial information in the feed-forward network. Extensive experiments show that our DAT surpasses current methods. Code and models are obtainable at https://github.com/zhengchen1999/DAT.

연구 동기 및 목표

  • SR에서 단일 차원 Transformer 자기주문의 한계를 공간 및 채널 맥락을 모두 활용하여 극복하고자 한다.
  • 공간 및 채널 정보를 융합하기 위해 inter-block 및 intra-block 수준에서 작동하는 듀얼 애그리게이션 프레임워크를 제안한다.
  • intra-block 특징 융합과 지역성을 향상시키기 위한 adaptive interaction 모듈과 공간 게이트 FFN 모듈을 개발한다.
  • 이전 방법에 비해 합리적인 모델 크기와 계산으로 향상된 SR 성능을 입증한다.

제안 방법

  • 연속된 Transformer 블록에 걸쳐 공간 윈도우 자기주의(SW-SA)와 채널별 자기주의(CW-SA)를 번갈아 수행하여 블록 간 특징 집합화를 가능하게 한다.
  • Spatial-Interaction(S-I)와 Channel-Interaction(C-I)을 통해 공간 및 채널 가지를 융합하는 Adaptive Interaction Module(AIM)을 도입하여 적응적 교차 가지 정보 교환을 가능하게 한다.
  • AIM에서 도출된 적응적 공간 자기주의(AS-SA)와 적응적 채널 자기주의(AC-SA)를 개발하여 전역 및 국소 특징 간의 결합을 향상시킨다.
  • FFN 층 사이에 공간 게이트를 추가하여 비선형 공간 정보를 주입하고 채널 중복성을 감소시키는 Spatial-Gate Feed-Forward Network(SGFN)를 통한 intra-block 향상.
  • 두 가지 DAT 변형을 제공: 더 가벼운 DAT-S와 더 큰 DAT로, 깊이, 윈도우 크기 및 확장 인자에서 차이가 있다.
  • DIV2K/Flickr2K에서 SR 업스케일링 배수 x2, x3, x4에 대해 학습·평가하고 PSNR/SSIM 지표로 최첨단 방법들과 비교한다.

실험 결과

연구 질문

  • RQ1Transformer 블록에서 공간 자기주의와 채널 자기주의를 교대로 적용하면 전역 공간 맥락과 채널 맥락을 모두 포착하여 SR을 향상시킬 수 있는가?
  • RQ2가지 간의 adaptive interaction(AIM)이 단순 병렬 가지에 비해 더 우수한 특징 융합을 가져오는가?
  • RQ3FFN에 공간 게이트(SGFN)를 도입하는 것이 비용 부담 없이 intra-block 특징 집합화를 향상시키는가?
  • RQ4DAT-S와 DAT가 표준 벤치마크에서 PSNR/SSIM 측면에서 기존 SR 방법들과 어떻게 비교되는가?

주요 결과

  • DAT 및 그 자체 앙상블 버전 DAT+은 여러 배율에서 표준 벤치마크에서 기존 SR 방법들을 능가한다.
  • 정량적 결과는 PSNR/SSIM 개선이 최첨단과 경쟁적임을 보여주며, 예: Set5 x2: DAT+ PSNR 38.63 dB and SSIM 0.9631; x3: 35.19 dB and 0.9334; x4: 33.15 dB and 0.9062 (값은 표 2에 근거).
  • 절제 연구는 SW-SA와 CW-SA의 교대(인터-블록 집합화), AIM(블록 내 융합), SGFN(FFN의 공간 정보)의 효과를 검증한다.
  • DAT-S(가벼운 변형)은 비용이 낮은 복잡성과 모델 크기를 유지하면서 이전 방법들에 비해 유사하거나 더 나은 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.