QUICK REVIEW

[논문 리뷰] Dual Aggregation Transformer for Image Super-Resolution

Zheng Chen, Yulun Zhang|arXiv (Cornell University)|2023. 08. 07.

Advanced Image Processing Techniques인용 수 18

한 줄 요약

본 논문은 Dual Aggregation Transformer (DAT)를 이미지 초해상도에 제안하며, 공간 및 채널 자기주의를 번갈아 배치하고 적응적 상호작용과 공간 게이트 FFN을 통해 강력한 블록 간/블록 내 특징 집합화를 달성하고 최첨단 방법들을 능가한다.

ABSTRACT

Transformer has recently gained considerable popularity in low-level vision tasks, including image super-resolution (SR). These networks utilize self-attention along different dimensions, spatial or channel, and achieve impressive performance. This inspires us to combine the two dimensions in Transformer for a more powerful representation capability. Based on the above idea, we propose a novel Transformer model, Dual Aggregation Transformer (DAT), for image SR. Our DAT aggregates features across spatial and channel dimensions, in the inter-block and intra-block dual manner. Specifically, we alternately apply spatial and channel self-attention in consecutive Transformer blocks. The alternate strategy enables DAT to capture the global context and realize inter-block feature aggregation. Furthermore, we propose the adaptive interaction module (AIM) and the spatial-gate feed-forward network (SGFN) to achieve intra-block feature aggregation. AIM complements two self-attention mechanisms from corresponding dimensions. Meanwhile, SGFN introduces additional non-linear spatial information in the feed-forward network. Extensive experiments show that our DAT surpasses current methods. Code and models are obtainable at https://github.com/zhengchen1999/DAT.

연구 동기 및 목표

SR에서 단일 차원 Transformer 자기주문의 한계를 공간 및 채널 맥락을 모두 활용하여 극복하고자 한다.
공간 및 채널 정보를 융합하기 위해 inter-block 및 intra-block 수준에서 작동하는 듀얼 애그리게이션 프레임워크를 제안한다.
intra-block 특징 융합과 지역성을 향상시키기 위한 adaptive interaction 모듈과 공간 게이트 FFN 모듈을 개발한다.
이전 방법에 비해 합리적인 모델 크기와 계산으로 향상된 SR 성능을 입증한다.

제안 방법

연속된 Transformer 블록에 걸쳐 공간 윈도우 자기주의(SW-SA)와 채널별 자기주의(CW-SA)를 번갈아 수행하여 블록 간 특징 집합화를 가능하게 한다.
Spatial-Interaction(S-I)와 Channel-Interaction(C-I)을 통해 공간 및 채널 가지를 융합하는 Adaptive Interaction Module(AIM)을 도입하여 적응적 교차 가지 정보 교환을 가능하게 한다.
AIM에서 도출된 적응적 공간 자기주의(AS-SA)와 적응적 채널 자기주의(AC-SA)를 개발하여 전역 및 국소 특징 간의 결합을 향상시킨다.
FFN 층 사이에 공간 게이트를 추가하여 비선형 공간 정보를 주입하고 채널 중복성을 감소시키는 Spatial-Gate Feed-Forward Network(SGFN)를 통한 intra-block 향상.
두 가지 DAT 변형을 제공: 더 가벼운 DAT-S와 더 큰 DAT로, 깊이, 윈도우 크기 및 확장 인자에서 차이가 있다.
DIV2K/Flickr2K에서 SR 업스케일링 배수 x2, x3, x4에 대해 학습·평가하고 PSNR/SSIM 지표로 최첨단 방법들과 비교한다.

실험 결과

연구 질문

RQ1Transformer 블록에서 공간 자기주의와 채널 자기주의를 교대로 적용하면 전역 공간 맥락과 채널 맥락을 모두 포착하여 SR을 향상시킬 수 있는가?
RQ2가지 간의 adaptive interaction(AIM)이 단순 병렬 가지에 비해 더 우수한 특징 융합을 가져오는가?
RQ3FFN에 공간 게이트(SGFN)를 도입하는 것이 비용 부담 없이 intra-block 특징 집합화를 향상시키는가?
RQ4DAT-S와 DAT가 표준 벤치마크에서 PSNR/SSIM 측면에서 기존 SR 방법들과 어떻게 비교되는가?

주요 결과

DAT 및 그 자체 앙상블 버전 DAT+은 여러 배율에서 표준 벤치마크에서 기존 SR 방법들을 능가한다.
정량적 결과는 PSNR/SSIM 개선이 최첨단과 경쟁적임을 보여주며, 예: Set5 x2: DAT+ PSNR 38.63 dB and SSIM 0.9631; x3: 35.19 dB and 0.9334; x4: 33.15 dB and 0.9062 (값은 표 2에 근거).
절제 연구는 SW-SA와 CW-SA의 교대(인터-블록 집합화), AIM(블록 내 융합), SGFN(FFN의 공간 정보)의 효과를 검증한다.
DAT-S(가벼운 변형)은 비용이 낮은 복잡성과 모델 크기를 유지하면서 이전 방법들에 비해 유사하거나 더 나은 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.