Skip to main content
QUICK REVIEW

[논문 리뷰] Recursive Generalization Transformer for Image Super-Resolution

Zheng Chen, Yulun Zhang|arXiv (Cornell University)|2023. 03. 11.
Advanced Image Processing Techniques인용 수 23
한 줄 요약

본 논문은 Recursive Generalization Transformer (RGT)와 Recursive-Generalization Self-Attention (RG-SA) 및 Hybrid Adaptive Integration (HAI)를 도입하여 선형 복잡도에서 고해상도 이미지 초해상도에 대한 글로벌 컨텍스트를 캡처하고, 최첨단 결과를 달성합니다.

ABSTRACT

Transformer architectures have exhibited remarkable performance in image super-resolution (SR). Since the quadratic computational complexity of the self-attention (SA) in Transformer, existing methods tend to adopt SA in a local region to reduce overheads. However, the local design restricts the global context exploitation, which is crucial for accurate image reconstruction. In this work, we propose the Recursive Generalization Transformer (RGT) for image SR, which can capture global spatial information and is suitable for high-resolution images. Specifically, we propose the recursive-generalization self-attention (RG-SA). It recursively aggregates input features into representative feature maps, and then utilizes cross-attention to extract global information. Meanwhile, the channel dimensions of attention matrices (query, key, and value) are further scaled to mitigate the redundancy in the channel domain. Furthermore, we combine the RG-SA with local self-attention to enhance the exploitation of the global context, and propose the hybrid adaptive integration (HAI) for module integration. The HAI allows the direct and effective fusion between features at different levels (local or global). Extensive experiments demonstrate that our RGT outperforms recent state-of-the-art methods quantitatively and qualitatively. Code and pre-trained models are available at https://github.com/zhengchen1999/RGT.

연구 동기 및 목표

  • 이미지 초해상도에서 지역 자기 주의(self-attention) 방법을 넘어 글로벌 맥락 모델링의 필요성과 동기를 제시한다.
  • 계산량을 관리 가능한 수준으로 유지하면서 고해상도 SR를 처리할 수 있는 변환기 기반 아키텍처를 개발한다.
  • 대표 피처 맵과 교차 주의력을 통해 글로벌 정보를 집계하는 RG-SA를 설계한다.
  • 로컬과 글로벌 특징을 효과적으로 융합하기 위해 Hybrid Adaptive Integration (HAI)을 도입한다.
  • 실험을 통해 RGT가 최첨단 SR 성능을 달성한다는 것을 입증한다.

제안 방법

  • 얕은 특성 추출, 깊은 특성 추출 및 영상 재구성 모듈을 갖춘 Recursive Generalization Transformer (RGT) 아키텍처를 제안한다.
  • Recursive-Generalization Self-Attention (RG-SA)를 도입하여 Recursive Generalization Module (RGM)을 사용해 상수 크기의 대표 맵을 만들고 글로벌 정보 교환을 위한 교차 주의를 수행한다.
  • 주 의 채널의 크기를 조정하여 중복을 줄이고 효율성을 높인다.
  • 글로벌 컨텍스트를 더 잘 활용하기 위해 RG-SA와 Local Self-Attention (L-SA)를 번갈아 배치로 구성한다.
  • Transformer 블록 외부에서 Hybrid Adaptive Integration (HAI)을 적용하여 입력 특징과 출력 특징을 학습 가능한 어댑터 α를 통해 적응적으로 융합하고 모듈 간 정보 흐름을 개선한다.

실험 결과

연구 질문

  • RQ1RG-SA가 선형 계산 복잡도에서 글로벌 공간 정보를 포착하여 고해상도 SR에 적합한가?
  • RQ2RG-SA와 L-SA를 HAI로 결합하면 글로벌 컨텍스트 활용과 재구성 품질이 개선되는가?
  • RQ3RG-SA의 채널 스케일링 및 재귀가 성능과 효율성에 미치는 영향은 무엇인가?
  • RQ4RGT가 표준 벤치마크에서 최첨단 CNN- 및 Transformer 기반 SR 방법과 어떻게 비교되는가?

주요 결과

  • RGT는 x2, x3, x4의 스케일링 요인에서 표준 벤치마크에 대해 최신 SR 방법보다 우수한 성능을 보인다.
  • RG-SA는 Recursive Generalization Module과 교차 주의의 도움으로 선형 복잡도의 글로벌 정보 모델링을 가능하게 한다.
  • HAI는 글로벌 및 로컬 SA 모듈 간 특징 융합을 개선하여 정보 흐름과 성능을 향상시킨다.
  • 재귀 및 RG-SA의 채널 스케일링이 FLOPs를 줄이고 PSNR/SSIM을 높이며, HAI는 일반 스킵 커넥션 대비 상당한 이점을 제공한다.
  • DIV2K/Flickr2K에서 학습하고 Set5, Set14, B100, Urban100, Manga109에서 테스트한 실험은 정량적 및 정성적 개선을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.