[논문 리뷰] HAT: Hybrid Attention Transformer for Image Restoration
HAT는 윈도우 기반 자기 주의와 채널 주의, 중첩 교차 주의 모듈을 결합한 하이브리드 어텐션 트랜스포머를 도입하여 더 많은 입력 픽셀을 활성화하고 뛰어난 이미지 복원을 달성하며, 동일 작업 사전학습 전략이 성능을 향상시킵니다.
Transformer-based methods have shown impressive performance in image restoration tasks, such as image super-resolution and denoising. However, we find that these networks can only utilize a limited spatial range of input information through attribution analysis. This implies that the potential of Transformer is still not fully exploited in existing networks. In order to activate more input pixels for better restoration, we propose a new Hybrid Attention Transformer (HAT). It combines both channel attention and window-based self-attention schemes, thus making use of their complementary advantages. Moreover, to better aggregate the cross-window information, we introduce an overlapping cross-attention module to enhance the interaction between neighboring window features. In the training stage, we additionally adopt a same-task pre-training strategy to further exploit the potential of the model for further improvement. Extensive experiments have demonstrated the effectiveness of the proposed modules. We further scale up the model to show that the performance of the SR task can be greatly improved. Besides, we extend HAT to more image restoration applications, including real-world image super-resolution, Gaussian image denoising and image compression artifacts reduction. Experiments on benchmark and real-world datasets demonstrate that our HAT achieves state-of-the-art performance both quantitatively and qualitatively. Codes and models are publicly available at https://github.com/XPixelGroup/HAT.
연구 동기 및 목표
- 기존 Transformer 기반 이미지 복원 모델이 입력 픽셀 정보를 활용하는 데 가진 한계를 이해한다.
- 하이브리드 주의와 중첩 교차 주의를 통해 더 많은 입력 픽셀을 활성화하여 복원 품질을 향상시키는 새로운 백본을 제안한다.
- 대규모 데이터에서의 동일 작업 사전학습이 SR 및 다른 IR 작업의 효과를 보여준다.
- HAT의 확장성과 SR, 실세계 SR, 노이즈 제거, 압축 아티팩트 감소에의 적용 가능성을 보여준다.
제안 방법
- HAT의 설계: 얇은 특징 추출, 다중 RHAG를 포함한 심층 특징 추출, 재구성으로 구성됨.
- 정보 활용 범위를 확장하기 위해 (S)W-MSA를 포함하고 병렬 채널 주의 블록(CAB)을 갖춘 하이브리드 어텐션 블록(HAB)으로 표준 Swin 트랜스포머 블록을 대체.
- 크로스 윈도우 상호 작용을 직접 강화하기 위한 중첩 교차 주의 블록(OCAB)의 도입.
- 자체 주의 범위를 넓히기 위해 HAB에서 큰 윈도우 크기(16)를 사용하고, 작은 융합 가중치 alpha로 글로벌 채널 정보를 활용하기 위해 CAB를 포함.
- 다른 윈도우 크기로 구현된 중첩 교차 주의(OCA)로 윈도우 간 주의를 가능하게 한다.
- 동일 작업 사전학습 전략: 동일 복원 작업에 대해 ImageNet에서 사전 학습하고 대상 데이터 세트에서 미세 조정하여 데이터의 규모와 다양성을 활용한다.
실험 결과
연구 질문
- RQ1하이브리드 어텐션 메커니즘이 Transformer 기반 IR 모델이 활용하는 입력 픽셀 범위를 개선할 수 있는가?
- RQ2윈도우 크기를 확장하고 교차 창 주의 및 채널 주의를 도입하면 SR 및 IR 이득이 측정 가능한가?
- RQ3중첩 교차 주의가 창 간 정보 흐름에 미치는 영향은 무엇인가?
- RQ4대규모 데이터에서의 동일 작업 사전학습이 SR 및 다른 IR 작업에 실질적인 이점을 제공하는가?
- RQ5HAT가 SR, 실세계 SR, denoising, compression artifact reduction 등 여러 IR 작업에서 최첨단 방법과 비교해 어떤 성능을 보이는가?
주요 결과
| 윈도우 크기 | Set5 | Set14 | BSD100 | Urban100 | Manga109 |
|---|---|---|---|---|---|
| (8,8) | 32.88 | 29.09 | 27.92 | 27.45 | 32.03 |
| (16,16) | 32.97 | 29.12 | 27.95 | 27.81 | 32.15 |
- HAT는 SR 작업에서 최첨단 방법을 상당한 차이로 능가하며 SR 실험에서 0.3 dB에서 1.2 dB 범위의 향상을 보고한다.
- 자체 주의 윈도우 크기를 16으로 확장하고 CAB를 통합하면 활용 가능한 입력 픽셀 범위가 크게 증가하고 질감 재구성이 개선된다.
- 적층 연구(아베이레이션)에서 OCAB와 CAB가 추가 PSNR 이득(데 dataset에 따라 약 0.1–0.16 dB 정도)과 확산 지수(Diffusion Index) 상승에 기여하여 픽셀 활용 범위가 넓어짐을 나타낸다.
- ImageNet에서의 동일 작업 사전학습 전략이 성능을 더욱 향상시키며 SR 트랜스포머 모델에 대해 대규모 데이터의 중요성을 강조한다.
- HAT는 더 큰 변형(HAT-L 등)으로 효과적으로 규모 확장이 가능하며 현실 세계 SR, 가우시안 노이즈 제거, 압축 아티팩트 감소에서도 최첨단 성능 범위를 확장한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.