[논문 리뷰] SRFormerV2: Taking a Closer Look at Permuted Self-Attention for Image Super-Resolution
SRFormer는 순열화된 자기 주의(PSA)를 도입하여 계산 비용을 줄인 채로 대창(window) 규모의 자기 주의를 가능하게 하며, 전통적, 경량화 및 실세계 이미지 초해상도에서 최첨단 성능을 달성한다.
Previous works have shown that increasing the window size for Transformer-based image super-resolution models (e.g., SwinIR) can significantly improve the model performance. Still, the computation overhead is also considerable when the window size gradually increases. In this paper, we present SRFormer, a simple but novel method that can enjoy the benefit of large window self-attention but introduces even less computational burden. The core of our SRFormer is the permuted self-attention (PSA), which strikes an appropriate balance between the channel and spatial information for self-attention. Without any bells and whistles, we show that our SRFormer achieves a 33.86dB PSNR score on the Urban100 dataset, which is 0.46dB higher than that of SwinIR but uses fewer parameters and computations. In addition, we also attempt to scale up the model by further enlarging the window size and channel numbers to explore the potential of Transformer-based models. Experiments show that our scaled model, named SRFormerV2, can further improve the results and achieves state-of-the-art. We hope our simple and effective approach could be useful for future research in super-resolution model design. The homepage is https://z-yupeng.github.io/SRFormer/.
연구 동기 및 목표
- 계산 비용이 크게 증가하지 않으면서 이미지 초해상도에서 자기 주의를 확장하는 방법을 연구한다.
- 대창(window)을 효과적으로 활용하는 자기 주의 메커니즘을 개발한다.
- 개선된 피드포워드 네트워크를 통해 SR에서 고주파 디테일 복구를 향상시킨다.
- 성능을 유지하거나 향상시키는 경량 SR 모델을 설계한다.
- 실세계 열화 시나리오에서의 강인성을 입증한다.
제안 방법
- K/V 채널 차원을 축소하고 토큰을 채널로 순열시키는 순열화된 자기 주의(PSA)를 제안하여 대창(window) 주의를 가능하게 한다.
- Q를 전체 채널로 사용하고, 공간 정보를 보존하기 위해 축소된 채널의 K/V와 공간 순열을 사용한다.
- 고주파 디테일 복구를 개선하기 위해 두 FFN 선형 계층 사이에 깊이별 합성곱(depthwise convolution)을 배치하여 ConvFFN을 도입한다.
- 픽셀 임베딩 층, 계층적 PSA 기반 특징 인코더, 재구성 헤드로 구성된 SRFormer를 구축한다.
- HR 출력에 L1 손실로 학습하고; 성능 향상을 위해 self-ensembling SRFormer+를 활용한다.
실험 결과
연구 질문
- RQ1대창(window) 자기 주의가 매개변수나 FLOPs를 증가시키지 않으면서 SR 성능을 향상시킬 수 있는가?
- RQ2K/V에 대해 토큰을 채널로 순열시키는 것이 SR에서 효과적인 대창(window) 주의를 가능하게 하는가?
- RQ3FFN의 로컬 깊이별 합성곱(ConvFFN)을 더하는 것이 고주파 디테일 복구를 향상시키는가?
- RQ4SRFormer는 전통적, 경량화, 실세계 작업 전반에서 최첨단 SR 방법과 어떻게 비교되는가?
주요 결과
- PSA를 갖춘 SRFormer는 강한 SR 성능을 달성하며, DIV2K로 학습했을 때 Urban100에서 2x SR에 대해 33.86 dB PSNR을 기록했고, 이는 SwinIR보다 0.46 dB 더 높은 수치다.
- 24x24 창(window)을 가진 SRFormer는 8x8 창을 가진 SwinIR보다 더 적은 매개변수와 MAC를 사용하지만 더 높은 PSNR을 제공한다.
- 5x5 깊이별 합성곱을 갖는 ConvFFN이 테스트된 커널 크기 중 고주파 복구를 가장 잘 수행한다.
- 대창 24x24 PSA 창은 절차 실험(ablation) 전체에서 일관되게 성능을 향상시키며, 토큰을 감소시키거나 샘플링하는 변형들을 능가한다.
- SRFormer-light는 여러 데이터셋과 규모에서 경량 SR 모델들 중 최첨단 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.