[논문 리뷰] SRTransGAN: Image Super-Resolution using Transformer based Generative Adversarial Network
SRTransGAN은 트랜스포머 기반 생성기와 비전 트랜스포머 디스크리미네이터를 갖춘 트랜스포머 기반 GAN으로 단일 이미지 초해상도에서 표준 데이터셋의 PSNR/SSIM을 향상시키는 것을 목표로 한다.
Image super-resolution aims to synthesize high-resolution image from a low-resolution image. It is an active area to overcome the resolution limitations in several applications like low-resolution object-recognition, medical image enhancement, etc. The generative adversarial network (GAN) based methods have been the state-of-the-art for image super-resolution by utilizing the convolutional neural networks (CNNs) based generator and discriminator networks. However, the CNNs are not able to exploit the global information very effectively in contrast to the transformers, which are the recent breakthrough in deep learning by exploiting the self-attention mechanism. Motivated from the success of transformers in language and vision applications, we propose a SRTransGAN for image super-resolution using transformer based GAN. Specifically, we propose a novel transformer-based encoder-decoder network as a generator to generate 2x images and 4x images. We design the discriminator network using vision transformer which uses the image as sequence of patches and hence useful for binary classification between synthesized and real high-resolution images. The proposed SRTransGAN outperforms the existing methods by 4.38 % on an average of PSNR and SSIM scores. We also analyze the saliency map to understand the learning ability of the proposed method.
연구 동기 및 목표
- 이미지 초해상도에서 전역 정보를 더 잘 포착하기 위해 트랜스포머의 사용을 촉진한다.
- 2x 및 4x SR 이미지를 생성할 수 있는 트랜스포머 기반 인코더–디코더 생성기를 개발한다.
- 생성된 SR 이미지를 실제 HR 이미지와 효과적으로 구분하기 위해 ViT 기반 디스크리미네이터를 설계한다.
- 제안된 SRTransGAN을 최첨단 방법과 비교 평가하고 트랜스포머 블록 수, 레벨, 학습 데이터에 대한 소거 연구를 분석한다.
제안 방법
- SRTransG라는 트랜스포머 기반 생성기와 SRTransD라는 비전 트랜스포머 디스크리미네이터를 갖춘 SRTransGAN을 도입한다.
- SRTransG를 다중 수준의 인코더–디코더로 구성하고 건너뛰기 연결과 스케일별 특징 연결을 사용하며, 연결 후 채널 축소를 통해 다운샘플링/업샘플링을 수행한다.
- 채널 위에서 작동하는 Multi Deconvolution 전치 주의(attention)와 피드포워드 블록의 게이팅 메커니즘을 포함하는 트랜스포머 블록 설계를 적용한다.
- 판별 이전에 HR/SR 특징과 업샘플링된 LR 정보를 연결(concatenate)하여 조건부 GAN 프레임워크를 따르는 방식으로 입력을 처리한다.
- 관련 연구에서 참조된 지각적(perceptual) 또는 보조 손실과 함께 적대적 손실을 사용하여 2x 및 4x로 진행하는 SRTransGAN을 학습한다.
- 트랜스포머 블록 수, 레벨, 학습 데이터 세트의 영향력을 소거하여 성능을 평가한다.
- 학습 동작을 이해하기 위한 질적 주목도 맵 분석을 제공한다.
실험 결과
연구 질문
- RQ1트랜스포머 기반 GAN이 CNN 기반 및 다른 트랜스포머 기반 방법보다 단일 이미지 초해상도를 개선할 수 있는가?
- RQ2비전 트랜스포머 디스크리미네이터가 트랜스포머 기반 SR 생성기 학습에 어떤 영향을 미치는가?
- RQ3네트워크 깊이(트랜스포머 블록 수)와 계층적 수준이 2x 및 4x 스케일의 SR 성능에 어떤 영향을 미치는가?
- RQ4스킵 연결을 통한 점진적 2x/4x 생성이 고주파 영역의 세부 재구성에 우수한가?
주요 결과
- SRTransGAN 프레임워크는 PSNR 및 SSIM 점수에서 기존 방법보다 평균적으로 4.38% 향상시킨다.
- 다중 수준의 인코더–디코더와 건너뛰기 연결을 갖춘 트랜스포머 기반 생성기는 SR의 고주파 세부 정보를 효과적으로 학습한다.
- 비전 트랜스포머 디스크리미네이터는 이미지 패치를 활용해 실제/가짜 분류를 견고하게 수행하고 적대적 공동 학습을 돕는다.
- Ablation 연구는 트랜스포머 블록 수, 레벨, 학습 데이터 세트가 성능에 미치는 영향을 보여준다.
- 주목도 맵 분석은 모델이 SR 매핑을 학습하는 위치에 대한 통찰을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.