[논문 리뷰] Learning Texture Transformer Network for Image Super-Resolution
TTSR는 learnable 텍스처 추출기와 하드/소프트 어텐션을 사용하여 Ref 이미지의 HR 텍스처를 LR 이미지로 전달해 고품질 SR을 달성하고, 교차 스케일 피처 통합으로 결과를 향상시키는 텍스처 트랜스포머를 도입한다.
We study on image super-resolution (SR), which aims to recover realistic textures from a low-resolution (LR) image. Recent progress has been made by taking high-resolution images as references (Ref), so that relevant textures can be transferred to LR images. However, existing SR approaches neglect to use attention mechanisms to transfer high-resolution (HR) textures from Ref images, which limits these approaches in challenging cases. In this paper, we propose a novel Texture Transformer Network for Image Super-Resolution (TTSR), in which the LR and Ref images are formulated as queries and keys in a transformer, respectively. TTSR consists of four closely-related modules optimized for image generation tasks, including a learnable texture extractor by DNN, a relevance embedding module, a hard-attention module for texture transfer, and a soft-attention module for texture synthesis. Such a design encourages joint feature learning across LR and Ref images, in which deep feature correspondences can be discovered by attention, and thus accurate texture features can be transferred. The proposed texture transformer can be further stacked in a cross-scale way, which enables texture recovery from different levels (e.g., from 1x to 4x magnification). Extensive experiments show that TTSR achieves significant improvements over state-of-the-art approaches on both quantitative and qualitative evaluations.
연구 동기 및 목표
- 참조 이미지(RefSR)에서 관련 텍스처를 전이하여 단일 이미지 프라이어에 의존하는 것보다 SR의 성능을 개선하는 동기를 제시한다.
- LR와 Ref 특징을 공동 임베딩하기 위한 학습 가능한 텍스처 추출기를 개발한다.
- Ref로부터 LR 특징으로 텍스처를 전이하고 합성하기 위한 하드 및 소프트 어텐션이 포함된 관련성 임베딩을 설계한다.
- 1x에서 4x까지의 스케일 간 텍스처를 학습하고 텍스처 트랜스포머를 적층하는 Cross-Scale Feature Integration(CSFI)을 도입한다.
제안 방법
- 학습 가능한 텍스처 추출기(LTE), 관련성 임베딩(RE), 텍스처 전이를 위한 하드 어텐션(HA), 텍스처 합성을 위한 소프트 어텐션(SA)이라는 네 가지 모듈로 구성된 텍스처 트랜스포머를 제안한다.
- LR은 질의(query), Ref(및 그 다운/업샘플 버전들)를 트랜스포머의 키/값으로 간주하고 패치 수준 내적곱을 통해 관련성을 계산한다.
- 하드 어텐션은 Ref에서 가장 관련성이 높은 텍스처 패치를 전이하고, 소프트 어텐션은 전이된 텍스처를 LR 특징과 융합하는 F_out = F + Conv(Concat(F,T)) ⊙ S 연산을 통해 융합한다.
- 다중 스케일에 걸쳐 텍스처 트랜스포머를 적층하고 CSFI를 적용하여 스케일 간 특징을 교환하고 표현력을 풍부하게 한다.
- 재구성 손실(L_rec), 적대적 손실(L_adv, WGAN-GP), 인지적 손실(L_per)의 조합으로 학습하되, 전이된 텍스처 특징을 정렬하는 전이 인지 손실도 포함한다.
실험 결과
연구 질문
- RQ1트랜스포머 기반 어텐션을 사용하여 Ref 이미지에서 LR 이미지로 HR 텍스처를 효과적으로 전이해 SR을 달성할 수 있는가?
- RQ2학습 가능한 텍스처 추출기가 RefSR에서 고정된 의미적 특징(VGG 등)보다 텍스처 전이 성능을 개선하는가?
- RQ3전이 및 합성에서 하드 어텐션과 소프트 어텐션의 차이가 Ref 텍스처 전이에 미치는 영향은 무엇인가?
- RQ4CSFI를 통한 텍스처 트랜스포머의 다중 스케일 스택이 여러 배율에서 텍스처 회복에 기여하는가?
주요 결과
| 방법 | CUFED5 PSNR/SSIM | Sun80 PSNR/SSIM | Urban100 PSNR/SSIM | Manga109 PSNR/SSIM |
|---|---|---|---|---|
| SRCNN | 25.33 / .745 | 28.26 / .781 | 24.41 / .738 | 27.12 / .850 |
| MDSR | 25.93 / .777 | 28.52 / .792 | 25.51 / .783 | 28.93 / .891 |
| RDN | 25.95 / .769 | 29.63 / .806 | 25.38 / .768 | 29.24 / .894 |
| RCAN | 26.06 / .769 | 29.86 / .810 | 25.42 / .768 | 29.38 / .895 |
| SRGAN | 24.40 / .702 | 26.76 / .725 | 24.07 / .729 | 25.12 / .802 |
| ENet | 24.24 / .695 | 26.24 / .702 | 23.63 / .711 | 25.25 / .802 |
| ESRGAN | 21.90 / .633 | 24.18 / .651 | 20.91 / .620 | 23.53 / .797 |
| RSRGAN | 22.31 / .635 | 25.60 / .667 | 21.47 / .624 | 25.04 / .803 |
| CrossNet | 25.48 / .764 | 28.52 / .793 | 25.11 / .764 | 23.36 / .741 |
| SRNTT-rec | 26.24 / .784 | 28.54 / .793 | 25.50 / .783 | 28.95 / .885 |
| SRNTT | 25.61 / .764 | 27.59 / .756 | 25.09 / .774 | 27.54 / .862 |
| TTSR-rec | 27.09 / .804 | 30.02 / .814 | 25.87 / .784 | 30.09 / .907 |
| TTSR | 25.53 / .765 | 28.59 / .774 | 24.62 / .747 | 28.70 / .886 |
- TTSR은 재구성 손실(TTSR-rec)을 이용해 CUFED5, Sun80, Urban100, Manga109에서 상태 예술의 SISR 및 RefSR보다 더 높은 PSNR/SSIM을 회복한다.
- TTSR은 지각적/시각적 품질이 우수하며, 사용자 연구에서 TTSR이 여러 기준선에 비해 90% 이상이 선호하는 것으로 나타났다.
- 消ap에 따르면 HA, SA, LTE가 순차적으로 성능을 개선하며, LTE는 VGG 기반 관련성 임베딩 대비 가장 큰 이득을 제공한다.
- CSFI는 TT 단독보다 PSNR/SSIM 향상을 크게 제공하며(ablation에서 0.17 PSNR 향상), 채널 확장을 단순히 늘리는 것보다 효율성을 유지한다.
- 전이 인지 손실은 텍스처 전이 정확도와 정량 지표(PSNR/SSIM)를 개선한다.
- 참조 유사성이 낮아질 때 성능이 점진적으로 저하되며, L1 참조가 최상의 결과를 제공하고 LR를 참조로 사용하는 경우도 이전 RefSR 방법들보다 여전히 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.