[논문 리뷰] Vision Transformers for Single Image Dehazing
본 논문은 단일 이미지 디헤이징을 위한 Vision Transformer 기반 네트워크 DehazeFormer를 제시하며, 정규화, 활성화 및 집계 수정을 통해 SOTS Indoor에서 최상위 PSNR을 달성하고 비균일한 헤이즈 평가를 위한 RS-Haze를 제안한다.
Image dehazing is a representative low-level vision task that estimates latent haze-free images from hazy images. In recent years, convolutional neural network-based methods have dominated image dehazing. However, vision Transformers, which has recently made a breakthrough in high-level vision tasks, has not brought new dimensions to image dehazing. We start with the popular Swin Transformer and find that several of its key designs are unsuitable for image dehazing. To this end, we propose DehazeFormer, which consists of various improvements, such as the modified normalization layer, activation function, and spatial information aggregation scheme. We train multiple variants of DehazeFormer on various datasets to demonstrate its effectiveness. Specifically, on the most frequently used SOTS indoor set, our small model outperforms FFA-Net with only 25% #Param and 5% computational cost. To the best of our knowledge, our large model is the first method with the PSNR over 40 dB on the SOTS indoor set, dramatically outperforming the previous state-of-the-art methods. We also collect a large-scale realistic remote sensing dehazing dataset for evaluating the method's capability to remove highly non-homogeneous haze.
연구 동기 및 목표
- 단일 이미지 디헤이징을 위한 비전 트랜스포머의 활용을 고무하고, 흐린 이미지에 대한 Swin Transformer 설계 선택의 한계를 해결한다.
- 디헤이징에 맞춘 정규화, 활성화 및 공간적 집계 개선을 반영한 DehazeFormer를 개발한다.
- 표준 데이터셋에서 우수한 성능을 입증하고 새로운 현실적인 원격 센싱 헤이즈 데이터셋(RS-Haze)을 도입한다.
제안 방법
- Patch 간 관계 정보를 보존하기 위해 LayerNorm을 RescaleNorm으로 교체한다.
- GELU/Softplus 대신 간단하고 가역적인 활성화 함수(SoftReLU)를 사용한다.
- 가장자리 영역의 안정화를 위해 반사 패딩을 포함한 시프트된 윈도우 분할을 채택한다.
- 표준 MHSA를 넘는 공간적 집계를 강화하기 위해 W-MHSA와의 병렬 합성곱을 도입한다.
- 사전 기반 소프트 재구성 모듈과 SKNet에서 영감을 얻은 융합을 도입하여 간단한 연결(concatenation) 및 글로벌 잔차를 대체한다.
- U-Net 유사한 아키텍처로 여러 DehazeFormer 변형을 구축하고 페어된 흐림-청정 이미지에서 L1 손실로 학습한다.
- 파장, 밀도 및 비균일 헤이즈를 고려한 물리학 기반 헤이즈 모델을 통해 RS-Haze 데이터셋을 합성하고 원격 센싱에 초점을 맞춘다.
실험 결과
연구 질문
- RQ1비전 트랜스포머가 표준 벤치마크와 원격 센싱 헤이즈 작업에서 CNN 기반 디헤이징 네트워크를 능가할 수 있는가?
- RQ2트랜스포머 백본을 사용할 때 어떤 아키텍처 및 정규화 선택이 디헤이징에 가장 유익한가?
- RQ3사전 기반 소프트 재구성과 SK 융합이 글로벌 잔차 학습에 비해 디헤이징 품질을 향상시키는가?
- RQ4대규모의 현실적인 RS-Haze 데이터셋이 비균일 헤이즈 제거를 평가하는 데 얼마나 효과적인가?
주요 결과
- 소형 DehazeFormer가 매개변수의 25%, 계산 비용의 5%로 FFA-Net 경쟁력을 달성한다.
- 대형 DehazeFormer 모델은 SOTS indoor 세트에서 PSNR이 40 dB를 넘으며 기존 최첨단 방법을 능가한다.
- DehazeFormer 변형은 RESIDE 및 RS-Haze 실험에서 동시대 방법들보다 더 낮은 오버헤드로 우수한 성능을 보인다.
- RS-Haze는 비균일 헤이즈 제거를 평가하기 위한 대규모의 현실적인 원격 센싱 디헤이징 데이터세트를 제공한다.
- 처음부터의 실험에서 LayerNorm이 디헤이징에 해를 끼치는 반면, RescaleNorm과 가역 활성화가 결과를 개선한다.
- 반사 패딩이 있는 시프트된 윈도우 및 병렬 합성곱(W-MHSA)은 모서리 처리와 고주파 세부 묘사를 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.