QUICK REVIEW

[論文レビュー] Vision Transformers for Single Image Dehazing

Yuda Song, Zhuqing He|arXiv (Cornell University)|Apr 8, 2022

Image Enhancement Techniques被引用数 35

ひとこと要約

本論文は DehazeFormer を導入します。Vision Transformer ベースの単一画像除霧用ネットワークで、正規化、活性化、および集約の修正を行い、SOTS indoor における PSNR で最先端を達成するとともに、非均一霧評価のための RS-Haze を提案します。

ABSTRACT

Image dehazing is a representative low-level vision task that estimates latent haze-free images from hazy images. In recent years, convolutional neural network-based methods have dominated image dehazing. However, vision Transformers, which has recently made a breakthrough in high-level vision tasks, has not brought new dimensions to image dehazing. We start with the popular Swin Transformer and find that several of its key designs are unsuitable for image dehazing. To this end, we propose DehazeFormer, which consists of various improvements, such as the modified normalization layer, activation function, and spatial information aggregation scheme. We train multiple variants of DehazeFormer on various datasets to demonstrate its effectiveness. Specifically, on the most frequently used SOTS indoor set, our small model outperforms FFA-Net with only 25% #Param and 5% computational cost. To the best of our knowledge, our large model is the first method with the PSNR over 40 dB on the SOTS indoor set, dramatically outperforming the previous state-of-the-art methods. We also collect a large-scale realistic remote sensing dehazing dataset for evaluating the method's capability to remove highly non-homogeneous haze.

研究の動機と目的

単一画像の除霧における Vision Transformer の活用を動機づけ、霧がかかった画像における Swin Transformer の設計選択が抱える欠点に対処する。
除霧のために特化した正規化、活性化、および空間集約の改善を加えた DehazeFormer の開発。
標準データセットでの優れた性能を示し、新しい現実的なリモートセンサ霧データセット RS-Haze を導入する。

提案手法

Patch の関係情報を保つため、LayerNorm を RescaleNorm に置換する。
GELU/Softplus の代わりに、単純で可逆な活性化関数（SoftReLU）を使用する。
エッジ領域を安定化させるため、反射パディングを用いたシフトウィンドウ分割を採用する。
標準 MHSA を超える空間集約を実現するため、W-MHSA を用いた並列畳み込みを組み込む。
単純な結合とグローバル残差を置き換えるため、事前情報ベースのソフト再構成モジュールと SKNet に触発されたフュージョンを導入する。
U-Net 構造に似たアーキテクチャで複数の DehazeFormer 変種を構築し、混在画像対（ hazy-clean ）の L1 損失で訓練する。
波長、密度、および非均一霧を考慮した物理情報に基づく霧モデルを用いて RS-Haze データセットを合成し、リモートセンシングに焦点を含む。

実験結果

リサーチクエスチョン

RQ1Vision Transformer は標準ベンチマークやリモートセンシングの霧除去タスクで CNN ベースのネットワークを上回れるか。
RQ2Transformer バックボーンを用いる場合、霧除去に最も有益なアーキテクチャと正規化の選択は何か。
RQ3事前情報ベースのソフト再構成と SK フュージョンは、グローバル residual 学習より霧除去品質を改善するか。
RQ4大規模で現実的な RS-Haze データセットが非均一霧除去の評価にどれだけ有効か。

主な発見

小型の DehazeFormer はパラメータの 25%、計算コストの 5% で FFA-Net と競合。
大型の DehazeFormer モデルは SOTS indoor セットで PSNR が 40 dB を超え、従来の最先端手法を上回る。
DehazeFormer の変種は RESIDE および RS-Haze の実験で同時代の手法を上回り、低いオーバーヘッドで優れた性能を示す。
RS-Haze は非均一霧除去を評価する大規模で現実的なリモートセンシングデータセットを提供する。
初期の実験では LayerNorm が霧除去を害し、RescaleNorm と可逆活性化が結果を改善することを示す。
シフトウィンドウと反射パディング、および並列畳み込み（W-MHSA）はエッジ処理と高周波ディテールを強化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。