[論文レビュー] U-shaped Vision Mamba for Single Image Dehazing
本論文は UVM-Net を提案する。U-Net 風の dehazing ネットワークで、CNN ベースの局所特徴抽出と State Space Sequence Models (SSMs) を組み合わせ、長距離依存性を捉え、RESIDE ベンチマークで高い結果を達成。
Currently, Transformer is the most popular architecture for image dehazing, but due to its large computational complexity, its ability to handle long-range dependency is limited on resource-constrained devices. To tackle this challenge, we introduce the U-shaped Vision Mamba (UVM-Net), an efficient single-image dehazing network. Inspired by the State Space Sequence Models (SSMs), a new deep sequence model known for its power to handle long sequences, we design a Bi-SSM block that integrates the local feature extraction ability of the convolutional layer with the ability of the SSM to capture long-range dependencies. Extensive experimental results demonstrate the effectiveness of our method. Our method provides a more highly efficient idea of long-range dependency modeling for image dehazing as well as other image restoration tasks. The URL of the code is \url{https://github.com/zzr-idam/UVM-Net}. Our method takes only \textbf{0.009} seconds to infer a $325 \times 325$ resolution image (100FPS) without I/O handling time.
研究の動機と目的
- リソース制約デバイス上での画像 hazing のための効率的な長距離依存性モデリングを動機付ける。
- U-Net ベースのアーキテクチャ(UVM-Net)を開発し、Mamba/SSM ブロックを統合する。
- RESIDE および関連データセット上で最先端の dehazing 手法と性能を検証する。
提案手法
- Bi-SSM モジュールを導入し、Hadamard 積で二つの SSM ブランチを統合する。
- U-Net ライクのエンコーダ−デコーダに SSM ベースの長距離モデリングをスキップ接続付きで組み込む。
- SSM 処理のために特徴マップをフラット化/リシェイプしてチャンネル領域のスクロールを可能にする。
- 局所特徴抽出には畳み込みブロックを用い、続いて SSM ベースの処理と再構築を行う。
- 256x256 画像での #Param および MACs によるオーバーヘッドを評価する。
- RESIDE データセットでベースラインの dehazing 手法と比較する。

実験結果
リサーチクエスチョン
- RQ1ノイズのある画像において Bi-SSM ブロックは効率を保ちながら長距離依存性を効果的にモデルできるか?
- RQ2SSMs を U-Net ボトストーンに統合することで、計算量を削減しつつ競争力のあるまたは優れた dehazing 性能を得られるか?
- RQ3UVM-Net は RESIDE および関連ベンチマークで Transformer ベースおよび CNN ベースの dehazing 手法とどう比較されるか?
主な発見
| 手法 | PSNR_SOTS_indoor | SSIM_SOTS_indoor | PSNR_SOTS_outdoor | SSIM_SOTS_outdoor | PSNR_SOTS_mix | SSIM_SOTS_mix | PSNR_RS_Haze_mix | SSIM_RS_Haze_mix | #Param | MACs |
|---|---|---|---|---|---|---|---|---|---|---|
| Ours | 40.17 | 0.996 | 34.92 | 0.984 | 31.92 | 0.982 | 39.88 | 0.972 | 19.25M | 173.55G |
- UVM-Net は SOTS indoor/outdoor/mix 評価で PSNR が 40.17、SSIM が 0.996 を達成(Table 1 に記載の通り)。
- RESIDE 風ベンチマークでは SOTS-outdoor で PSNR が 34.92、SSIM が 0.984、SOTS-mix で PSNR が 31.92、SSIM が 0.982。
- 報告された構成でモデルは 19.25M パラメータと 173.55G MACs を報告。
- アブレーションは SSM を除くと PSNR が 35.11(1D conv)または 38.25(SDP)に低下し、SSIM も低下することを示し、Bi-SSM モジュールの利点を裏付ける。
- UVM-Net は RESIDE データセット上で複数のベースラインに対して優れた性能を示し、画像 hazing の長距離依存性モデリングの効率を示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。