[論文レビュー] ShadowFormer: Global Context Helps Image Shadow Removal
ShadowFormer は Retinex に触発されたシャドウモデルと Shadow-Interaction Module を備えた軽量トランスフォーマーベースのネットワークで、非シャドウ領域からのグローバルコンテキストを活用してシャドウ領域を復元し、ISTD、ISTD+、SRD データセットでパラメータ数が大幅に少ない状態で最先端の結果を達成します。
Recent deep learning methods have achieved promising results in image shadow removal. However, most of the existing approaches focus on working locally within shadow and non-shadow regions, resulting in severe artifacts around the shadow boundaries as well as inconsistent illumination between shadow and non-shadow regions. It is still challenging for the deep shadow removal model to exploit the global contextual correlation between shadow and non-shadow regions. In this work, we first propose a Retinex-based shadow model, from which we derive a novel transformer-based network, dubbed ShandowFormer, to exploit non-shadow regions to help shadow region restoration. A multi-scale channel attention framework is employed to hierarchically capture the global information. Based on that, we propose a Shadow-Interaction Module (SIM) with Shadow-Interaction Attention (SIA) in the bottleneck stage to effectively model the context correlation between shadow and non-shadow regions. We conduct extensive experiments on three popular public datasets, including ISTD, ISTD+, and SRD, to evaluate the proposed method. Our method achieves state-of-the-art performance by using up to 150X fewer model parameters.
研究の動機と目的
- シャドウと非シャドウ領域間のグローバルコンテキストを強調する Retinex ベースの劣化モデルによる動機付け。
- エンドツーエンドのシャドウ除去のための軽量チャネルアテンション型トランスフォーマー(ShadowFormer)の開発。
- 領域間の文脈をモデル化する Shadow-Interaction Attention (SIA) を備えた Shadow-Interaction Module (SIM) の導入。
- ボトルネックからのグローバルコンテキストを局所的な構造情報と融合し、照明の一貫性を保ち、境界アーティファクトを低減する。
- ISTD、ISTD+、SRD において著しく少ないパラメータで最先端の性能を実証。
提案手法
- 劣化を定式化し復元を導くために Retinex ベースのシャドウモデルを採用。
- グローバル情報を捉えるためにマルチスケール構成としてチャネルアテンション型トランスフォーマーのエンコーダ-デコーダを使用。
- ボトルネック段階に Shadow-Interaction Module (SIM) を埋め込み、Shadow-Interaction Attention (SIA) を介してクロスリージョンの文脈を活用。
- シャドウ領域と非シャドウ領域間のパッチ単位の相関マップを適用し、ウィンドウ内のアテンションを再重み付け(SIA)。
- ピクセル単位の一貫性のために単一の L1 損失で訓練し、2 つのモデルスケールを探索(Ours-Small および Ours-Large)。
実験結果
リサーチクエスチョン
- RQ1Retinex に触発された定式化により、復元のためのグローバルなシャドウの文脈手掛かりを明らかにし活用できるか。
- RQ2Shadow-Interaction 機構を備えた軽量トランスフォーマーは、非シャドウ領域を効果的に活用してシャドウ領域の復元を改善できるか。
- RQ3Shadow-Interaction Attention が境界アーティファクトと照明/色の一貫性に与える影響は何か。
- RQ4ISTD、ISTD+、SRD における精度とパラメータ効率の点で ShadowFormer は最先端手法とどのように比較されるか。
主な発見
| Dataset | Model | Shadow PSNR | Shadow SSIM | Shadow RMSE | Non-Shadow PSNR | Non-Shadow SSIM | Non-Shadow RMSE | All Image PSNR | All Image SSIM | All Image RMSE |
|---|---|---|---|---|---|---|---|---|---|---|
| ISTD | Ours-Small | 37.99 | 0.990 | 6.16 | 33.89 | 0.980 | 3.90 | 31.81 | 0.967 | 4.27 |
| ISTD | Ours-Large | 38.19 | 0.991 | 5.96 | 34.32 | 0.981 | 3.72 | 32.21 | 0.968 | 4.09 |
| ISTD+ | Ours-Small | 39.53 | 0.988 | 6.05 | 38.67 | 0.986 | 3.55 | 35.42 | 0.955 | 2.80 |
| ISTD+ | Ours-Large | 39.67 | 0.989 | 5.82 | 38.82 | 0.989 | 3.44 | 35.46 | 0.958 | 2.80 |
| SRD | Ours-Small | 36.13 | 0.988 | 6.05 | 31.88 | 0.952 | 4.59 | 32.38 | 0.955 | 4.09 |
| SRD | Ours-Large | 36.91 | 0.989 | 5.92 | 32.20 | 0.953 | 4.44 | 32.90 | 0.958 | 4.04 |
- ShadowFormer は ISTD、ISTD+、SRD データセットで最先端の性能を達成します。
- 本モデルは競合する深層モデルより最大で 150 倍少ないパラメータで、優れた結果を実現します。
- Shadow-Interaction Attention を備えた Shadow-Interaction Module は非シャドウ領域を効果的に活用してシャドウ領域を復元し、照明の一貫性を維持します。
- Retinex ベースのフレームワーク下でマルチスケールチャネルアテンションを持つ単一段トランスフォーマーは、境界アーティファクトを低減したトレースレス再構成をもたらします。
- アブレーション研究は CA トランスフォーマーと SIM/SIA コンポーネントがアーティファクト低減と文脈的地固めに重要であることを示しています。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。