QUICK REVIEW

[論文レビュー] Prompt-Aware Controllable Shadow Removal

Kerui Chen, Wu Zhong|ArXiv.org|Jan 25, 2025

Image and Signal Denoising Methods被引用数 4

ひとこと要約

本論文は、プロンプト（ドット/ライン/対象マスク）を用いて影マスクなしでユーザーが指定する対象の影を制御的に除去する PACSRNet を提案し、新しいプロンプトベースの影除去データセット PCSRD を提供する。

ABSTRACT

Shadow removal aims to restore the image content in shadowed regions. While deep learning-based methods have shown promising results, they still face key challenges: 1) uncontrolled removal of all shadows, or 2) controllable removal but heavily relies on precise shadow region masks. To address these issues, we introduce a novel paradigm: prompt-aware controllable shadow removal. Unlike existing approaches, our paradigm allows for targeted shadow removal from specific subjects based on user prompts (e.g., dots, lines, or subject masks). This approach eliminates the need for shadow annotations and offers flexible, user-controlled shadow removal. Specifically, we propose an end-to-end learnable model, the Prompt-Aware Controllable Shadow Removal Network (PACSRNet). PACSRNet consists of two key modules: a prompt-aware module that generates shadow masks for the specified subject based on the user prompt, and a shadow removal module that uses the shadow prior from the first module to restore the content in the shadowed regions. Additionally, we enhance the shadow removal module by incorporating feature information from the prompt-aware module through a linear operation, providing prompt-guided support for shadow removal. Recognizing that existing shadow removal datasets lack diverse user prompts, we contribute a new dataset specifically designed for prompt-based controllable shadow removal. Extensive experimental results demonstrate the effectiveness and superiority of PACSRNet.

研究の動機と目的

グローバルまたはマスクベースのアプローチを超え、ユーザープ prompts による特定対象の除去を実現する可制御な影除去を動機づける。
推論時に正確な影領域マスクへの依存を排除する。
プロンプト認識マスク生成と影の復元ガイダンスを行うエンドツーエンドのネットワークを開発する。
複数のプロンプトタイプを用いたデータセット（PCSRD）を導入・公開し、現実世界のプロンプトを模擬する。

提案手法

PACSRNet を二つのモジュールで提案する：対象固有の影マスクを生成するプロンプト認識モジュールと、プロンプト認識モジュールからの影の事前情報を用いて復元をガイドするプロンプト誘導ガイダンス機能、及び影の復元モジュール。
空間と周波数情報を統合する Spatial-Frequency Interaction (SFI) ブロックを取り入れ、空間特徴と周波数特徴を融合して影の境界知覚を向上させる。
影の除去モジュール内で Dense-Sparse Local Attention (DSLA) ブロックを用い、不要なコンテンツの混入を抑えつつ有用な文脈を保持する。
プロンプト認識特徴を線形層を介して影除去エンコーダに接続し、復元時の暗示的なプロンプトガイダンスを提供する。
損失は影除去損失と影予測損失の組み合わせで学習し、λ=3 でそれらをバランスさせる。
PCSRD および ISTD+ データセットで評価し、最先端の影除去手法と比較する。

実験結果

リサーチクエスチョン

RQ1軽量プロンプト（ドット/ライン/対象マスク）だけで、明示的な影マスクなしに対象固有の影領域を正確に予測するプロンプト認識ネットワークは可能か。
RQ2空間-周波数情報と密稀局所アテンションの統合は、プロンプト下で影の境界の認識と復元品質を改善するか。
RQ3プロンプトガイダンスは、多様なプロンプトとデータセットに対して影除去モジュールの性能にどのように影響するか。
RQ4提案手法は、影領域および全画像の指標の両方で、既存の影除去手法と比較して競合的または優れているか。
RQ5新しい PCSRD データセットは、プロンプトベースの制御可能な影除去の堅牢な評価を可能にするか。

主な発見

Method	PSNR (Shadow)	SSIM (Shadow)	RMSE (Shadow)	PSNR (Non-Shadow)	SSIM (Non-Shadow)	RMSE (Non-Shadow)	PSNR (All Regions)	SSIM (All Regions)	RMSE (All Regions)
BMNet Zhu et al. (2022)	44.459	0.9955	5.9428	48.832	0.9961	0.6401	41.627	0.9881	0.7743
Inpaint4Shadow Li et al. (2023)	45.443	0.9958	8.6692	45.643	0.9955	0.8817	41.969	0.9884	0.9723
ShadowFormer Guo et al. (2023a)	45.318	0.9957	5.1687	49.774	0.9962	0.5018	42.302	0.9889	0.6183
ShadowDiffusion Guo et al. (2023b)	44.593	0.9896	12.507	46.094	0.9889	1.0726	40.823	0.9869	1.2135
HomoFormer Xiao et al. (2024)	45.256	0.9957	5.3159	49.593	0.9962	0.5042	42.219	0.9888	0.6251
PACSRNet † (Ours)	45.559	0.9959	4.9987	49.784	0.9964	0.4927	42.494	0.9892	0.6038
PACSRNet (Ours) w/ Dot	43.382	0.9952	6.1311	48.622	0.9961	0.4864	40.956	0.9878	0.6341
PACSRNet (Ours) w/ Line	43.479	0.9953	6.0847	48.867	0.9961	0.4861	41.056	0.9879	0.6333
PACSRNet (Ours) w/ Subject Mask	44.354	0.9957	5.5541	49.061	0.9961	0.5022	41.592	0.9884	0.6263
BMNet Zhu et al. (2019) ISTD+	37.87	0.991	5.62	37.51	0.985	2.45	33.98	0.972	2.97
Inpaint4Shadow Li et al. (2023) ISTD+	38.10	0.990	6.09	37.66	0.981	2.82	34.16	0.967	3.35
ShadowFormer Guo et al. (2023a) ISTD+	39.48	0.992	5.23	38.82	0.983	2.30	35.46	0.971	2.78
ShadowDiffusion Guo et al. (2023b) ISTD+	39.69	0.992	4.97	38.89	0.987	2.28	35.67	0.975	2.72
HomoFormer Xiao et al. (2024) ISTD+	39.49	0.993	4.73	38.75	0.984	2.23	35.35	0.975	2.64
PACSRNet † (Ours) ISTD+	40.32	0.993	4.89	39.18	0.985	2.27	36.02	0.972	2.63

PACSRNet は PCSRD 上で、ドット/ライン/対象マスクプロンプトそれぞれの影除去タスクで PSNR が 40.95/41.06/41.59 を達成し、正確なマスクを用いる ShadowDiffusion と比較して競争力を示す。
PACSRNet 全体は PCSRD および ISTD+ の両方で PSNR/SSIM がベースラインを上回り、影領域の復元が優れている（例：PCSRD の影領域で PACSRNet† PSNR 45.559）。
アブレーションにより Spatial-Frequency Interaction (SFI) ブロックが PSNR を 0.23 dB 向上させることを示し、周波数特徴の有効性を検証。
Dense-Sparse Local Attention (DSLA) は、密集アテンションのみの場合よりも無関係な内容の導入を抑え、復元品質を向上させる。
プロンプト認識ガイダンスは影除去性能を向上させ、マルチスケールのプロンプト特徴が影除去エンコーダを対象と影に焦点を当てるよう導く。
提案されたプロンプトベースデータセット PCSRD（11,900 サンプル）は、多様なプロンプトと複雑なシーンを将来の研究に対応してサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。