QUICK REVIEW

[论文解读] Prompt-Aware Controllable Shadow Removal

Kerui Chen, Wu Zhong|ArXiv.org|Jan 25, 2025

Image and Signal Denoising Methods被引用 4

一句话总结

本文提出 PACSRNet，一种可控阴影去除的提示感知框架，通过提示（点/线/主体遮罩）在不需要阴影遮罩的情况下去除用户指定主体的阴影，并提供新的基于提示的阴影去除数据集 PCSRD。

ABSTRACT

Shadow removal aims to restore the image content in shadowed regions. While deep learning-based methods have shown promising results, they still face key challenges: 1) uncontrolled removal of all shadows, or 2) controllable removal but heavily relies on precise shadow region masks. To address these issues, we introduce a novel paradigm: prompt-aware controllable shadow removal. Unlike existing approaches, our paradigm allows for targeted shadow removal from specific subjects based on user prompts (e.g., dots, lines, or subject masks). This approach eliminates the need for shadow annotations and offers flexible, user-controlled shadow removal. Specifically, we propose an end-to-end learnable model, the Prompt-Aware Controllable Shadow Removal Network (PACSRNet). PACSRNet consists of two key modules: a prompt-aware module that generates shadow masks for the specified subject based on the user prompt, and a shadow removal module that uses the shadow prior from the first module to restore the content in the shadowed regions. Additionally, we enhance the shadow removal module by incorporating feature information from the prompt-aware module through a linear operation, providing prompt-guided support for shadow removal. Recognizing that existing shadow removal datasets lack diverse user prompts, we contribute a new dataset specifically designed for prompt-based controllable shadow removal. Extensive experimental results demonstrate the effectiveness and superiority of PACSRNet.

研究动机与目标

通过实现超越全局或基于遮罩的方法的可控阴影去除，使用户提示引导对特定主体的去阴影成为可能。
在推理阶段消除对精确阴影区域遮罩的依赖。
开发一个端到端的网络，具备提示感知的遮罩生成与阴影还原的指导能力。
引入并发布一个包含多种提示类型的 PCSRD 数据集，用以模拟真实世界的提示场景。

提出的方法

提出 PACSRNet，包含两大模块：一个提示感知模块，用于生成特定主体的阴影遮罩并提供提示引导特征；一个阴影去除模块，在阴影先验信息的帮助下进行内容还原。
引入空间-频率交互 (SFI) 块，使用离散小波变换融合空间与频率特征，以提升对阴影边界的感知。
在阴影去除模块中采用 Dense-Sparse Local Attention (DSLA) 块，减少无关内容的引入，同时保留有用的上下文。
通过一个线性层将提示感知特征与阴影去除编码器连接，在还原过程中提供隐式提示指导。
使用联合损失进行训练：阴影去除损失与阴影预测损失，并用参数 λ=3 进行平衡。
在 PCSRD 与 ISTD+ 数据集上进行评估，并与最先进的阴影去除方法进行对比。

实验结果

研究问题

RQ1提示感知网络在没有显式阴影遮罩的情况下，能否仅通过轻量化的提示（点/线/主体遮罩）准确预测主体特异性的阴影区域？
RQ2空间-频率信息与密集-稀疏局部注意力的结合，是否能在提示条件下提升阴影边界感知和还原质量？
RQ3提示引导如何影响阴影去除模块在不同提示与数据集上的表现？
RQ4在阴影区域与整图度量下，所提 PACSRNet 是否具备与现有阴影去除方法的竞争力甚至优越性？
RQ5新的 PCSRD 数据集是否能够对提示基的可控阴影去除进行鲁棒评测？

主要发现

Method	PSNR (Shadow)	SSIM (Shadow)	RMSE (Shadow)	PSNR (Non-Shadow)	SSIM (Non-Shadow)	RMSE (Non-Shadow)	PSNR (All Regions)	SSIM (All Regions)	RMSE (All Regions)
BMNet Zhu et al. (2022)	44.459	0.9955	5.9428	48.832	0.9961	0.6401	41.627	0.9881	0.7743
Inpaint4Shadow Li et al. (2023)	45.443	0.9958	8.6692	45.643	0.9955	0.8817	41.969	0.9884	0.9723
ShadowFormer Guo et al. (2023a)	45.318	0.9957	5.1687	49.774	0.9962	0.5018	42.302	0.9889	0.6183
ShadowDiffusion Guo et al. (2023b)	44.593	0.9896	12.507	46.094	0.9889	1.0726	40.823	0.9869	1.2135
HomoFormer Xiao et al. (2024)	45.256	0.9957	5.3159	49.593	0.9962	0.5042	42.219	0.9888	0.6251
PACSRNet † (Ours)	45.559	0.9959	4.9987	49.784	0.9964	0.4927	42.494	0.9892	0.6038
PACSRNet (Ours) w/ Dot	43.382	0.9952	6.1311	48.622	0.9961	0.4864	40.956	0.9878	0.6341
PACSRNet (Ours) w/ Line	43.479	0.9953	6.0847	48.867	0.9961	0.4861	41.056	0.9879	0.6333
PACSRNet (Ours) w/ Subject Mask	44.354	0.9957	5.5541	49.061	0.9961	0.5022	41.592	0.9884	0.6263
BMNet Zhu et al. (2019) ISTD+	37.87	0.991	5.62	37.51	0.985	2.45	33.98	0.972	2.97
Inpaint4Shadow Li et al. (2023) ISTD+	38.10	0.990	6.09	37.66	0.981	2.82	34.16	0.967	3.35
ShadowFormer Guo et al. (2023a) ISTD+	39.48	0.992	5.23	38.82	0.983	2.30	35.46	0.971	2.78
ShadowDiffusion Guo et al. (2023b) ISTD+	39.69	0.992	4.97	38.89	0.987	2.28	35.67	0.975	2.72
HomoFormer Xiao et al. (2024) ISTD+	39.49	0.993	4.73	38.75	0.984	2.23	35.35	0.975	2.64
PACSRNet † (Ours) ISTD+	40.32	0.993	4.89	39.18	0.985	2.27	36.02	0.972	2.63

PACSRNet 在 PCSRD 上针对点/线/主体遮罩提示的阴影去除任务分别达到 PSNR 40.95/41.06/41.59，表现与使用精确遮罩的 ShadowDiffusion 相当。
在 PCSRD 与 ISTD+ 上，完整的 PACSRNet 在 PSNR/SSIM 上击败基线，且在阴影区域还原方面表现更优（例如 PACSRNet† 在 PCSRD 阴影区域的 PSNR 为 45.559）。
消融实验表明 Spatial-Frequency Interaction (SFI) 块将 PSNR 提升约 0.23 dB，验证了频率特征的收益。
Dense-Sparse Local Attention (DSLA) 能减少无关内容的引入，相较于单纯的密集注意力提升了还原质量。
提示感知引导提升阴影去除性能，多尺度提示特征引导阴影去除编码器聚焦于主体与阴影区域。
所提出的基于提示的数据集 PCSRD（11,900 条样本）支持多样化提示和复杂场景，便于未来研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。