QUICK REVIEW

[논문 리뷰] Prompt-Aware Controllable Shadow Removal

Kerui Chen, Wu Zhong|ArXiv.org|2025. 01. 25.

Image and Signal Denoising Methods인용 수 4

한 줄 요약

논문은 PACSRNet을 도입하여 프롬프트(점/선/대상 마스크)를 통해 사용자가 지정한 피사체의 그림자를 제어적으로 제거하는 프롬프트 인식 프레임워크를 제시하고, 그림자 마스크가 필요 없이 작동하며 새로운 프롬프트 기반 그림자 제거 데이터셋 PCSRD를 제공한다.

ABSTRACT

Shadow removal aims to restore the image content in shadowed regions. While deep learning-based methods have shown promising results, they still face key challenges: 1) uncontrolled removal of all shadows, or 2) controllable removal but heavily relies on precise shadow region masks. To address these issues, we introduce a novel paradigm: prompt-aware controllable shadow removal. Unlike existing approaches, our paradigm allows for targeted shadow removal from specific subjects based on user prompts (e.g., dots, lines, or subject masks). This approach eliminates the need for shadow annotations and offers flexible, user-controlled shadow removal. Specifically, we propose an end-to-end learnable model, the Prompt-Aware Controllable Shadow Removal Network (PACSRNet). PACSRNet consists of two key modules: a prompt-aware module that generates shadow masks for the specified subject based on the user prompt, and a shadow removal module that uses the shadow prior from the first module to restore the content in the shadowed regions. Additionally, we enhance the shadow removal module by incorporating feature information from the prompt-aware module through a linear operation, providing prompt-guided support for shadow removal. Recognizing that existing shadow removal datasets lack diverse user prompts, we contribute a new dataset specifically designed for prompt-based controllable shadow removal. Extensive experimental results demonstrate the effectiveness and superiority of PACSRNet.

연구 동기 및 목표

전역 또는 마스크 기반 접근 방식이 아니라 사용자 프롬프트에 의해 특정 피사체의 제거를 안내하는 controllable 그림자 제거를 가능하게 하여 연구 의의와 동기를 제시한다.
추론 시 정확한 그림자 영역 마스크에 대한 의존성을 제거한다.
프롬프트 인식 마스크 생성 및 그림자 복원 가이드를 갖춘 엔드투엔드 네트워크를 개발한다.
다양한 프롬프트 유형으로 구성된 데이터세트(PCSRD)를 도입·공개하여 현실 세계의 프롬프트를 시뮬레이션한다.]
프롬프트 인식 기능을 그림자 제거 인코더에 연결하여 복원 중 암시적 프롬프트 가이던스를 제공한다.
샤도우 제거 손실과 그림자 예측 손실의 결합 손실로 학습하며, 하이퍼파라미터 lambda(λ=3)로 두 손실의 균형을 조정한다.
PCSRD 및 ISTD+ 데이터세트에서 평가를 수행하고 최신의 그림자 제거 방법들과 비교한다.]
PCSRD와 ISTD+ 데이터셋에서 프롬프트 기반 제어 그림자 제거 방법의 성능을 비교 평가한다.

제안 방법

프롬프트 인식 모듈이 피사체별 그림자 마스크를 생성하고 프롬프트 가이드 기능을 제공하는 PACSRNet과, 프롬프트 인식 모듈의 그림자 선행 정보를 이용해 콘텐츠를 복원하는 그림자 제거 모듈의 두 가지 모듈로 구성된 PACSRNet을 제안한다.
공간-주파수 상호작용(SFI) 블록을 도입해 공간 특성과 주파수 특성을 융합하여 그림자 경계 인식을 개선한다.
Dense-Sparse Local Attention(DSLA) 블록을 그림자 제거 모듈에 적용해 불필요한 콘텐츠의 도입을 줄이고 유용한 맥락은 보존한다.
프롬프트 인식 특징을 선형 계층을 통해 그림자 제거 인코더에 연결하여 복원 중 암시적 프롬프트 가이던스를 제공한다.
합성 손실(그림자 제거 손실 + 그림자 예측 손실)을 사용하며, λ=3으로 두 손실의 균형을 맞춘다.
PCSRD와 ISTD+ 데이터셋에서 평가하며, 최첨단 그림자 제거 방법들과 비교한다.]
다시 말해, 두 모듈의 협업으로 프롬프트 인식으로 생성된 그림자 정보를 이용해 강건한 그림자 제거를 수행한다.
PCSRD(11,900 샘플)과 다양한 프롬프트를 통해 현실 세계의 프롬프트를 시뮬레이션하고 연구의 폭을 넓힌다.]
두 모듈의 결합과 프롬프트 기반 특징의 사용으로 그림자 제거 엔코더가 대상 피사체와 그림자에 집중하도록 유도한다.

실험 결과

연구 질문

RQ1프롬프트 인식 네트워크가 경량 프롬프트(점/선/대상 마스크)만으로 explicit 그림자 마스크 없이 피사체별 그림자 영역을 정확히 예측할 수 있는가?
RQ2공간-주파수 정보와 Dense-Sparse Local Attention이 프롬프트 하에서 그림자 경계 인식 및 복원 품질을 향상시키는가?
RQ3프롬프트 안내가 다양한 프롬프트와 데이터셋에서 그림자 제거 모듈의 성능에 어떤 영향을 미치는가?
RQ4제안된 PACSRNet이 그림자 영역 및 전체 이미지 지표 모두에서 기존 그림자 제거 방법과 비교해 경쟁력 또는 우수성을 갖는가?
RQ5새로운 PCSRD 데이터셋이 프롬프트 기반 제어 그림자 제거의 강건한 평가를 가능하게 하는가?

주요 결과

방법	PSNR (Shadow)	SSIM (Shadow)	RMSE (Shadow)	PSNR (Non-Shadow)	SSIM (Non-Shadow)	RMSE (Non-Shadow)	PSNR (All Regions)	SSIM (All Regions)	RMSE (All Regions)
BMNet Zhu et al. (2022)	44.459	0.9955	5.9428	48.832	0.9961	0.6401	41.627	0.9881	0.7743
Inpaint4Shadow Li et al. (2023)	45.443	0.9958	8.6692	45.643	0.9955	0.8817	41.969	0.9884	0.9723
ShadowFormer Guo et al. (2023a)	45.318	0.9957	5.1687	49.774	0.9962	0.5018	42.302	0.9889	0.6183
ShadowDiffusion Guo et al. (2023b)	44.593	0.9896	12.507	46.094	0.9889	1.0726	40.823	0.9869	1.2135
HomoFormer Xiao et al. (2024)	45.256	0.9957	5.3159	49.593	0.9962	0.5042	42.219	0.9888	0.6251
PACSRNet † (Ours)	45.559	0.9959	4.9987	49.784	0.9964	0.4927	42.494	0.9892	0.6038
PACSRNet (Ours) w/ Dot	43.382	0.9952	6.1311	48.622	0.9961	0.4864	40.956	0.9878	0.6341
PACSRNet (Ours) w/ Line	43.479	0.9953	6.0847	48.867	0.9961	0.4861	41.056	0.9879	0.6333
PACSRNet (Ours) w/ Subject Mask	44.354	0.9957	5.5541	49.061	0.9961	0.5022	41.592	0.9884	0.6263
BMNet Zhu et al. (2019) ISTD+	37.87	0.991	5.62	37.51	0.985	2.45	33.98	0.972	2.97
Inpaint4Shadow Li et al. (2023) ISTD+	38.10	0.990	6.09	37.66	0.981	2.82	34.16	0.967	3.35
ShadowFormer Guo et al. (2023a) ISTD+	39.48	0.992	5.23	38.82	0.983	2.30	35.46	0.971	2.78
ShadowDiffusion Guo et al. (2023b) ISTD+	39.69	0.992	4.97	38.89	0.987	2.28	35.67	0.975	2.72
HomoFormer Xiao et al. (2024) ISTD+	39.49	0.993	4.73	38.75	0.984	2.23	35.35	0.975	2.64
PACSRNet † (Ours) ISTD+	40.32	0.993	4.89	39.18	0.985	2.27	36.02	0.972	2.63

PACSRNet은 PCSRD에서 dot/line/subject-mask 프롬프트 하의 그림자 제거 작업에서 각각 PSNR이 40.95/41.06/41.59에 도달하며, 정확한 마스크를 사용하는 ShadowDiffusion과 견줄 만하다.
전체 PACSRNet은 PCSRD 및 ISTD+에서 PSNR/SSIM 측면에서 베이스라인보다 우수하고, 그림자 영역 복원에서도 우수한 성능을 보인다(예: PCSRD 그림자 영역에서 PACSRNet† PSNR 45.559).
분해를 통한 Spatial-Frequency Interaction(SFI) 블록의 도입으로 PSNR이 0.23 dB 향상되어 주파수 특징의 이점을 확인하였다.
Dense-Sparse Local Attention(DSLA)이 불필요한 콘텐츠 도입을 줄여 Dense 주의만 사용할 때보다 복원 품질이 향상되었다.
프롬프트 인식 가이던스가 그림자 제거 성능을 향상시키고, 다중 스케일 프롬프트 특징이 그림자 제거 인코더가 피사체와 그림자에 집중하도록 안내한다.
제안된 프롬프트 기반 데이터셋 PCSRD(11,900 샘플)는 다양한 프롬프트와 복잡한 장면을 지원하여 미래 연구에 도움을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.