QUICK REVIEW

[论文解读] Stacked Conditional Generative Adversarial Networks for Jointly Learning Shadow Detection and Shadow Removal

Jifeng Wang, Xiang Li|arXiv (Cornell University)|Dec 7, 2017

Video Surveillance and Tracking Methods参考文献 52被引用 36

一句话总结

本文提出 ST-CGAN，一种新型堆叠式条件生成对抗网络框架，以端到端方式联合学习阴影检测与阴影去除。通过堆叠两个条件生成对抗网络——首先检测阴影掩码，再重建无阴影图像——该模型利用相互监督机制并保留全局场景上下文，实现了在检测与去除任务上的最先进性能，其有效性在包含1,870组图像三元组的新大规模 ISTD 基准上得到验证。

ABSTRACT

Understanding shadows from a single image spontaneously derives into two types of task in previous studies, containing shadow detection and shadow removal. In this paper, we present a multi-task perspective, which is not embraced by any existing work, to jointly learn both detection and removal in an end-to-end fashion that aims at enjoying the mutually improved benefits from each other. Our framework is based on a novel STacked Conditional Generative Adversarial Network (ST-CGAN), which is composed of two stacked CGANs, each with a generator and a discriminator. Specifically, a shadow image is fed into the first generator which produces a shadow detection mask. That shadow image, concatenated with its predicted mask, goes through the second generator in order to recover its shadow-free image consequently. In addition, the two corresponding discriminators are very likely to model higher level relationships and global scene characteristics for the detected shadow region and reconstruction via removing shadows, respectively. More importantly, for multi-task learning, our design of stacked paradigm provides a novel view which is notably different from the commonly used one as the multi-branch version. To fully evaluate the performance of our proposed framework, we construct the first large-scale benchmark with 1870 image triplets (shadow image, shadow mask image, and shadow-free image) under 135 scenes. Extensive experimental results consistently show the advantages of ST-CGAN over several representative state-of-the-art methods on two large-scale publicly available datasets and our newly released one.

研究动机与目标

为解决现有方法将阴影检测与去除视为孤立任务的局限性，这些方法通常依赖局部特征且缺乏全局场景理解。
通过在统一深度学习框架中联合训练两项任务，探索阴影检测与去除之间的相互增益。
设计一种新颖的堆叠架构，实现在任务间前向与后向的信息流动，区别于标准的多分支方法。
构建并发布首个大规模基准数据集，包含配对的阴影图像、真实掩码与无阴影图像，以支持多任务学习。
证明通过堆叠对抗网络进行联合学习，可借助分层全局特征建模提升检测准确率与去除质量。

提出的方法

该框架采用两个条件生成对抗网络的堆叠结构：第一个生成器从带阴影图像中生成阴影检测掩码，第二个生成器则利用原始图像与预测掩码重建无阴影图像。
每个生成器均配对一个判别器，用于区分真实输出与生成输出，其中第一个判别器评估检测质量，第二个判别器评估重建结果的真实性。
堆叠设计确保所有先前任务的输出（输入图像、检测掩码与重建图像）均被拼接并输入后续组件，实现类似 DenseNet 的密集特征流动。
模型通过对抗损失、用于重建的L1损失以及用于掩码预测的二元交叉熵损失进行端到端训练，同时促进输出保真度与真实感。
通过堆叠判别器建模高层关系，该架构旨在保留全局场景语义与光照一致性。
消融实验验证了各组件的必要性，包括堆叠结构与联合训练策略，其性能优于单任务或多分支替代方案。

实验结果

研究问题

RQ1与独立训练相比，阴影检测与去除的联合学习是否能提升两项任务的性能？
RQ2在阴影处理的多任务学习中，是否具有共享信息流的顺序处理堆叠架构优于标准的多分支架构？
RQ3通过堆叠判别器保留全局场景上下文，在多大程度上能提升检测与去除的质量？
RQ4该框架在包含配对阴影图像、掩码与无阴影图像的大规模基准上的表现如何？
RQ5检测与去除任务之间的相互监督在提升模型泛化能力与鲁棒性方面有何贡献？

主要发现

ST-CGAN 在 ISTD 数据集上的阴影与非阴影区域均实现了最低的 RMSE，整体 RMSE 为 7.47，优于所有当前最先进方法。
在阴影检测任务中，ST-CGAN 的平衡错误率（BER）为 3.85%，显著低于多分支基线的 4.77%，表明检测精度更优。
该模型成功检测到细粒度的阴影细节，如树叶阴影与明亮表面的边缘情况，而 cGAN 与 scGAN 在此类场景中失败。
消融实验表明，移除任一组件（尤其是堆叠结构）均导致性能一致下降，证明其必要性。
堆叠式联合学习框架在所有指标上均优于公平的多分支基线，证明顺序化、信息丰富的任务堆叠优于并行的任务分支。
所提出的 ISTD 数据集包含 1,870 组三元组（阴影图像、掩码、无阴影图像），是首个用于联合阴影学习的大规模基准数据集，已公开发布以支持未来研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。