QUICK REVIEW

[論文レビュー] Stacked Conditional Generative Adversarial Networks for Jointly Learning Shadow Detection and Shadow Removal

Jifeng Wang, Xiang Li|arXiv (Cornell University)|Dec 7, 2017

Video Surveillance and Tracking Methods参考文献 52被引用数 36

ひとこと要約

本論文は、エンド・トウ・エンドの方法でシャドウ検出とシャドウ除去を同時に学習する新しいスタックド条件付きGANフレームワーク、ST-CGANを提案する。2つの条件付きGANをスタックすることで、最初にシャドウマスクを検出し、次にシャドウなし画像を再構築する。このアプローチにより、相互監視が可能となり、グローバルなシーンコンテキストが保持され、1,870枚の画像トリプレットを含む新しい大規模なISTDベンチマークで、検出および除去の両タスクにおいて最先端の性能を達成した。

ABSTRACT

Understanding shadows from a single image spontaneously derives into two types of task in previous studies, containing shadow detection and shadow removal. In this paper, we present a multi-task perspective, which is not embraced by any existing work, to jointly learn both detection and removal in an end-to-end fashion that aims at enjoying the mutually improved benefits from each other. Our framework is based on a novel STacked Conditional Generative Adversarial Network (ST-CGAN), which is composed of two stacked CGANs, each with a generator and a discriminator. Specifically, a shadow image is fed into the first generator which produces a shadow detection mask. That shadow image, concatenated with its predicted mask, goes through the second generator in order to recover its shadow-free image consequently. In addition, the two corresponding discriminators are very likely to model higher level relationships and global scene characteristics for the detected shadow region and reconstruction via removing shadows, respectively. More importantly, for multi-task learning, our design of stacked paradigm provides a novel view which is notably different from the commonly used one as the multi-branch version. To fully evaluate the performance of our proposed framework, we construct the first large-scale benchmark with 1870 image triplets (shadow image, shadow mask image, and shadow-free image) under 135 scenes. Extensive experimental results consistently show the advantages of ST-CGAN over several representative state-of-the-art methods on two large-scale publicly available datasets and our newly released one.

研究の動機と目的

既存手法がシャドウ検出と除去を独立したタスクとして扱うための限界に対処し、しばしば局所的特徴に依存し、グローバルなシーン理解が欠如している点を改善すること。
統合的なディープラーニングフレームワーク内で両タスクを同時に学習させることで、シャドウ検出と除去の相互利益を探索すること。
タスク間を前向きおよび後向きの情報フローが可能となる新しいスタックドアーキテクチャを設計し、標準的なマルチブランチアプローチとは異なること。
マルチタスク学習のための、ペアドされたシャドウ画像、正解マスク、シャドウなし画像を含む、最初の大規模ベンチマークデータセットを構築および公開すること。
スタックド敵対抗ネットワークを用いた統合学習が、階層的なグローバル特徴モデリングを通じて、検出精度と除去品質の両方を向上させることを実証すること。

提案手法

フレームワークは2つの条件付きGANのスタックドアーキテクチャを採用する。最初のジェネレータはシャドウ画像からシャドウ検出マスクを生成し、2番目のジェネレータは元の画像と予測マスクを用いてシャドウなし画像を再構築する。
各ジェネレータは、実際の出力と生成された出力を区別するディスクラミネータとペアを形成する。最初のディスクラミネータは検出品質を評価し、2番目のディスクラミネータは再構築の現実性を評価する。
スタックド構造により、すべての前段タスクの出力（入力画像、検出マスク、再構築画像）が連結され、後続のコンポONENTに供給され、DenseNetに類似した密な特徴フローを実現する。
敵対的損失、再構築用のL1損失、マスク予測用のバイナリクロスエントロピー損失を用いてエンド・トウ・エンドで学習させ、忠実性と現実性の両方を促進する。
スタックドディスクラミネータによる高レベルな関係モデリングにより、グローバルなシーン意味論と照度の一貫性を保持するアーキテクチャが設計されている。
アブレーションスタディにより、スタック構造や統合学習の各コンポONENTの必要性が確認され、単一タスクやマルチブランチ代替手法よりも優れていることが示された。

実験結果

リサーチクエスチョン

RQ1独立した学習と比較して、シャドウ検出と除去の統合学習が、両タスクの性能向上に寄与するか？
RQ2共有情報フローを持つ順次処理のスタックドアーキテクチャは、シャドウ操作のマルチタスク学習において、標準的なマルチブランチアーキテクチャを上回るか？
RQ3スタックドディスクラミネータによるグローバルシーンコンテキストの保持が、検出および除去の品質にどの程度向上効果をもたらすか？
RQ4ペアドされたシャドウ、マスク、シャドウなし画像を含む大規模ベンチマーク上で、提案フレームワークの有効性はどの程度か？
RQ5検出と除去の間の相互監視が、モデルの汎化性能およびロバストネス向上にどの程度寄与するか？

主な発見

ST-CGANは、ISTDデータセット上で全体のRMSEが7.47で、シャドウ領域および非シャドウ領域の両方で最小のRMSEを達成し、すべてのSOTA手法を上回った。
シャドウ検出において、ST-CGANは4.77%のマルチブランチベースラインと比較して、顕著に低い3.85%のバランスエラー率（BER）を達成し、優れた検出精度を示した。
モデルは、葉の影や明るい表面におけるエッジケースなど、細かいシャドウの詳細を正確に検出でき、cGANやscGANでは失敗するケースも対応できた。
アブレーションスタディにより、特にスタック構造を削除すると一貫した性能低下が生じ、その必要性が裏付けられた。
スタックド統合学習フレームワークは、すべての指標で公平なマルチブランチベースラインを上回り、並列なタスクブランチよりも情報豊富な順次タスクスタックの優位性を示した。
1,870組のトリプレット（シャドウ、マスク、シャドウなし）を含む提案されたISTDデータセットは、共同シャドウ学習のための最初の大規模ベンチマークであり、今後の研究を支援するため公開された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。