[論文レビュー] Deep Unsupervised Saliency Detection: A Multiple Noisy Labeling Perspective
本論文は、人間のアノテーションを用いずに、複数のノイズの多い非教師付きサリエンシーマップから学習することでエンドツーエンドの深層サリエンシー検出器を提案し、潜在サリエンシー予測と明示的なノイズモデリングを結合している。
The success of current deep saliency detection methods heavily depends on the availability of large-scale supervision in the form of per-pixel labeling. Such supervision, while labor-intensive and not always possible, tends to hinder the generalization ability of the learned models. By contrast, traditional handcrafted features based unsupervised saliency detection methods, even though have been surpassed by the deep supervised methods, are generally dataset-independent and could be applied in the wild. This raises a natural question that "Is it possible to learn saliency maps without using labeled data while improving the generalization ability?". To this end, we present a novel perspective to unsupervised saliency detection through learning from multiple noisy labeling generated by "weak" and "noisy" unsupervised handcrafted saliency methods. Our end-to-end deep learning framework for unsupervised saliency detection consists of a latent saliency prediction module and a noise modeling module that work collaboratively and are optimized jointly. Explicit noise modeling enables us to deal with noisy saliency maps in a probabilistic way. Extensive experimental results on various benchmarking datasets show that our model not only outperforms all the unsupervised saliency methods with a large margin but also achieves comparable performance with the recent state-of-the-art supervised deep saliency methods.
研究の動機と目的
- ピクセルレベルのラベルなしで一般化を改善するための教師なしサリエンシー学習を動機付ける。
- 複数の非教師付きサリエンシーマップをノイズ付きラベルとして活用し深層モデルを訓練する。
- 潜在サリエンシ予測器とノイズモデルをエンドツーエンドフレームワークで共同最適化する。
提案手法
- 2モジュール構成:潜在サリエンシ predictionモジュール(FCN/DeepLabベース)とノイズモデリングモジュール。
- 各手作業で作成された非教師付きラベルを y_i^j = y_bar_i + n_i^j としてモデル化し、n_i^j はピクセルレベルの平均ゼロのガウス分布 q_i(Σ) から抽出。
- 損失はサリエンシー予測損失(予測ラベルとノイズ付きラベル間のクロスエントロピー)とノイズ損失(q_i と経験的ノイズ間のKL発散)を組み合わせる。
- ノイズ分散は各画像ごとにKLに基づく更新で更新され、ラウンドを跨いだ反復的な改良を可能にする。
- 訓練はDeepLab/ResNet-101を用いエンドツーエンド最適化;テストはノイズモジュールなしの潜在予測サリエンシーマップを使用。
- 理論的および実践的設計上の選択には、出力を[0,1]に truncation、ラウンドベースのノイズ更新、SGD with momentum が含まれる。
実験結果
リサーチクエスチョン
- RQ1複数のノイズ付きの非教師付きラベルから人間のアノテーションなしでサリエンシーマップを学習できるか。
- RQ2明示的なノイズモデリングは、単純なフュージョンや弱教師付きと比べて非教師付き深層サリエンシ検出の質を改善するか。
- RQ3潜在サリエンシ予測器とノイズモデルの収束には何ラウンドの反復が必要か。
- RQ4提案された非教師あり法は、ベンチマークデータセット上で教師あり深層サリエンシ手法および従来の非教師あり手法と比較してどうか。
主な発見
- 本手法は既存の非教師ありサリエンシ手法を大きく上回る。
- ベンチマークデータセット上で最先端の教師ありサリエンシ検出器と高い競争力を持つ性能を達成。
- 潜在予測器とノイズモデルの交互更新がラウンドを通じて性能を向上させ、数回の反復で収束することをアブレーションで示す。
- 七つのベンチマークデータセットと様々な評価指標(MAE、F-measure、PR)において強力な結果を生み出す。
- 定性的結果は低コントラストや複雑な背景など困難な状況で頑健な顕著オブジェクト回収を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。