[論文レビュー] Joint Learning of Saliency Detection and Weakly Supervised Semantic Segmentation
本論文はSSNetを提案し、 saliency detection と weakly supervised semantic segmentation をエンドツーエンドで jointly 学習する統一マルチタスクネットワークを導入し、saliency aggregation moduleで両タスクを橋渡します。
Existing weakly supervised semantic segmentation (WSSS) methods usually utilize the results of pre-trained saliency detection (SD) models without explicitly modeling the connections between the two tasks, which is not the most efficient configuration. Here we propose a unified multi-task learning framework to jointly solve WSSS and SD using a single network, \ie saliency, and segmentation network (SSNet). SSNet consists of a segmentation network (SN) and a saliency aggregation module (SAM). For an input image, SN generates the segmentation result and, SAM predicts the saliency of each category and aggregating the segmentation masks of all categories into a saliency map. The proposed network is trained end-to-end with image-level category labels and class-agnostic pixel-level saliency labels. Experiments on PASCAL VOC 2012 segmentation dataset and four saliency benchmark datasets show the performance of our method compares favorably against state-of-the-art weakly supervised segmentation methods and fully supervised saliency detection methods.
研究の動機と目的
- 弱教師付き意味セグメンテーション(WSSS)を、saliency detection(SD)への接続を明示的にモデル化することで改善を動機づける。
- 意味セグメンテーションとサリエンシー・マップを共同で予測するエンドツーエンドのネットワークを開発する。
- 画像レベルのカテゴリラベルとピクセルレベルのサリエンシー注釈を活用して単一のモデルを訓練する。
- ブリッジングモジュールを通じてサリエンシー推論がセグメンテーションを導くようにし、逆方向も可能にする。
提案手法
- SSNet consisting of a segmentation network (SN) and a saliency aggregation module (SAM)を提案する。
- SAMはカテゴリごとにサリエンシー・スコアを予測し、カテゴリマスクをS = sum_i v_i * H_iによって単一のサリエンシー・マップに集約する。
- 二段階で訓練する: SSNet-1は画像レベルラベルとサリエンシー・マップを用いて、SSNet-2はSSNet-1から得られた擬似ラベルとサリエンシー・マップを用いて訓練する。
- 二つの損失を使用する: L_c は画像レベルのカテゴリ監督、L_s1 は導出されたサリエンシー・マップをグラウンドトゥルースと整列させるための損失; 後に擬似ラベルを用いるL_s2を取り入れて精練する。
- 特徴抽出器としてDenseNet-169を採用し、解像度を保つために膨張畳み込みを用いる; CRFによるサリエンシー・マップの Refinement 以外はセグメンテーション結果に後処理を行わない。
実験結果
リサーチクエスチョン
- RQ1単一のネットワークがサリエンシー検出と弱教師付き意味セグメンテーションを効果的に同時に実行できるか?
- RQ2サリエンシー aggregation module がカテゴリ別セグメンテーション・マスクを橋渡しして正確なサリエンシー・マップを生み出せるか?
- RQ3マルチタスク学習は、単一タスクのWSSSアプローチと比較してセグメンテーション性能を改善するか?
- RQ4ピクセルレベルのサリエンシーラベルと画像レベルのカテゴリラベルを組み合わせたエンドツーエンド訓練は実現可能か?
- RQ5第一段のモデルから生成された擬似ラベルは第二段の訓練段階でセグメンテーション性能をさらに改善するか?
主な発見
- 提案されたSSNet-1は、画像レベルラベルとサリエンシー・マップで訓練され、単一タスク訓練よりもセグメンテーションのmIOUが高くなる。
- 擬似ラベルとサリエンシー情報を用いるSSNet-2は、SSNet-1よりもセグメンテーション性能をさらに向上させる。
- 共通のマルチタスク訓練はサリエンシー検出を害さず、ベンチマークデータセット上で競争力のあるサリエンシー指標を得る。
- エンドツーエンドのフレームワークは、いくつかの弱教師付きセグメンテーション手法を上回り、いくつかの完全教師付きサリエンシー検出器と同等またはそれを上回る。
- サリエンシー aggregation module は、全カテゴリのセグメンテーションマスクを効果的に結合してカテゴリ認識型サリエンシー・マップを生成し、学習を指導する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。