QUICK REVIEW

[論文レビュー] DeepUSPS: Deep Robust Unsupervised Saliency Prediction With Self-Supervision

Duc Tam Nguyen, Maximilian Dax|arXiv (Cornell University)|Sep 28, 2019

Visual Attention and Saliency Detection被引用数 28

ひとこと要約

本稿では、まず、手作業で作成されたサリエンシー手法からのノイズの多い疑似ラベルを深層ネットワークと反復的自己教師学習を用いて精錬し、その後、精錬されたラベルに基づいて最終的なサリエンシー検出ネットワークを訓練する二段階の教師なしサリエンシー検出フレームワーク、DeepUSPSを提案する。この手法は、教師ありSOTAモデルに匹敵する性能を達成し、相対的なFスコア改善で最大21%、誤差低減で29%を記録し、教師なし状態の最良手法を上回る性能を示した。

ABSTRACT

Deep neural network (DNN) based salient object detection in images based on high-quality labels is expensive. Alternative unsupervised approaches rely on careful selection of multiple handcrafted saliency methods to generate noisy pseudo-ground-truth labels. In this work, we propose a two-stage mechanism for robust unsupervised object saliency prediction, where the first stage involves refinement of the noisy pseudo labels generated from different handcrafted methods. Each handcrafted method is substituted by a deep network that learns to generate the pseudo labels. These labels are refined incrementally in multiple iterations via our proposed self-supervision technique. In the second stage, the refined labels produced from multiple networks representing multiple saliency methods are used to train the actual saliency detection network. We show that this self-learning procedure outperforms all the existing unsupervised methods over different datasets. Results are even comparable to those of fully-supervised state-of-the-art approaches. The code is available at https://tinyurl.com/wtlhgo3 .

研究の動機と目的

サリエンシー検出のためのピクセル単位の人的アノテーションの高コストと希少性に対処し、教師なし学習を可能にする。
従来の教師なし手法が直接、手作業で作成されたサリエンシーモデルからのノイズの多い疑似ラベルを統合するという限界を克服する。
最終統合の前に、疑似ラベルを独立して精錬することで、ラベル品質を向上させ、メソッドの多様性を保ち、監視信号の正確性を高める。
画像間の一貫性と移動平均予測を活用して、反復的に疑似ラベルを改善する自己教師学習メカニズムを構築する。
人的アノテーションの正解ラベルを一切必要とせず、完全教師ありSOTAモデルと同等の性能を達成する。

提案手法

従来の手作業で作成されたサリエンシー手法を、入力画像から疑似ラベルを生成する能力を学習する深層ニューラルネットワークに置き換え、元の手法の代理として機能させる。
共有特徴を活用し、分布のずれを最小限に抑えることで、画像間の一貫性を確保する訓練を適用し、疑似ラベルを画像間で整合させる。
サリエンシー検出ネットワークの予測の移動平均を用いて、複数ステップにわたる反復的自己教師学習メカニズムを実装し、疑似ラベルを精錬する。
複数の深層プロキシネットワークから得られる精錬済み疑似ラベルを、最終的なサリエンシー検出ネットワークの監視信号として使用する。
異なる精錬済みネットワークの予測を統合するためのマルチビュー統合（MVA）戦略を導入し、堅牢性と一貫性を向上させる。
段階的な学習プロセス（初期プロキシ訓練 → 画像間一貫性 → 反復的自己教師学習）を採用するカリキュラム学習アプローチを活用する。

実験結果

リサーチクエスチョン

RQ1手作業で作成されたサリエンシー手法からの疑似ラベルを反復的に精錬することで、教師なしサリエンシー検出の性能が向上するか？
RQ2手作業手法を深層プロキシネットワークに置き換えることで、疑似ラベルの品質と多様性が向上するか？
RQ3移動平均と画像間一貫性を用いた自己教師学習によって、疑似ラベル品質はどの程度向上するか？
RQ4複数のメソッドからの精錬済み疑似ラベルは、完全教師ありSOTAモデルと同等の性能を達成できるか？
RQ5提案されたパイプラインは、標準ベンチマーク上での既存の教師なしおよび教師ありベースラインと定量的に比較してどうか？

主な発見

DeepUSPSは、ベンチマークデータセット上で、先行する教師なし手法と比較して、Fスコア誤差を21%相対的に低減し、平均平均誤差（MAE）を29%相対的に低減した。
本手法は、2つの主要な教師なしアプローチであるSBFとUSDを上回り、MSRA-BおよびDUT-OSBでFスコアに2.5–3.5%の絶対的向上を達成した。
自己教師学習を2ステップ実行した後、MSRA-BにおけるFスコアは89.07%に達し、MAEは4.52%に低下した。これは、高品質なラベル精錬が行われたことを示している。
深層プロキシネットワークから得られる精錬済み疑似ラベルは、一貫性と正確性が著しく向上しており、精錬後にはFスコアが約85%から89%以上に上昇した。
精錬済みラベルに基づいて訓練された最終的なサリエンシー検出ネットワークは、完全教師ありSOTAモデルと同等の性能を示した。これは、高品質な疑似ラベルが人的アノテーションに代われる可能性を示している。
アブレーションスタディの結果、画像間一貫性と自己教師学習の両方が不可欠であることが確認され、初期の一貫性学習後でも自己教師学習が段階的な向上をもたらした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。