Skip to main content
QUICK REVIEW

[論文レビュー] Suppress and Balance: A Simple Gated Network for Salient Object Detection

Xiaoqi Zhao, Youwei Pang|arXiv (Cornell University)|Jul 16, 2020
Visual Attention and Saliency Detection参考文献 73被引用数 40
ひとこと要約

GateNetはエンコーダの寄与をバランスさせ抑制する多層ゲートユニットと、二重分岐デコーダにFold-ASPPを導入し、5つのデータセットにおいてリアルタイム速度で最先端の顕著性物体検出を達成します。

ABSTRACT

Most salient object detection approaches use U-Net or feature pyramid networks (FPN) as their basic structures. These methods ignore two key problems when the encoder exchanges information with the decoder: one is the lack of interference control between them, the other is without considering the disparity of the contributions of different encoder blocks. In this work, we propose a simple gated network (GateNet) to solve both issues at once. With the help of multilevel gate units, the valuable context information from the encoder can be optimally transmitted to the decoder. We design a novel gated dual branch structure to build the cooperation among different levels of features and improve the discriminability of the whole network. Through the dual branch design, more details of the saliency map can be further restored. In addition, we adopt the atrous spatial pyramid pooling based on the proposed "Fold" operation (Fold-ASPP) to accurately localize salient objects of various scales. Extensive experiments on five challenging datasets demonstrate that the proposed model performs favorably against most state-of-the-art methods under different evaluation metrics.

研究の動機と目的

  • U-Net/FPNベースのSODモデルにおけるエンコーダブロック間の干渉と寄与の不均一性を動機づけて対処する。
  • エンコーダからデコーダへの情報フローをバランスさせる多層ゲートユニットを備えたシンプルなゲートネットワーク(GateNet)を提案する。
  • 詳細を回復し顕著マップの品質を向上させるデュアルブランチデコーダ構造を導入する。
  • Fold-ASPP(Folded ASPP)を開発し、局所的相関を維持しつつマルチスケールコンテキストを捉える。
  • 5つの挑戦的なSODデータセットで最先端の性能を示し、リアルタイム推論速度を示す。

提案手法

  • 遷移層とデコーダブロックの間に5つのゲートユニットを挿入したFPNバックボーン上にGateNetを構築する。
  • エンコーダとデコーダ(または遷移)特徴を連結してレベルごとに2つのゲート値を計算し、これらのゲートを適用してFPNと paralle l branchesの重み付けを行う。
  • 主な顕著性予測用のFPNベース分岐と、ゲートされたエンコーダ特徴を統合して細部を回復する並列分岐のデュアルブランデコーダを導入する。
  • Fold-ASPPを提案する:Fold操作を用いて拡張畳み込みを適用する前に局所的な2x2領域を作成する折り畳み型のAtrous Spatial Pyramid Poolingモジュールで、マルチスケールの文脈を強化する。
  • FPNと並列ブランチを連携して最終的な顕著性マップに結合する残差並列接続を、シグモイド出力で使用する。
  • FPNブランチの出力と最終的な融合出力のクロスエントロピーロスを用いたマルチ監視で学習する。

実験結果

リサーチクエスチョン

  • RQ1顕著性物体検出モデルにおいて、エンコーダとデコーダ間のブロック間干渉をどのように抑制できるか?
  • RQ2ゲートを用いた情報フローの調整は、顕性予測のためのエンコーダ特徴の利用を改善できるか?
  • RQ3デュアルブランチデコーダとFold-ASPPは、単一分岐デコーダよりマルチスケールの文脈と細部をよりよく捉えるか?
  • RQ4標準的なSODデータセット全体で、多層ゲートユニットとFold-ASPPが精度と境界品質に与える影響はどの程度か?

主な発見

  • GateNetは、F-measure、S-measure、MAEなどの指標で、5つの難易度の高いデータセットにおいて17の最先端SOD手法を一貫して上回る。
  • 多層ゲートユニットはエンコーダブロックからの寄与を均衡させ、背景干渉を抑制し、顕著性の識別性を向上させる。
  • Fold-ASPPはより豊かなマルチスケール文脈とより良い局在化を提供し、アブレーションで標準のASPPを上回る。
  • 並列残差経路を備えたデュアルブランチデコーダは細部を回復し境界を保持して、境界の精度を高める。
  • より強力なバックボーンを用いるとGateNetはさらなる性能向上を達成し、標準のハードウェアで実時間速度(約30fps)で動作する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。