QUICK REVIEW

[論文レビュー] Towards High-Resolution Salient Object Detection

Yi Zeng, Pingping Zhang|arXiv (Cornell University)|Aug 20, 2019

Visual Attention and Saliency Detection参考文献 53被引用数 37

ひとこと要約

本論文は、最初の高解像度顕著性オブジェクト検出データセット（HRSOD）と、3つのブランチからなるネットワーク（GSN、LRN、GLFN）を提案し、ポスト処理なしで非常に高解像度画像内の顕著オブジェクトを直接検出します。HRSODで最先端の性能を示し、標準の低解像度ベンチマークでも競争力のある結果を得ています。

ABSTRACT

Deep neural network based methods have made a significant breakthrough in salient object detection. However, they are typically limited to input images with low resolutions ($400\times400$ pixels or less). Little effort has been made to train deep neural networks to directly handle salient object detection in very high-resolution images. This paper pushes forward high-resolution saliency detection, and contributes a new dataset, named High-Resolution Salient Object Detection (HRSOD). To our best knowledge, HRSOD is the first high-resolution saliency detection dataset to date. As another contribution, we also propose a novel approach, which incorporates both global semantic information and local high-resolution details, to address this challenging task. More specifically, our approach consists of a Global Semantic Network (GSN), a Local Refinement Network (LRN) and a Global-Local Fusion Network (GLFN). GSN extracts the global semantic information based on down-sampled entire image. Guided by the results of GSN, LRN focuses on some local regions and progressively produces high-resolution predictions. GLFN is further proposed to enforce spatial consistency and boost performance. Experiments illustrate that our method outperforms existing state-of-the-art methods on high-resolution saliency datasets by a large margin, and achieves comparable or even better performance than them on widely-used saliency benchmarks. The HRSOD dataset is available at https://github.com/yi94code/HRSOD.

研究の動機と目的

非常に高解像度の画像上で直接訓練と推論を可能にすることで、高解像度顕著オブジェクト検出のギャップを埋める。
研究を促進するための大規模で豊富に注釈された高解像度データセット（HRSOD）を提供する。
高解像度のディテールを保持しつつグローバルコンテキストを活用する、グローバル-to-ローカル（Global-to-Local）アーキテクチャのパラダイムを提案し、グローバル文脈を活用しつつ高解像度のディテールを保持する。

提案手法

coarse global saliency に対する Global Semantic Network (GSN)、高解像度の局所精緻化に対する Local Refinement Network (LRN)、高解像度の融合と空間的一貫性に対する Global-Local Fusion Network (GLFN) の三つのブランチアーキテクチャを導入する。
GSN にはグローバルセマンティクスを捉えるためのダウンサンプリング入力を使用し、LRN の精緻化対象となる不確実領域を選択するために attended patch sampling (APS) を用いる。
GSN からのセマンティックガイダンスを LRN に組み込み、対応する GSN の特徴を LRN デコーダ経路と連結する。
高解像度入力と GSN/LRN 出力を詳細を保持しつつ融合するため、密結合畳み込みを備えた軽量な GLFN を訓練する。
LRN を GSN 出力に導かれた不確実領域に焦点を当てる Attended Patch Sampling (APS) を提案する。
後処理のリファインメントと比較するための任意の GSN+APS+LRN+CRF 変種を提供する。

実験結果

リサーチクエスチョン

RQ1高解像度サリエンシはポスト処理なしでニューラルネットワークによって直接学習できるか？
RQ2グローバルセマンティックガイドは顕著性検出の高解像度局所精緻化を改善するか？
RQ3APS を介して不確実領域に精緻化を集中させることは、均一なパッチサンプリングより効果的か？
RQ4提案された Global-Local Fusion Network (GLFN) は高解像度のディテールと空間的一貫性をどの程度保持するか？
RQ5本手法は高解像度データセット（HRSOD）と標準の低解像度サリエンシベンチマークと比較してどの程度の性能を示すか？

主な発見

提案手法は新しい高解像度データセット HRSOD において最先端手法を大幅に上回る。
本手法は広く用いられる低解像度サリエンシベンチマークで最先端手法と同等かそれ以上の性能を達成する。
APS はランダムパッチサンプリングに比べて精緻化を著しく改善し、パッチ数に対してロバストである。
GLFN は非常に小さなモデルサイズ（11.9 KB）で高解像度入力に対して強力な高解像度融合と高速推論を提供する。
CRFベースの後処理と比較して、APSとGLFNを用いたLRNは境界品質（境界変位誤差低下）でより良い結果をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。