QUICK REVIEW

[論文レビュー] Cascaded Partial Decoder for Fast and Accurate Salient Object Detection

Zhe Wu, Li Su|arXiv (Cornell University)|Apr 18, 2019

Visual Attention and Saliency Detection参考文献 43被引用数 100

ひとこと要約

カスケード部分デコーダー（CPD）を導入し、低レベルの高解像度特徴を捨てて速度を向上させつつ、生成された顕著性マップを用いて深い特徴を精練し精度を高め、5つのベンチマークで最先端の結果と推論の高速化を実現する。

ABSTRACT

Existing state-of-the-art salient object detection networks rely on aggregating multi-level features of pre-trained convolutional neural networks (CNNs). Compared to high-level features, low-level features contribute less to performance but cost more computations because of their larger spatial resolutions. In this paper, we propose a novel Cascaded Partial Decoder (CPD) framework for fast and accurate salient object detection. On the one hand, the framework constructs partial decoder which discards larger resolution features of shallower layers for acceleration. On the other hand, we observe that integrating features of deeper layers obtain relatively precise saliency map. Therefore we directly utilize generated saliency map to refine the features of backbone network. This strategy efficiently suppresses distractors in the features and significantly improves their representation ability. Experiments conducted on five benchmark datasets exhibit that the proposed model not only achieves state-of-the-art performance but also runs much faster than existing models. Besides, the proposed framework is further applied to improve existing multi-level feature aggregation models and significantly improve their efficiency and accuracy.

研究の動機と目的

深層顕著性モデルにおける低レベル高解像度特徴の破棄による計算量の削減を動機づける。
初期および精細顕著性マップのための部分デコーダを備えた二分岐のバックボーンを提案する。
全体的な注意機構を導入して顕著性のカバー範囲を拡大し、雑音要因を抑制する。
初期マップが深い特徴の精練を導くという分岐的最適化機構を開発する。
CPDが複数のベンチマークで精度と速度の双方を改善し、既存モデルを強化し得ることを示す。

提案手法

初期の注意がトップ3の特徴レベル（f3、f4、f5）から生成される二分岐バックボーンを採用する。
初期顕著性マップS_iを生成するために深レベル特徴のみを集約する部分デコーダを実装する。
要素ごとの乗算によって中間レベル特徴を refined し、f3^dを得る全体的な注意マップS_hを生成する。
refined 特徴に対して二番目の部分デコーダを用いて最終顕著性マップS_dを生成する。
受容野ブロックに触発された高速コンテキストモジュールを導入し、4つの分岐とチャネル削減でグローバルコンテキストを捉える。
2つの顕著性マップを組み合わせたクロスエントロピーロスで2つのブランチを共同訓練し、顕著性検出の一貫性を促進する。

実験結果

リサーチクエスチョン

RQ1低レベル特徴を破棄しても顕著性の精度を損なわず計算量を削減できるか。
RQ2初期顕著性マップを用いて高レベル特徴を精練することで最終的な顕著性品質は向上するか。
RQ3 holistic attentionモジュールは初期注意と比較して物体のカバー範囲と境界の delineation を改善するか。
RQ4CPDフレームワークは自身のアーキテクチャを超えて既存の深層集約モデルを改善できるか。
RQ52ブランチの顕著性設計はベンチマーク全体でリアルタイム顕著性検出に有効か。

主な発見

Method	Backbone	FPS	ECSSD-maxF	ECSSD-avgF	ECSSD-MAE	HKU-maxF	HKU-avgF	HKU-MAE	DUT-OMRON-maxF	DUT-OMRON-avgF	DUT-OMRON-MAE	DUTS-maxF	DUTS-avgF	DUTS-MAE	PASCAL-S-maxF	PASCAL-S-avgF	PASCAL-S-MAE
CPD (ours)	VGG16	66	0.936	0.915	0.040	0.924	0.896	0.033	0.794	0.745	0.057	0.864	0.813	0.043	0.866	0.825	0.074
CPD-A (ours)	VGG16	105	0.928	0.906	0.045	0.918	0.884	0.037	0.781	0.721	0.061	0.854	0.787	0.047	0.859	0.814	0.077
CPD-R (ours)	ResNet50	62	0.939	0.917	0.037	0.925	0.891	0.034	0.797	0.747	0.056	0.865	0.805	0.043	0.864	0.824	0.072
CPD-RA (ours)	ResNet50	104	0.934	0.907	0.043	0.918	0.882	0.038	0.783	0.725	0.059	0.852	0.776	0.048	0.855	0.807	0.077

CPDは5つのベンチマーク（ECSSD、HKU-IS、PASCAL-S、DUTS、DUT-OMRON）で最先端の性能を達成した。
CPDは既存モデルより高速に動作し、DUTSでのベンチマーク比較においてFPSの大幅な速度向上が示されている。
注意分岐（S_i）とカスケード精練（S_d）は単一ブランチデコーダを上回り、データセットを横断して優れた性能を発揮する。
CPDを既存モデル（BMPM、Amulet、NLDF）に組み込むと精度と効率の顕著な向上が得られ（CPD-CPD-Aバリアントで改善が見られる）。
holistic attentionは複数のモデルで初期注意より優れており、Conv3_3を最適化層として選択すると精度と速度のバランスが取れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。