QUICK REVIEW

[論文レビュー] Pyramid Feature Attention Network for Saliency detection

Ting Zhao, Xiangqian Wu|arXiv (Cornell University)|Mar 1, 2019

Visual Attention and Saliency Detection参考文献 36被引用数 60

ひとこと要約

Pyramid Feature Attention Network (PFA) は、文脈認識型ピラミッド特徴抽出、チャネルごとおよび空間的注意、そしてエッジ保持損失を導入して、サリエンシー検出の境界を改善し、五つのベンチマークで最先端の結果を達成します。

ABSTRACT

Saliency detection is one of the basic challenges in computer vision. How to extract effective features is a critical point for saliency detection. Recent methods mainly adopt integrating multi-scale convolutional features indiscriminately. However, not all features are useful for saliency detection and some even cause interferences. To solve this problem, we propose Pyramid Feature Attention network to focus on effective high-level context features and low-level spatial structural features. First, we design Context-aware Pyramid Feature Extraction (CPFE) module for multi-scale high-level feature maps to capture rich context features. Second, we adopt channel-wise attention (CA) after CPFE feature maps and spatial attention (SA) after low-level feature maps, then fuse outputs of CA & SA together. Finally, we propose an edge preservation loss to guide network to learn more detailed information in boundary localization. Extensive evaluations on five benchmark datasets demonstrate that the proposed method outperforms the state-of-the-art approaches under different evaluation metrics.

研究の動機と目的

効果的な高レベルの文脈特徴を選択し、低レベルの空間構造を保持することで、頑健なサリエンシ検出を動機づける。
高レベルの特徴を捉えるためのマルチスケール文脈をCPFEで提案する。
高レベル特徴にはチャネルごとの注意（CA）を適用し、低レベル特徴には空間的注意（SA）を適用してサリエンシーマップを洗練させる。
エッジ保持損失を導入して境界局在化を改善する。
複数のデータセットで最先端の性能を示す。

提案手法

文脈認識型ピラミッド特徴抽出（CPFE）は、高レベルVGGブロック上でダイレーション率3、5、7のアトラス畳み込みを用いてマルチスケール文脈特徴を生成し、次にチャネル間結合を用いた結合を行う。
高レベルCPFE特徴のチャネルごとの注意（CA）で、サリエンシーに関連するチャネルを強調する。
低レベル特徴に空間的注意（SA）を適用して背景ノイズを抑制し、境界をシャープにする。
CAで調整された高レベル特徴とSAで調整された低レベル特徴を統合して最終的なサリエンシーマップを生成する。
境界局在化をガイドするエッジ保持損失 L_B は、ラプラシアン由来の境界マップをクロスエントロピーで supervising し、標準的なサリエンシー損失 L_S と組み合わせて L = α L_S + (1−α) L_B を形成する。α は最適解として0.7まで探索された。

実験結果

リサーチクエスチョン

RQ1文脈認識型のマルチスケール高レベル特徴を選択的な注意と組み合わせることで、無差別なマルチスケールフュージョンと比較してサリエンシー検出を改善できるか。
RQ2高レベルのチャネルごとの注意と低レベルの空間的注意は、サリエンシーマップの品質と境界の精度を改善するか。
RQ3エッジ保持損失はサリエンシーマップの細部と境界局在化を高めるか。
RQ4損失関数内でサリエンシーマップの正確さと境界の細部の最適なバランスはどれか。

主な発見

手法	データセット	wFβ	MAE	ノート
Ours	DUTS-test	0.8702	0.0405	Best overall on DUTS-test in Table 1/4.
Ours	ECSSD	0.9313	0.0328	Best overall on ECSSD.
Ours	HKU-IS	0.9264	0.0324	Best overall on HKU-IS.
Ours	PASCAL-S	0.8922	0.0677	Best overall on PASCAL-S.
Ours	DUT-OMRON	0.8557	0.0414	Best overall on DUT-OMRON.

提案手法は、wFβやMAEなどの指標で五つのベンチマークデータセットにおいて最先端の性能を達成。
CPFEは高レベル特徴のマルチスケール文脈を捕捉し、チャネルごとの注意と組み合わせることで顕著領域の局在を改善。
低レベル特徴をSAで洗練させることで、境界を保持し背景ノイズを抑制。
エッジ保持損失は境界の詳細を大幅に改善し、α = 0.7 が DUTS-test で最良のMAEと wFβ を与える。
アブレーション研究により、CPFE、CA、SA、エッジ保持損失の全ての要素がPerformance向上に寄与しており、全モデルが最高の結果を出す。
従来手法と比較して、DUT-OMRON のような難易度が高いデータセットで特に大きな改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。