QUICK REVIEW

[論文レビュー] Amulet: Aggregating Multi-level Convolutional Features for Salient Object Detection

Pingping Zhang, Dong Wang|arXiv (Cornell University)|Aug 7, 2017

Visual Attention and Saliency Detection参考文献 45被引用数 116

ひとこと要約

Amuletはマルチレベル特徴の統合フレームワーク（AmuletNet）を提案し、マルチ解像度のFCN特徴を双方向再帰的監督と境界を保持する改善で統合して、顕著な物体検出を前進させます。主要データセット全体で最先端の結果を達成し、ほぼリアルタイムに近い速度で動作します。

ABSTRACT

Fully convolutional neural networks (FCNs) have shown outstanding performance in many dense labeling problems. One key pillar of these successes is mining relevant information from features in convolutional layers. However, how to better aggregate multi-level convolutional feature maps for salient object detection is underexplored. In this work, we present Amulet, a generic aggregating multi-level convolutional feature framework for salient object detection. Our framework first integrates multi-level feature maps into multiple resolutions, which simultaneously incorporate coarse semantics and fine details. Then it adaptively learns to combine these feature maps at each resolution and predict saliency maps with the combined features. Finally, the predicted results are efficiently fused to generate the final saliency map. In addition, to achieve accurate boundary inference and semantic enhancement, edge-aware feature maps in low-level layers and the predicted results of low resolution features are recursively embedded into the learning framework. By aggregating multi-level convolutional features in this efficient and flexible manner, the proposed saliency model provides accurate salient object labeling. Comprehensive experiments demonstrate that our method performs favorably against state-of-the art approaches in terms of near all compared evaluation metrics.

研究の動機と目的

最後の層の意味論を超えた顕著な物体検出のためのマルチレベル畳み込み特徴の有効利用を促進する。
粗い意味論と細部のバランスをとるため、特徴を複数の解像度に集約するフレームワークを開発する。
再帰的監督を導入して双方向の情報フローを可能にし、境界の正確さを高める。
エッジを意識した低レベル特徴と低解像度予測を取り入れて、物体境界を refinements。
データセットを横断した強い一般化能力とGPU上での効率的な推論を実証する。

提案手法

VGG-16 backbone に5つの conv ブロックを用いて AmuletNet を構築し、最後のプーリングを削除して conv1-2, conv2-2, conv3-3, conv4-3, conv5-3 の特徴を得る。
Resolution-Based Feature Integration (RFC) を導入して、マルチレベルの特徴を同時に複数解像度へリサイズ・融合する。
Autoregressive connections を用いた Deep Recursive Supervision (DRS) と deeply supervised losses により、予測間の双方向情報流を有効化する。
Boundary Preserved Refinement (BPR) を適用し、エッジを意識した低レベル特徴を組み込んで最終的な顕著境界を精練する。
複数レベルの予測を融合し、前景/背景励起マップの適応的平均-コントラスト融合によって最終的な顕著性マップを推定する。

実験結果

リサーチクエスチョン

RQ1マルチレベル、マルチ解像度の特徴集約は、単一レベルの高レベル特徴を超えて顕著性検出を向上させるか？
RQ2双方向の再帰的監督はレベル間の情報共有を改善し、境界の正確さを高めるか？
RQ3エッジを意識した低レベル特徴と境界リファインメントは、顕著性境界の局在化を有意に高めるか？
RQ4AmuletNet は MSRA10K での学習にも関わらず、異なる大規模データセット全体に対して一般化可能か？

主な発見

AmuletNet は主要データセット（DUTS-TE, ECSSD, HKU-IS, PASCAL-S, SOD）において64+のベースラインを凌ぐF-measureとMAEを達成する。
境界保持リファインメント（BPR）はMAEと境界精度を顕著に改善し、BPR を除く場合の MAE が低下するアブレーションと対になる。
解像度を含む多レベル特徴の統合は、単一解像度のベースラインよりも性能を向上させ、より高い解像度ほど良い結果を示す。
Deep Recursive Supervision は双方向の情報流を可能にし、従来の深く監視されたネットワークよりも顕著性タスクで優れている。
MSRA10K で学習したモデルは他の大規模データセットにも良く generalize し、ターゲットデータセットで事前学習された方法を上回る。
このアプローチは現代の GPU で約16 フレーム/秒の速度で動作する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。