[論文レビュー] Reverse Attention for Salient Object Detection
逆注意に導かれたサイド出力残差学習を用いる、コンパクトな顕著物検出ネットワークを紹介し、顕著性マップを段階的に高精度化。モデルサイズ約81 MB、実時間速度約45 FPSで高い精度を達成。
Benefit from the quick development of deep learning techniques, salient object detection has achieved remarkable progresses recently. However, there still exists following two major challenges that hinder its application in embedded devices, low resolution output and heavy model weight. To this end, this paper presents an accurate yet compact deep network for efficient salient object detection. More specifically, given a coarse saliency prediction in the deepest layer, we first employ residual learning to learn side-output residual features for saliency refinement, which can be achieved with very limited convolutional parameters while keep accuracy. Secondly, we further propose reverse attention to guide such side-output residual learning in a top-down manner. By erasing the current predicted salient regions from side-output features, the network can eventually explore the missing object parts and details which results in high resolution and accuracy. Experiments on six benchmark datasets demonstrate that the proposed approach compares favorably against state-of-the-art methods, and with advantages in terms of simplicity, efficiency (45 FPS) and model size (81 MB).
研究の動機と目的
- 組み込み機器やリアルタイムアプリケーションにおいて、精度を維持しつつ顕著性マップの解像度を低減する。
- パラメータ数を抑えた軽量アーキテクチャを開発し、最先端手法に匹敵する性能を実現する。
- 完全な物体の部分と境界を導くために逆注意を導入して残差学習をガイドする。
- 複数のデータセットでリアルタイム性能と小型モデルサイズを実証する。
提案手法
- 解像度が増加する5つのサイド出力段階を備えたHED/VGG-16バックボーンに基づく。
- 少数のパラメータで顕著性を逐次 refine するサイド出力残差学習を導入。
- 現在の予測を抹消して残差学習を欠落領域へ導くトップダウンの逆注意ブロックを組み込む。
- 各サイド出力でディープサ supervision を用いてトレーニングし、画素ごとのクラスバランス付きクロスエントロピーロスを使用。
- 融合層を回避し、シグモイド活性化後の最初のサイド出力を最終予測として用いる。
実験結果
リサーチクエスチョン
- RQ1軽量の残差改良戦略は、多スケール融合を行わずに顕著性マップを改善できるか。
- RQ2逆注意は残差学習を効果的に導き、検出されていない物体の部分や境界を回復するか。
- RQ3残差の深さ(D)は精度と効率にどのような影響を与えるか。
- RQ4提案手法はF-measureとMAEにおいて、 diverse benchmarksで最先端手法と比較してどうか。
- RQ5メモリ要件を抑えつつ、リアルタイム性能を実現できるか。
主な発見
- 提案モデルは軽量でありながら、最先端手法と競合する性能を達成している(81 MB)。
- 逆注意はRAなしのベースラインよりF-measureおよびMAEを著しく改善し、アブレーションではF-measureが約1.4%平均、MAEが約0.5%改善。
- アブレーションにより、より多くのサイド出力残差を組み込むと性能が向上し、D=2 が主要データセットで最良の結果を示す。
- 標準的なGPUで約45 FPSで動作し、速度面で複数の同業他社を上回り、高品質な顕著性マップを維持。
- 6つのベンチマークデータセット(MSRA-B、HKU-IS、ECSSD、PASCAL-S、SOD、DUT-OMRON)で、CRFなどの後処理なしでも定量的・定性的に有利な結果を示す。
- 本手法は単純さと効率を強調し、組み込み機器でのリアルタイム顕著物体検出に実用的な選択肢を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。