QUICK REVIEW

[論文レビュー] PISA: Pixelwise Image Saliency by Aggregating Complementary Appearance Contrast Measures with Edge-Preserving Coherence

Keze Wang, Liang Lin|arXiv (Cornell University)|May 12, 2015

Visual Attention and Saliency Detection参考文献 49被引用数 91

ひとこと要約

PISAは、エッジを保全する一貫性を伴う補完的色彩および構造コントラスト特徴を統合することで、ピクセル単位の画像サリエンシー検出の統一フレームワークを提案する。サリエンシー信頼性と近傍一貫性をエネルギー最小化により同時にモデル化し、詳細を保持する細粒度のサリエンシー地図をコストボリュームフィルタリングにより生成する。複数のベンチマークで最先端の手法を上回り、14倍の高速化を実現する高速版（F-PISA）を提供する。

ABSTRACT

Driven by recent vision and graphics applications such as image segmentation and object recognition, computing pixel-accurate saliency values to uniformly highlight foreground objects becomes increasingly important. In this paper, we propose a unified framework called PISA, which stands for Pixelwise Image Saliency Aggregating various bottom-up cues and priors. It generates spatially coherent yet detail-preserving, pixel-accurate and fine-grained saliency, and overcomes the limitations of previous methods which use homogeneous superpixel-based and color only treatment. PISA aggregates multiple saliency cues in a global context such as complementary color and structure contrast measures with their spatial priors in the image domain. The saliency confidence is further jointly modeled with a neighborhood consistence constraint into an energy minimization formulation, in which each pixel will be evaluated with multiple hypothetical saliency levels. Instead of using global discrete optimization methods, we employ the cost-volume filtering technique to solve our formulation, assigning the saliency levels smoothly while preserving the edge-aware structure details. In addition, a faster version of PISA is developed using a gradient-driven image sub-sampling strategy to greatly improve the runtime efficiency while keeping comparable detection accuracy. Extensive experiments on a number of public datasets suggest that PISA convincingly outperforms other state-of-the-art approaches. In addition, with this work we also create a new dataset containing $800$ commodity images for evaluating saliency detection. The dataset and source code of PISA can be downloaded at http://vision.sysu.edu.cn/project/PISA/

研究の動機と目的

従来のサリエンシー手法が単一の色彩またはスーパーピクセルベースの表現に依存するという限界を是正すること。
細部を保持し、複雑なフォアグラウンド／バックグラウンド構造に対応できる均一でピクセル単位の正確なサリエンシー強調を達成すること。
グローバルな文脈と画像ドメインの事前知識を用いて、サリエンシー信頼性と空間的一致性を同時にモデル化すること。
正確性を損なわずにリアルタイムに適用可能な効率的かつスケーラブルなソリューションを開発すること。

提案手法

特徴に適応した密集的重複領域を用いて、補完的外観特徴（色彩コントラストおよび構造コントラスト）を統合する。
特徴空間におけるグローバルなレアリティ（色彩／構造ヒストグラム）と空間的事前知識（中心への好みおよび境界除外）を組み合わせて、サリエンシー信頼性をモデル化する。
近傍一貫性制約を含むエネルギー最小化問題としてサリエンシー割り当てを定式化し、滑らかでありながらエッジに鋭敏な出力を可能にする。
グローバル離散最適化の代わりに形状に適応したコストボリュームフィルタリングを用いて、細粒度のサリエンシー値を効率的に割り当てる。
勾配駆動の画像サブサンプリングを用いて計算を高速化する高速版F-PISAを導入し、精度の損失を最小限に抑える。
サリエンシー信頼性を離散レベルにマップするためにシグモイド型正規化を採用し、視覚的品質およびMAEスコアの向上を図る。

実験結果

リサーチクエスチョン

RQ1補完的外観特徴（色彩および構造）を効果的に統合することで、サリエンシー検出の精度を向上させることは可能か？
RQ2ピクセル単位のサリエンシー枠組みにおいて、空間的一致性とエッジに鋭敏な詳細の保持を同時にモデル化することは可能か？
RQ3グローバルで非局所的な特徴モデリングアプローチは、局所的なスーパーピクセルベースの手法を上回る性能を発揮できるか？
RQ4視覚的品質と定量的性能のバランスを最適化する正規化戦略として、どの戦略が最良か？
RQ5検出精度を劣化させることなく、計算効率を著しく向上させることは可能か？

主な発見

PISAは6つの公開データセットで最先端の性能を達成し、精度および平均絶対誤差（MAE）の両面で既存手法を上回った。
提案されたシグモイド型正規化は、PASCAL-1500データセットでF0.3およびMAEスコアにおいて、線形、対数型、指数型の代替手法を上回った。
F-PISAは元のPISAに比べ14倍の高速化を達成しながら、実行時間順位上位5つの手法と同等の精度を維持した。
グローバル特徴の希少性と空間的事前知識を用いることで、同じ色調や不均一な構造を有する複雑なシーンにおいてもサリエンシーの一貫性が著しく向上した。
後処理による平滑化の代わりにコストボリュームフィルタリングを用いることで、エッジに鋭敏な詳細を効果的に保持し、オブジェクト境界のぼやけを回避した。
フレームワークは多様な画像パターンに対して頑健であり、新規に作成された800枚の商品データセットを含む、さまざまなデータセットで一貫した性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。