QUICK REVIEW

[論文レビュー] Learning Uncertain Convolutional Features for Accurate Saliency Detection

Pingping Zhang, Dong Wang|arXiv (Cornell University)|Aug 7, 2017

Visual Attention and Saliency Detection参考文献 46被引用数 23

ひとこと要約

本稿では、境界局所化において特に効果を発揮するように、再定式化ドロップアウト（Rドロップアウト）を用いて不確実性を有する畳み込み特徴（UCF）を学習する完全畳み込みネットワークを提案する。さらに、デトランスフォームによるチェス盤模様アーチファクトを低減するハイブリッドアップサンプリング手法を導入し、後処理を伴わず、サリエンシーディテクション、セマンティックセグメンテーション、およびアイフォーカス予測のベンチマークで最先端の性能を達成した。

ABSTRACT

Deep convolutional neural networks (CNNs) have delivered superior performance in many computer vision tasks. In this paper, we propose a novel deep fully convolutional network model for accurate salient object detection. The key contribution of this work is to learn deep uncertain convolutional features (UCF), which encourage the robustness and accuracy of saliency detection. We achieve this via introducing a reformulated dropout (R-dropout) after specific convolutional layers to construct an uncertain ensemble of internal feature units. In addition, we propose an effective hybrid upsampling method to reduce the checkerboard artifacts of deconvolution operators in our decoder network. The proposed methods can also be applied to other deep convolutional networks. Compared with existing saliency detection methods, the proposed UCF model is able to incorporate uncertainties for more accurate object boundary inference. Extensive experiments demonstrate that our proposed saliency model performs favorably against state-of-the-art approaches. The uncertain feature learning mechanism as well as the upsampling method can significantly improve performance on other pixel-wise vision tasks.

研究の動機と目的

ディープラーニングベースのサリエンシーディテクションモデルにおける確率的解釈可能性とロバスト性の欠如に対処すること。
ピクセル単位のビジョンタスクにおける性能を低下させる、デトランスフォームベースのアップサンプリングに起因するチェス盤模様アーチファクトを低減すること。
エンドツーエンドの完全畳み込みネットワーク内で、不確実性特徴の学習と境界に配慮したサリエンシー予測を統合すること。
サリエンシーディテクションを越える他のピクセル単位の予測タスクへも一般化可能なフレームワークを構築すること。

提案手法

特定の畳み込み層の後に再定式化ドロップアウト（Rドロップアウト）を導入し、内部特徴ユニットの適応的アンサンブルを生成することで、追加パラメータなしに不確実性推定を可能にする。
アップサンプリングと畳み込みを分離するハイブリッドアップサンプリング戦略を採用し、トランスポーズ畳み込みと補間を組み合わせることで、チェス盤模様アーチファクトを最小限に抑える。
標準的なエンコーダ・デコーダアーキテクチャにピクセル単位の分類層を用い、すべてのパラメータをエンドツーエンドのバックプロパゲーションにより同時に学習する。
Rドロップアウトを適用して確率的特徴マップを生成し、不確実性をモデル化することで、ロバスト性と境界の正確性を向上させる。
空間情報を保持するために、完全結合層を回避する軽量で完全畳み込み型のネットワークを設計する。
PASCAL VOC 2012（セマンティックセグメンテーション用）、MIT300、iSUN、SALICON（アイフォーカス予測用）を含む複数のデータセットで手法を検証する。

実験結果

リサーチクエスチョン

RQ1深層特徴における不確実性のモデル化が、特にオブジェクト境界におけるサリエンシーディテクションの精度とロバスト性を向上させ得るか？
RQ2ピクセル単位の予測タスクにおいて、デトランスフォームに起因するチェス盤模様アーチファクトを効果的に緩和できるか？
RQ3提案されたハイブリッドアップサンプリング手法は、セマンティックセグメンテーションやアイフォーカス予測といった異なるビジョンタスクに一般化可能か？
RQ4不確実性特徴学習とアーチファクト低減アップサンプリングの組み合わせにより、後処理を伴わず最先端の性能が達成可能か？

主な発見

提案されたUCFモデルは、複数のサリエンシーディテクションベンチマークで最先端の性能を達成し、境界精度と全体的な検出品質の両面で既存手法を上回った。
アブレーションスタディの結果、Rドロップアウトが特徴のロバスト性を顕著に向上させたことが確認され、V-B（Rドロップアウトのみ）がV-A（標準ドロップアウト）を顕著に上回った。
ハイブリッドアップサンプリング手法によりチェス盤模様アーチファクトが低減され、図6で視覚的にも確認された。PASCAL VOC 2012では、標準的なデトランスフォームと比較してmIoUが0.78ポイント向上した。
PASCAL VOC 2012のセマンティックセグメンテーションベンチマークでは、68.25のmIoU、92.19のmPix.Accuracy、77.28のPix.Accuracyを達成し、SOTA手法と同等の性能を示した。
アイフォーカス予測では、MIT300でAUC-J 0.8584、iSUNで0.8615、SALICONで0.7621を達成し、多様なデータセットにわたる強力な一般化性能を示した。
本手法はタスク間で良好に一般化可能であり、アーキテクチャの変更や後処理なしに、セマンティックセグメンテーションおよびアイフォーカス予測の両方で競争力のある結果を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。