Skip to main content
QUICK REVIEW

[論文レビュー] Deep Joint Task Learning for Generic Object Extraction

Xiaolong Wang, Zhang Li-liang|arXiv (Cornell University)|Feb 3, 2015
Visual Attention and Saliency Detection参考文献 32被引用数 37
ひとこと要約

本論文では、潜在変数を介して接続された2つの畳み込みニューラルネットワークを用いて、同時に一般物体検出とピクセル単位のセグメンテーションを実行する深層共同タスク学習フレームワークを提案する。EM型のアルゴリズムを用いたMCMCサンプリングによる反復的最適化により、ネットワークパラメータと潜在変数の調整を最適化することで、最先端の精度を達成するとともに、従来手法と比較して1000倍高速な推論を実現し、1枚あたり0.014秒の推論時間となった。

ABSTRACT

This paper investigates how to extract objects-of-interest without relying on hand-craft features and sliding windows approaches, that aims to jointly solve two sub-tasks: (i) rapidly localizing salient objects from images, and (ii) accurately segmenting the objects based on the localizations. We present a general joint task learning framework, in which each task (either object localization or object segmentation) is tackled via a multi-layer convolutional neural network, and the two networks work collaboratively to boost performance. In particular, we propose to incorporate latent variables bridging the two networks in a joint optimization manner. The first network directly predicts the positions and scales of salient objects from raw images, and the latent variables adjust the object localizations to feed the second network that produces pixelwise object masks. An EM-type method is presented for the optimization, iterating with two steps: (i) by using the two networks, it estimates the latent variables by employing an MCMC-based sampling method; (ii) it optimizes the parameters of the two networks unitedly via back propagation, with the fixed latent variables. Extensive experiments suggest that our framework significantly outperforms other state-of-the-art approaches in both accuracy and efficiency (e.g. 1000 times faster than competing approaches).

研究の動機と目的

  • 従来のスライディングウィンドウ法や手作業特徴抽出手法の限界を是正すること。
  • 物体検出とピクセル単位のセグメンテーションを共同で最適化することで、精度と効率を向上させること。
  • 予測された物体バウンディングボックスと正確なセグメンテーションマスクの間の不整合を潜在変数の調整により是正すること。
  • 分類ごとの事前学習を必要とせず、多様なデータセットに一般化可能なスケーラブルでエンドツーエンドの深層学習フレームワークを構築すること。

提案手法

  • 物体検出用とピクセル単位のセグメンテーション用の2本の分岐を持つ深層ニューラルネットワークアーキテクチャで、潜在変数を介して接続され、物体候補を精緻化する。
  • 潜在変数は、予測されたバウンディングボックスに対する空間的調整(例:スケーリングやシフト)を表し、セグメンテーションの入力品質を向上させる。
  • EM型最適化アルゴリズムは、(1) データ駆動型MCMCサンプリング法を用いて最適な潜在変数を推定する段階と、(2) 固定された潜在変数のもとでバックプロパゲーションによりネットワークパラメータを更新する段階を交互に繰り返す。
  • MCMCサンプリングにより、すべての可能な候補を全列挙するのを避けることで、効率的な潜在変数推定が可能になる。
  • 共同学習により、物体検出とセグメンテーションの損失を統合した目的関数を最小化し、潜在変数が中間の調整ノブとして機能する。
  • フレームワークは生画像上でエンドツーエンドで学習され、手作業特徴やスライディングウィンドウ走査の必要がない。

実験結果

リサーチクエスチョン

  • RQ1物体検出とセグメンテーションの共同学習は、独立的または逐次処理よりも性能を向上させることができるか?
  • RQ2潜在変数を効果的に活用することで、不整合な物体候補を是正し、セグメンテーション精度を向上させることができるか?
  • RQ3深層学習フレームワークは、一般物体抽出において高い精度と極めて高い推論効率を両立させることができるか?
  • RQ4微調整なしで、未観測のデータセットにどの程度一般化できるか?

主な発見

  • OEデータセットにおいて、本手法は93.12%の精度と77.69%のJaccard類似度を達成し、最先端手法を上回った。
  • Saliencyデータセットでは、91.56%の精度と64.72%のJaccard類似度を達成し、以前の最先端手法を上回った。
  • 競合手法と比較して50〜6000倍高速であり、1枚あたりの推論時間はわずか0.014秒であった。
  • OEデータセットでは、潜在変数調整付きの共同学習により、分離学習に比べて精度が1.87%向上し、Jaccard類似度が6.19%向上した。
  • 未観測のデータセットに対しても良好な一般化性能を示し、インターネットデータセットではコセグメンテーション手法と同等または優れた性能を達成したが、推論がはるかに高速であった。
  • 625個の候補を全列挙した場合、類似の精度を達成したが、1イテレーションあたり30倍の学習時間がかかったため、MCMCサンプリング手法の効率性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。