Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Refine Object Segments

Pedro O. Pinheiro, Tsung-Yi Lin|arXiv (Cornell University)|Mar 29, 2016
Advanced Neural Network Applications参考文献 31被引用数 60
ひとこと要約

この論文では、粗いマスク予測を低層からの特徴を用いて精錬するトップダウン精錬アプローチであるSharpMaskを提案する。フィードフォワード畳み込みニューラルネットワークのオブジェクトインスタンスセグメンテーション性能を向上させるために、空間分解能を段階的に回復させる精錬モジュールをスタックすることで、オブジェクトプロポーザル生成において最先端の性能を達成した。1枚あたり0.8秒未塔で、DeepMaskと比較して平均リCALLを10–20%向上させ、50%高速化された。

ABSTRACT

Object segmentation requires both object-level information and low-level pixel data. This presents a challenge for feedforward networks: lower layers in convolutional nets capture rich spatial information, while upper layers encode object-level knowledge but are invariant to factors such as pose and appearance. In this work we propose to augment feedforward nets for object segmentation with a novel top-down refinement approach. The resulting bottom-up/top-down architecture is capable of efficiently generating high-fidelity object masks. Similarly to skip connections, our approach leverages features at all layers of the net. Unlike skip connections, our approach does not attempt to output independent predictions at each layer. Instead, we first output a coarse `mask encoding' in a feedforward pass, then refine this mask encoding in a top-down pass utilizing features at successively lower layers. The approach is simple, fast, and effective. Building on the recent DeepMask network for generating object proposals, we show accuracy improvements of 10-20% in average recall for various setups. Additionally, by optimizing the overall network architecture, our approach, which we call SharpMask, is 50% faster than the original DeepMask network (under .8s per image).

研究の動機と目的

  • 畳み込みニューラルネットワークでは、プーリングにより空間的詳細が失われるため、高精細でピクセル単位の正確なオブジェクトマスクを生成する課題に対処する。
  • 各層で独立した予測を行う従来のスキップ接続の限界を克服し、オブジェクトインスタンスを区別するのに不適切である点を改善する。
  • 上層からの高レベルの意味的知識と、初期層からの低レベルの空間的詳細を効率的に統合する手法を開発する。
  • トップダウンの方法で粗いマスク符号化を精錬することで、インスタンスセグメンテーションのためのオブジェクトプロポーザル生成を向上させる。
  • 従来の最先端手法(例:DeepMask や RPN)と比較して、より高い精度とより速い推論を達成する。

提案手法

  • 高レベル特徴を用いたフィードフォワードパスで最初に粗いマスク符号化を生成する、ボトムアップ/トップダウンアーキテクチャを提案する。
  • トップダウンマスク符号化と、より前の層からのボトムアップ特徴を組み合わせることでプーリング効果を逆転させ、より高い空間分解能のマスク出力を得る精錬モジュールを導入する。
  • 複数の精錬モジュールをスタックし、各モジュールが順次低い層からの特徴を統合することで、マスク符号化の空間分解能を倍増させる。
  • 精錬モジュールを完全に微分可能かつ効率的なものに設計し、エンドツーエンドの学習と高速な推論を可能にする。
  • 重複する空間ウィンドウにまたがるスキップ特徴を共有するようにモデルを再設計し、より効率的な実装に変更する。
  • DeepMaskフレームワークにこの手法を適用し、精錬され、より高速かつ正確なオブジェクトプロポーザルネットワークであるSharpMaskを実現する。

実験結果

リサーチクエスチョン

  • RQ1各層で独立した予測に依存せずに、フィードフォワードCNNが生成するオブジェクトマスクの忠実性をトップダウン精錬機構で向上させることは可能か?
  • RQ2インスタンスセグメンテーションタスクにおいて、提案された精錬アプローチはスキップ接続と比較して、性能と効率の点でどのように差がつくか?
  • RQ3トップダウン精錬は、平均リCALLとIoU閾値の観点から、オブジェクトプロポーザルの品質をどの程度向上させ得るか?
  • RQ4DeepMaskのような既存のオブジェクトプロポーザルネットワークに、効率的に精錬機構を統合できるか?
  • RQ5精錬機構は、オブジェクトプロポーザル生成を超えて、他のピクセルレベルのラベル付けタスクにも一般化可能か?

主な発見

  • SharpMaskは、元のDeepMaskネットワークと比較して、さまざまな設定で平均リCALLを10–20%向上させた。
  • 1枚あたり約500のプロポーザルを使用して、COCOバリデーションセットで28.0 APを達成し、SelSearchと比較して5 AP高い性能を示した。
  • VGG分類器を用いることで、COCOテストデブで25.2 APを達成し、RPNおよびSelSearchのベースラインを上回った。
  • 2015年COCO検出コンテストにおいて、SharpMask+MPNアンサンブルモデルは、ボックス検出で33.5 AP、セグメンテーションで25.1 APを達成し、2位となった。
  • SharpMaskは1枚あたり0.8秒未塔で実行され、元のDeepMaskネットワークと比較して50%の高速化が達成された。
  • 再設計されたモデルアーキテクチャにより、重複する空間ウィンドウにまたがるスキップ特徴を共有することで、性能を損なわずより高い効率性が実現された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。