Skip to main content
QUICK REVIEW

[論文レビュー] Fully Convolutional Instance-aware Semantic Segmentation

Yi Li, Haozhi Qi|arXiv (Cornell University)|Nov 23, 2016
Advanced Image and Video Retrieval Techniques参考文献 1被引用数 38
ひとこと要約

この論文は、領域間で共有される変換不変性のある表現を可能にする位置感受性スコアマップを用いて、オブジェクトインスタンスを同時に検出・セグメンテーションする、エンドツーエンドで完全畳み込みなフレームワークであるFCISを導入する。これは、インスタンスに依存するセマンティックセグメンテーションの分野で、最先端の性能を達成し、COCO 2016セグメンテーションコンペティションで37.6%のmAP r @[0.5:0.95]を記録し、MNCなどの先行手法よりも6倍速い。

ABSTRACT

We present the first fully convolutional end-to-end solution for instance-aware semantic segmentation task. It inherits all the merits of FCNs for semantic segmentation and instance mask proposal. It performs instance mask prediction and classification jointly. The underlying convolutional representation is fully shared between the two sub-tasks, as well as between all regions of interest. The proposed network is highly integrated and achieves state-of-the-art performance in both accuracy and efficiency. It wins the COCO 2016 segmentation competition by a large margin. Code would be released at \url{https://github.com/daijifeng001/TA-FCN}.

研究の動機と目的

  • 領域ベースの完全結合サブネットワークの非効率性を回避するエンドツーエンドで完全畳み込みなフレームワークを、インスタンスに依存するセマンティックセグメンテーションのために開発すること。
  • 従来のFCNがインスタンスレベルの意味を処理できないという限界を、位置感受性スコアマップによる変換不変性のある表現を導入することで解決すること。
  • 特徴のワープやリサイズを伴わずに、統合的かつパラメータ効率の良いアーキテクチャを用いて、オブジェクトインスタンスの検出とセグメンテーションを同時に実行すること。
  • 特に大規模オブジェクトや高解像度画像において、既存手法よりも高い精度と高速な推論を達成すること。

提案手法

  • 位置感受性な内部および外部スコアマップを用いて、領域の内部における相対的な空間的位置を符号化し、変換不変性のある特徴を維持しながら、変換不変な表現を可能にする。
  • すべての領域に対して同じ畳み込み特徴マップを共有することで、ROIプーリングや特徴のリサイズの必要性を排除する。
  • これらのスコアマップを用いて、1回の統合的フォワードパスで検出とセグメンテーションを同時に行い、タスクに追加のパラメータを必要としない。
  • スライディングウィンドウの代わりにRPN(領域提案ネットワーク)からの領域提案を活用することで、効率的なマルチスケール推論を実現する。
  • ROIごとの計算コストを増加させることなく、マルチスケールのテスト・トレーニングおよび水平反転増強をサポートする。
  • マスク予測は位置感受性スコアマップの投票によって実行され、完全結合層を用いずに高精度で密度の高い予測を可能にする。

実験結果

リサーチクエスチョン

  • RQ1領域固有の完全結合層に依存せずに、エンドツーエンドで完全畳み込みなネットワークを設計し、インスタンスに依存するセマンティックセグメンテーションを実現できるか?
  • RQ2同じ特徴を複数の領域で共有しつつ、インスタンスを区別できる変換不変性のある特徴を、完全畳み込みの形で導入する方法は何か?
  • RQ3特徴のワープやリサイズを回避し、空間解像度を維持したまま、パラメータ効率の良い形で検出とセグメンテーションを統合的に定式化できるか?
  • RQ4MNCのような2段階手法と比較して、提案手法はどれほど精度と速度を向上させるか?
  • RQ5ネットワークの深さやマルチスケール推論、アンサンブル学習などのデータ拡張戦略と、この手法はどのようにスケーリングするか?

主な発見

  • FCISはCOCO 2016テストデベロップメントセットで37.6%のmAP r @[0.5:0.95]を達成し、インスタンスセグメンテーションチャレンジで1位を獲得した。
  • 2015年の優勝者(MNC++)よりも9.2%の絶対的なmAP r @[0.5:0.95]の向上を達成し、相対的に32%の改善を示した。
  • ResNet-101を用いた場合、29.2%のmAP r @[0.5:0.95]を達成し、同じ設定でMNCの25.0%よりも4.2%高い性能を示した。
  • 1枚のK40 GPUで1枚あたり0.24秒の推論時間を達成し、MNCの1.4秒/枚よりも6倍速かった。
  • OHEM(オンラインハード例題マイニング)の恩恵を大きく受け、ROI1つあたりのコストが低いため、最小限のトレーニングオーバーヘッドで29.2%のmAPを達成した。
  • より深いネットワークを用いることで精度が向上し、ResNet-152を用いた場合に29.5%のmAPにピークに達した。これは良好なスケーラビリティを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。