QUICK REVIEW

[論文レビュー] Instance-sensitive Fully Convolutional Networks

Jifeng Dai, Kaiming He|arXiv (Cornell University)|Mar 29, 2016

Advanced Neural Network Applications参考文献 1被引用数 62

ひとこと要約

本論文では、オブジェクトインスタンスからのピクセル単位の相対的位置を符号化するインスタンスに敏感なスコアマップの集合を生成することで、インスタンスレベルのセグメンテーション候補を生成する完全畳み込みネットワークであるInstanceFCNを提案する。従来の方法が高次元のマスク層に依存するのとは異なり、この手法は局所的な画像の整合性を活用して解像度依存の層を回避し、PASCAL VOCおよびMS COCOベンチマークで最先端の性能を達成し、競争力のあるmAPおよびリCALLメトリクスを実現した。

ABSTRACT

Fully convolutional networks (FCNs) have been proven very successful for semantic segmentation, but the FCN outputs are unaware of object instances. In this paper, we develop FCNs that are capable of proposing instance-level segment candidates. In contrast to the previous FCN that generates one score map, our FCN is designed to compute a small set of instance-sensitive score maps, each of which is the outcome of a pixel-wise classifier of a relative position to instances. On top of these instance-sensitive score maps, a simple assembling module is able to output instance candidate at each position. In contrast to the recent DeepMask method for segmenting instances, our method does not have any high-dimensional layer related to the mask resolution, but instead exploits image local coherence for estimating instances. We present competitive results of instance segment proposal on both PASCAL VOC and MS COCO.

研究の動機と目的

標準のFCNがセマンティックセグメンテーションの候補を生成するのに対し、インスタンスレベルのセグメンテーション候補を生成できないという限界を解消すること。
マスク解像度に依存する高次元の全結合層を排除することで、一般化性能の向上と過学習のリスク低減を図ること。
相対的位置分類を通じてインスタンス候補を生成する、完全畳み込み型でエンドツーエンドのフレームワークを構築すること。
外部の候補生成手法に依存せずに、PASCAL VOC や MS COCO といった標準ベンチマークにおけるインスタンス候補品質の向上を図ること。

提案手法

本手法は、オブジェクトインスタンスからの相対的位置（例：3×3グリッド）に対応する一連のインスタンスに敏感なスコアマップを計算する。
各スコアマップのピクセルは、オブジェクトインスタンスに対する空間的関係（例：「右上」や「中央」）を表す低次元分類器として機能する。
単純なアセンブリングモジュールがスライディングウィンドウ内で全スコアマップの予測を統合し、完全なインスタンスマスク候補を生成する。
マスク解像度に束縛されない高次元層を必要としないため、局所的な画像の整合性を活用してインスタンス形状を推定する。
マスク解像度に依存するm²-d全結合層を回避するため、畳み込み演算のみを用いることで、エンドツーエンドの学習と推論を可能にする。
相対的位置予測のピクセル単位の交差エントロピー損失を用いてエンドツーエンドで学習可能であり、セマンティックインスタンスセグメンテーションのための下流分類器と組み合わせることも可能である。

実験結果

リサーチクエスチョン

RQ1高次元のマスク層に依存しない完全畳み込みネットワークは、インスタンスレベルのセグメンテーション候補を生成できるか？
RQ2複数のスコアマップにおける相対的位置分類は、標準のFCNやDeepMaskと比較して、インスタンス候補の品質をどのように向上させるか？
RQ3マスク解像度に依存しない形で、局所的な画像の整合性を効果的に活用してオブジェクトインスタンスを推定できるか？
RQ4標準ベンチマークにおいて、MCG、DeepMask、MNCといった最先端の提案手法と比較して、本手法の精度と効率はどのように異なるか？

主な発見

PASCAL VOC 2012では、10個の候補でAR@10が16.6%を達成し、DeepMask（12.6%）とMNC（13.5%）を上回った。
MS COCOでは、100個の候補でAR@100が31.7%に達し、DeepMaskZoom（26.1%）とMNC（29.9%）を上回った。
MS COCOでは、1000個の候補でAR@1000が39.2%に達し、すべてのIoU閾値でDeepMaskZoom（36.6%）とMNC（37.8%）を上回った。
インスタンスセマンティックセグメンテーションのタスクでは、PASCAL VOCで43.0%のmAP@0.7を達成し、比較対象手法の中で2位となり、最も近い競合手法より1.5%高い性能を示した。
PASCAL VOCのような小規模データセットにおいても、高次元層が存在しないため、過学習リスクが低く、優れた一般化性能を示した。
MS COCOにおける可視化比較では、特に小さなオブジェクトや重なったオブジェクトに対して、DeepMaskよりも多くの正例インスタンスを検出できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。