QUICK REVIEW

[論文レビュー] MaskLab: Instance Segmentation by Refining Object Detection with Semantic and Direction Features

Liang-Chieh Chen, Alexander Hermans|arXiv (Cornell University)|Dec 13, 2017

Advanced Neural Network Applications参考文献 69被引用数 35

ひとこと要約

MaskLabは、Faster R-CNNからのオブジェクト検出提案を、セマンティックセグメンテーションと方向予測を統合することで精緻化することで、前景/背景分離とインスタンスの明確化を向上させる、新しいインスタンスセグメンテーションフレームワークを提案する。COCOにおいて最先端の性能を達成し、ResNet-101とJFT事前学習を用いることで43.0%のマスクAPを達成し、Mask R-CNNの変種を上回り、より複雑なモデルと同等の性能を示す。

ABSTRACT

In this work, we tackle the problem of instance segmentation, the task of simultaneously solving object detection and semantic segmentation. Towards this goal, we present a model, called MaskLab, which produces three outputs: box detection, semantic segmentation, and direction prediction. Building on top of the Faster-RCNN object detector, the predicted boxes provide accurate localization of object instances. Within each region of interest, MaskLab performs foreground/background segmentation by combining semantic and direction prediction. Semantic segmentation assists the model in distinguishing between objects of different semantic classes including background, while the direction prediction, estimating each pixel's direction towards its corresponding center, allows separating instances of the same semantic class. Moreover, we explore the effect of incorporating recent successful methods from both segmentation and detection (i.e. atrous convolution and hypercolumn). Our proposed model is evaluated on the COCO instance segmentation benchmark and shows comparable performance with other state-of-art models.

研究の動機と目的

ピクセル単位の正確さを伴うオブジェクトインスタンスの同時検出とセグメンテーションを実現する課題に対処すること。
従来の手法が背景を重複してエンコードするか、インスタンス分離に複雑な後処理を要するという制限を克服すること。
領域提案内でのセマンティック分類と中心方向予測を組み合わせることで、マスク品質とインスタンスの明確化を向上させること。
アトラスコンボリューション、ハイパーカラム、可変オペレーションなどの最新のセグメンテーションおよび検出技術を活用し、特徴表現を強化すること。

提案手法

MaskLabはFaster R-CNNを拡張し、バウンディングボックス検出、各クラスごとのセマンティックセグメンテーションスコア、および各ピクセルのインスタンス中心方向へのスコア予測の3つの出力を生成する。
各リージョンオブインタレスト（RoI）内で、予測されたクラスに基づいてセマンティックスコアをクロップし、方向プーリングを実行してRoI全体にわたる方向特徴を集約する。
クロップされたセマンティック特徴と方向特徴を連結し、1×1畳み込みを通過させて前景/背景セグメンテーションマスクを予測する。
密な特徴抽出のためアトラスコンボリューションを、マルチスケールのコンテキストを取得するためハイパーカラム特徴を、多様な受容 field を捉えるためにマルチグリッド設定を導入する。
「可変クロップおよびリサイズ」という新しいTensorFlow演算を導入し、適応的なRoIサンプリングを学習することで、文脈的領域に焦点を当てることで検出とセグメンテーションを向上させる。
テンプレートマッチングに複雑な処理を要せず、方向スコアを微分可能に直接使用することで、エンド・ツー・エンドの学習を可能にする。

実験結果

リサーチクエスチョン

RQ1R-CNNスタイルの提案領域内でセマンティックセグメンテーションと方向予測を組み合わせることで、モデルの複雑さを増さずにインスタンスセグメンテーションの精度を向上させられるか？
RQ2位置に敏感なスコアマップやテンプレートマッチングのみを用いる従来手法と比較して、セマンティックおよび方向特徴を統合することの利点は何か？
RQ3アトラスコンボリューション、ハイパーカラム、可変オペレーションといった高度なモジュールが、インスタンスセグメンテーション性能にどの程度寄与するか？
RQ4精緻化されたマスク予測を持つ検出ベースのアプローチは、Mask R-CNN や FCIS といった最先端のモデルと同等の性能を達成できるか？

主な発見

MaskLabは、JFT事前学習を施したResNet-101バックボーンを用いて、COCOテストデブで43.0%のマスクAPを達成し、ResNet-101ベースのMask R-CNNを上回り、より複雑なモデルと同等の性能を示した。
トレーニング時にスケールオーガニゼーションを適用したMaskLab+は、より弱いバックボーンを用いながらも、G-RMI や TDM を上回る41.9%のmAPを達成した。
モデルは、セマンティックセグメンテーションが背景の重複エンコードを排除し、インサイド/アウトサイドスコアマップを用いるFCISのような手法よりも、効率的で正確であることを示した。
可変クロップおよびリサイズは、オブジェクト周囲の円形領域の文脈を学習し、特徴マップの可視化から、より長い範囲のコンテキストを捉えることで検出性能が向上していることがわかった。
失敗事例の主な原因は、検出エラー（見逃しや誤分類）と粗い境界予測であり、検出の信頼性が依然として主要なボトル neck であることが示された。
アブレーションスタディにより、セマンティック特徴と方向特徴の両方が不可欠であり、それぞれが最終的な性能に顕著な寄与をしていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。