QUICK REVIEW

[論文レビュー] ShapeMask: Learning to Segment Novel Objects by Refining Shape Priors

Weicheng Kuo, Anelia Angelova|arXiv (Cornell University)|Apr 5, 2019

Advanced Neural Network Applications参考文献 42被引用数 21

ひとこと要約

ShapeMaskは、形状事前分布とインスタンス固有の埋め込みを学習することで、新しいカテゴリへの一般化を向上させる新しいインスタンスセグメンテーションフレームワークを提案する。バウンディングボックスから出発し、学習された事前分布と埋め込みを用いて段階的にオブジェクト形状を精緻化する。クロスカテゴリ学習においてSOTAを6.4 AP上回り、150msの推論時間で完全教師あり設定でも競争力のある性能を達成する。

ABSTRACT

Instance segmentation aims to detect and segment individual objects in a scene. Most existing methods rely on precise mask annotations of every category. However, it is difficult and costly to segment objects in novel categories because a large number of mask annotations is required. We introduce ShapeMask, which learns the intermediate concept of object shape to address the problem of generalization in instance segmentation to novel categories. ShapeMask starts with a bounding box detection and gradually refines it by first estimating the shape of the detected object through a collection of shape priors. Next, ShapeMask refines the coarse shape into an instance level mask by learning instance embeddings. The shape priors provide a strong cue for object-like prediction, and the instance embeddings model the instance specific appearance information. ShapeMask significantly outperforms the state-of-the-art by 6.4 and 3.8 AP when learning across categories, and obtains competitive performance in the fully supervised setting. It is also robust to inaccurate detections, decreased model capacity, and small training data. Moreover, it runs efficiently with 150ms inference time and trains within 11 hours on TPUs. With a larger backbone model, ShapeMask increases the gap with state-of-the-art to 9.4 and 6.2 AP across categories. Code will be released.

研究の動機と目的

新しいオブジェクトカテゴリへのインスタンスセグメンテーションの一般化を、カテゴリ固有のマスクアノテーションを多数必要とせずに達成すること。
バウンディングボックスよりも強いインダクティブバイアスを提供する中間の形状事前分布を導入することで、ゼロショットおよびフェイントショット一般化を向上させること。
最小限の監視で、クラスに依存しない学習を用いて、効率的で、ロバストかつ正確なインスタンスセグメンテーションを実現すること。
パラメータとFLOPsを大幅に削減しながらも、精度を維持する軽量で高性能なマスクブランチを設計すること。
TPUおよびGPUの両方でハードウェア効率的でありながら、検出とセグメンテーションの両方で競争力のある性能を達成すること。

提案手法

ShapeMaskは、クラスに依存しないバウンディングボックス検出を入力とし、対象オブジェクトの局所化に用いる。
次に、学習されたセットから最も適合する形状事前分布を選択することで、オブジェクトの形状を推定し、強力な幾何的事前分布を提供する。
完全畳み込みネットワークが形状事前分布から粗いマスクをデコードし、学習されたインスタンス埋め込みを用いて精緻化することで、最終的なピクセル単位のセグメンテーションを生成する。
NMSやソーティング処理を回避するため、ROIAlignではなく単純なクロッピングとジャマーレースの真値を用いて、トレーニングを高速化する。
効率的なトレーニングのため、1段階検出器（RetinaNet）を用い、クラスに依存しない監視でエンドツーエンドにトレーニングする。
マスクブランチは軽量に設計されており、16チャネルの容量でも性能を維持でき、Mask R-CNNと比較して130倍少ないパラメータと23倍少ないFLOPsで35.8 APを達成する。

実験結果

リサーチクエスチョン

RQ1形状事前分布を中間表現として学習することで、新しいカテゴリにおけるインスタンスセグメンテーションの一般化が向上するか？
RQ2ゼロショットおよびフェイントショット設定において、形状事前分布とインスタンス埋め込みの組み合わせは、従来の検出またはグループ化ベースの手法と比較してどのように異なるか？
RQ3軽量マスクブランチは、モデルサイズとFLOPsを削減しながらも、どれほど高い精度を維持できるか？
RQ4不正確な検出、限られたトレーニングデータ、および制限されたモデル容量に対して、ShapeMaskはどれほどロバストか？
RQ5完全教師あり設定において、ShapeMaskはSOTAを上回る性能を達成できるか？また、SOTAより4倍速いトレーニングが可能か？

主な発見

クロスカテゴリインスタンスセグメンテーションにおいて、ShapeMaskはSOTAを6.4 AP上回り、より大きなバックボーンを用いることで9.4 APの向上を達成した。
ラベル付きデータの1%のみを用いてもSOTAを上回り、フェイントショット一般化の強さを示した。
16チャネルのマスクブランチを用いることで、ShapeMaskは35.8 APを達成した—これはMask R-CNNより0.4 AP高いが、パラメータは130倍少なく、FLOPsは23倍少ない。
推論時間は150ms、TPU上で11時間でトレーニング可能で、アーキテクチャの最適化によりSOTAより4倍速いトレーニングが可能だった。
完全教師あり設定では、COCOで37.2 APを達成し、同じResNet-101-FPNバックボーンを用いたMask R-CNNやRetinaNetを上回った。
ShapeMaskはオブジェクト検出器としても強力に機能し、ResNet-101-FPNで42.0 AP、より大きなNAS-FPNバックボーンでは45.4 APを達成し、RetinaNetやMask R-CNNを上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。