QUICK REVIEW

[論文レビュー] EmbedMask: Embedding Coupling for One-stage Instance Segmentation

Hui Ying, Zhaojin Huang|arXiv (Cornell University)|Dec 4, 2019

Advanced Neural Network Applications参考文献 33被引用数 34

ひとこと要約

EmbedMask は提案埋め込みとピクセル埋め込みをワンステージフレームワークで組み合わせ、RoI poolingを用いず高解像度のインスタンスセグメンテーションを実現。Mask R-CNNと競合する結果を達成しつつ高速。

ABSTRACT

Current instance segmentation methods can be categorized into segmentation-based methods that segment first then do clustering, and proposal-based methods that detect first then predict masks for each instance proposal using repooling. In this work, we propose a one-stage method, named EmbedMask, that unifies both methods by taking advantages of them. Like proposal-based methods, EmbedMask builds on top of detection models making it strong in detection capability. Meanwhile, EmbedMask applies extra embedding modules to generate embeddings for pixels and proposals, where pixel embeddings are guided by proposal embeddings if they belong to the same instance. Through this embedding coupling process, pixels are assigned to the mask of the proposal if their embeddings are similar. The pixel-level clustering enables EmbedMask to generate high-resolution masks without missing details from repooling, and the existence of proposal embedding simplifies and strengthens the clustering procedure to achieve high speed with higher performance than segmentation-based methods. Without any bells and whistles, EmbedMask achieves comparable performance as Mask R-CNN, which is the representative two-stage method, and can produce more detailed masks at a higher speed. Code is available at github.com/yinghdb/EmbedMask.

研究の動機と目的

検出の強さとピクセルレベルの埋め込みによるクラスタリングの両方を活用して、ワンステージとツーステージのインスタンスセグメンテーション間のギャップを埋める。
RoI poolingなしで埋め込みベースのクラスタリングを可能にするために、ピクセル埋め込みと提案埋め込みを導入する。
多段階（マルチスケール）オブジェクトに適応するため、 per-instance margins (Sigma) を学習する。
マスク関連の監督を含むマルチタスク損失でエンドツーエンドに訓練する。
ワンステージのアプローチが、マスクの詳細と速度を改善しつつCOCOで競争力のある性能を達成できることを示す。

提案手法

主にFCOSをワンステージ検出のバックボーンとして構築する。
FPNの最大特徴マップからピクセル埋め込み (p) を予測するPixel Headを追加する。
提案ヘッドを追加して、提案ごとの埋め込み (q) と提案マージン (sigma) を予測する。
ピクセル埋め込みが対応する提案埋め込みに近い場合に、ピクセルをその提案のマスクに割り当てる埋め込み結合を定義し、マスク確率を得るための学習可能なガウス様写像 phi を使用する。
多段階オブジェクトへ適応するため、ガウスカーネルを用いて学習可能な per-instance margins Sigma_k を導入する。
トレーニング時にQ_kとSigma_kを正のサンプルの平均と整合させる滑らかな損失を定義し、訓練と推論の整合性を確保する。
L_cls + L_center + L_box + lambda1 L_mask + lambda2 L_smooth という多タスク損失を最適化し、L_mask がピクセル・提案埋め込みの整合とマスク確率を Lovasz hinge loss によって導く。

実験結果

リサーチクエスチョン

RQ1単一段階のインスタンスセグメンテーションフレームワークは、COCOでMask R-CNNのような二段階モデルと競合する性能を達成できるか？
RQ2埋め込み結合を持つピクセル埋め込みと提案埋め込みは、高速性を維持しつつより高忠実度のマスクを提供するか？
RQ3固定マージンと比較して、学習可能な per-instance margins はマルチスケールのオブジェクトマスクのクラスタリングを改善するか？
RQ4ピクセルと提案の別々の埋め込みを予測し、それらの類似度を用いてピクセルのインスタンス割り当てを導くことは有益か？
RQ5RoI pooling を回避しつつ詳細なマスクを維持すると、精度を犠牲にせずに速度の利点を得られるか？

主な発見

EmbedMask は Mask R-CNN に対して競争力のある COCO 結果を達成する（同じ学習設定の下で、マスク AP のギャップがわずか）。
ワンショットアプローチは RoI pooling を避け、ピクセル埋め込みから高解像度で直接マスクを予測することで、より詳細なマスクを生成する。
学習可能な per-instance margins (Sigma) はマスク性能を向上させ、マルチスケールオブジェクトへ適応し、固定マージン構成よりも優れている。
埋め込み結合（ピクセル埋め込み p と提案埋め込み Q）とガウスベースのマスク確率 phi は、ピクセルからインスタンスへの割り当てとマスク品質を向上させる。
複数の構成で Mask R-CNN より推論が速く、AP は同等またはそれ以上を示す（例：COCOで ResNet-101/50 バックボーン時に 13.7–16.7 fps vs 8.7–8.6 fps）。
EmbedMask-600 は速度を優先して精度を若干犠牲にし、入力サイズを小さくして高速推論を実現。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。