QUICK REVIEW

[論文レビュー] SOLOv2: Dynamic and Fast Instance Segmentation

Xinlong Wang, Rufeng Zhang|arXiv (Cornell University)|Mar 23, 2020

Advanced Neural Network Applications参考文献 40被引用数 476

ひとこと要約

SOLOv2はボックスフリーの完全畳み込みインスタンスセグメンテーションフレームワークを導入し、動的に生成されたカーネルと統一された高解像度マスク特徴を位置情報を使って予測し、後処理には高速Matrix NMSを組み合わせることで、COCOとLVISで最先端の速度/精度を達成します。

ABSTRACT

In this work, we aim at building a simple, direct, and fast instance segmentation framework with strong performance. We follow the principle of the SOLO method of Wang et al. "SOLO: segmenting objects by locations". Importantly, we take one step further by dynamically learning the mask head of the object segmenter such that the mask head is conditioned on the location. Specifically, the mask branch is decoupled into a mask kernel branch and mask feature branch, which are responsible for learning the convolution kernel and the convolved features respectively. Moreover, we propose Matrix NMS (non maximum suppression) to significantly reduce the inference time overhead due to NMS of masks. Our Matrix NMS performs NMS with parallel matrix operations in one shot, and yields better results. We demonstrate a simple direct instance segmentation system, outperforming a few state-of-the-art methods in both speed and accuracy. A light-weight version of SOLOv2 executes at 31.3 FPS and yields 37.1% AP. Moreover, our state-of-the-art results in object detection (from our mask byproduct) and panoptic segmentation show the potential to serve as a new strong baseline for many instance-level recognition tasks besides instance segmentation. Code is available at: https://git.io/AdelaiDet

研究の動機と目的

より単純な、ボックスを使わないインスタンスセグメンテーションのアプローチを提案する。
高解像度のインスタンスマスクを生成するための動的で位置条件付きのマスク生成メカニズムを開発する。
マスク予測とポストプロセッシングのボトルネックを排除し、速度を向上させつつ精度を犠牲にしない。
COCOとLVISの両方での強い性能を示し、物体検出やパンオプティックセグメンテーションへの拡張も検討する。

提案手法

画像特徴に conditionedされた学習済みのD次元カーネルを用いて各位置のマスクカーネルを動的に予測する。
FPNレベル間で共有される統一された高解像度マスク特徴表現を計算する。
動的に生成されたカーネルをマスク特徴と畳み込み、位置ごとのインスタンスマスクを生成する。
CoordConv強化入力を用いて、マスクカーネルブランチへ明示的な空間座標を注入する。
Matrix NMSを適用して重複したマスク予測を並列に抑制し、速度と精度を向上させる。
必要に応じて予測マスクから境界ボックスを導出し、別途ボックスの学習を行わずにボックスベースの結果を得る。

実験結果

リサーチクエスチョン

RQ1ボックスを使わない直接的なフレームワークが、位置条件付きのマスク予測によって競合的なインスタンスセグメンテーションを実現できるか。
RQ2マスクカーネル学習とマスク特徴学習を分離することが、効率と精度を向上させるか。
RQ3並列の行列ベースNMS（Matrix NMS）が従来のNMSやFast NMSよりマスクで優れるか。
RQ4明示的な座標情報と統一マスク特徴が、オブジェクトスケール全体でマスク品質に与える影響は何か。
RQ5SOLOv2はCOCOとLVISで精度と速度の両方でどの程度 performantか、検出とパンオプティックセグメンテーションへの拡張可能性はどうか。

主な発見

バックボーン	AP	AP50	AP75	AP_S	AP_M	AP_L
Mask R-CNN (Res-101-FPN)	35.7	58.0	37.8	15.5	38.1	52.4
Mask R-CNN* (Res-101-FPN)	37.8	59.8	40.7	20.5	40.4	49.3
MaskLab+ (Res-101-C4)	37.3	59.8	39.6	16.9	39.9	53.5
TensorMask (Res-101-FPN)	37.1	59.3	39.4	17.4	39.1	51.6
YOLACT (Res-101-FPN)	31.2	50.6	32.8	12.1	33.3	47.1
MEInst (Res-101-FPN)	33.9	56.2	35.4	19.8	36.1	42.3
CenterMask (Hourglass-104)	34.5	56.1	36.3	16.3	37.4	48.4
BlendMask (Res-101-FPN)	38.4	60.7	41.3	18.2	41.5	53.3
PolarMask (Res-101-FPN)	32.1	53.7	33.1	14.7	33.8	45.3
SOLO (Res-101-FPN)	37.8	59.5	40.4	16.4	40.6	54.2
SOLOv2 (Res-50-FPN)	38.8	59.9	41.7	16.5	41.7	56.2
SOLOv2 (Res-101-FPN)	39.7	60.7	42.9	17.3	42.9	57.4
SOLOv2 (Res-DCN-101-FPN)	41.7	63.2	45.1	18.0	45.0	61.6

SOLOv2はCOCOにおける速度-精度の最先端トレードオフを達成しており、例としてResNet-50-FPNで18 FPS時に38.8% AP、軽量版では37.1% APを達成。
SOLOv2 with Res-DCN-101-FPNはCOCO test-dev設定のボックスベース検出で41.7%マスクAPと61.6 mAPを達成。
Matrix NMSは500マスクを1 ms未満で処理し、Fast NMSを0.4% AP上回る。
統一マスク特徴表現は、FPNレベルごとの別々のマスクよりも良い性能を発揮し、特に中〜大型オブジェクトで効果を発揮。
SOLOv2はCOCOとLVISの多くのボックス系およびボックスフリーのベースラインを凌ぎ、大型オブジェクトでのAP_Lの改善など notable gainsがある。
マスクから導かれる境界ボックス副産物は競争力のある結果を示し、いくつかの設定で従来の検出器を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。