[論文レビュー] PolarMask: Single Shot Instance Segmentation with Polar Representation
PolarMaskは、単発のアンカーボックスフリーのインスタンスセグメンテーション手法を導入し、マスクを極座標の輪郭としてモデル化します。インスタンス中心の分類と密な距離回帰を用い、Polar IoU LossとPolar Centernessで精度を向上させます。
In this paper, we introduce an anchor-box free and single shot instance segmentation method, which is conceptually simple, fully convolutional and can be used as a mask prediction module for instance segmentation, by easily embedding it into most off-the-shelf detection methods. Our method, termed PolarMask, formulates the instance segmentation problem as instance center classification and dense distance regression in a polar coordinate. Moreover, we propose two effective approaches to deal with sampling high-quality center examples and optimization for dense distance regression, respectively, which can significantly improve the performance and simplify the training process. Without any bells and whistles, PolarMask achieves 32.9% in mask mAP with single-model and single-scale training/testing on challenging COCO dataset. For the first time, we demonstrate a much simpler and flexible instance segmentation framework achieving competitive accuracy. We hope that the proposed PolarMask framework can serve as a fundamental and strong baseline for single shot instance segmentation tasks. Code is available at: github.com/xieenze/PolarMask.
研究の動機と目的
- アンカーボックスなしで、よりシンプルな単発フレームワークをインスタンスセグメンテーションに動機づける。
- ピクセル単位のアプローチに比べて複雑さを削減するため、極座標輪郭表現でマスクをモデル化する。
- 極幾何学に合わせた学習ターゲットを開発する(中心分類と密な距離回帰)。
- Polar IoU LossとPolar Centernessで訓練の安定性と精度を改善する。
- 単純で高速な推論と比較して、COCOで競争力のある結果を示す。
提案手法
- 各オブジェクトのマスクを、輪郭へと向かう中心とN本の光線(極座標)で表現する。
- sampled centers から中心のオブジェクト性(分類)と密な光線長(距離回帰)を予測する。
- mass-centerをボックス中心より好ましい中心サンプリングとして、カバレッジを改善する。
- Polar Centernessを導入して、光線長のバランスに基づいて中心サンプルの重み付けを行う。
- Polar IoU Lossを定義して、極空間でのマスクIoUの全光線回帰を最適化する。
- 極光線長を輪郭点に変換し、予測マスク上でNMSを実施してマスクを組み立てる。
実験結果
リサーチクエスチョン
- RQ1中心から極座標の輪郭半径を予測することで、単発・アンカーボックスフリーのモデルが競争力のあるインスタンスセグメンテーションを達成できるか?
- RQ2Polar IoU LossとPolar Centernessは、極表現フレームワークにおける訓練の安定性とマスクの精度を向上させるか?
- RQ3信頼性のあるマスク予測のために、mass-centerベースのサンプリングはbox-centerサンプリングより優れているか?
- RQ4標準的なトレーニング/テストの下で、PolarMaskはCOCOの既存のワンステージおよびツーステージの手法とどのように比較されるか?
- RQ5光線の本数とバックボーンが分割性能と速度に与える影響は何か?
主な発見
| Method | Backbone | Epochs | Aug | AP | AP50 | AP75 | AP_S | AP_M | AP_L |
|---|---|---|---|---|---|---|---|---|---|
| PolarMask | ResNet-101-FPN | 12 | × | 30.4 | 51.9 | 31.0 | 13.4 | 32.4 | 42.8 |
| PolarMask | ResNet-101-FPN | 24 | ✓ | 32.1 | 53.7 | 33.1 | 14.7 | 33.8 | 45.3 |
| PolarMask | ResNeXt-101-FPN | 12 | × | 32.9 | 55.4 | 33.8 | 15.5 | 35.1 | 46.3 |
| PolarMask | ResNeXt-101-FPN-DCN | 24 | ✓ | 36.2 | 59.4 | 37.7 | 17.8 | 37.7 | 51.5 |
- PolarMaskはCOCO上でResNet-101-FPNを用いた単一モデル・単一スケールの訓練/推論で32.9%のマスクAPを達成。
- 光線の本数を増やすと、飽和に向かう上限のマスクIoUが改善され、より多くの光線でAPが72本前後まで向上し、それ以降は改善が頭打ちになる。
- 密な光線回帰のためのSmooth L1よりもPolar IoU Lossが優れており、アブレーションでAPを約2.6ポイント向上。
- Polar Centernessは特にIoU75のAPおよび大サイズのインスタンス(AP_L)で有意な利得をもたらす。
- mass-centerを中心サンプルとして使用する方が箱中心よりマスク予測に有効であり、箱ブランチを追加してもマスク性能への寄与は小さい。
- ResNeXt-101-FPN-DCNのようなバックボーンで、報告ベスト設定は最大で36.2 AP(24エポック訓練)およびCOCO test-devで最大59.4 AP50に達し、テンソルベースの代替よりも推論が高速。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。