[論文レビュー] SOLO: Segmenting Objects by Locations
SOLOはインスタンス分割を2つのピクセルレベルの分類タスクとして再定義し、各グリッドセルにオブジェクトの中心位置とサイズを割り当てることで、ボックスなしの直接的なワンショットマスク予測を可能にします。Mask R-CNNと競合する精度を達成し、従来の単一ショット手法を上回ります。
We present a new, embarrassingly simple approach to instance segmentation in images. Compared to many other dense prediction tasks, e.g., semantic segmentation, it is the arbitrary number of instances that have made instance segmentation much more challenging. In order to predict a mask for each instance, mainstream approaches either follow the 'detect-thensegment' strategy as used by Mask R-CNN, or predict category masks first then use clustering techniques to group pixels into individual instances. We view the task of instance segmentation from a completely new perspective by introducing the notion of "instance categories", which assigns categories to each pixel within an instance according to the instance's location and size, thus nicely converting instance mask segmentation into a classification-solvable problem. Now instance segmentation is decomposed into two classification tasks. We demonstrate a much simpler and flexible instance segmentation framework with strong performance, achieving on par accuracy with Mask R-CNN and outperforming recent singleshot instance segmenters in accuracy. We hope that this very simple and strong framework can serve as a baseline for many instance-level recognition tasks besides instance segmentation.
研究の動機と目的
- オブジェクトのインスタンスを位置とサイズで区別する方法を再考する。
- 中心位置と特徴ピラミッドレベルに基づくインスタンスカテゴリを導入する。
- 後処理なしのエンドツーエンド、単一ショットフレームワークでマスクとクラスを出力する。
- CoordConvを活用してCNNに空間情報を埋め込む。
- 既存手法と比較してCOCOでの強力な性能を示す。
提案手法
- 画像を S x S のグリッドに分割する。各セルは意味カテゴリと、そのセルに中心があるオブジェクトのインスタンスマスクを予測する。
- 異なるスケールのオブジェクトを処理するためにFPNを使用し、異なる特徴レベルに割り当てる。
- FPNレベルごとに2つの予測ヘッド(カテゴリとマスク)を共有重みで付け、マスクはグリッド位置に条件付けされる。
- CoordConvを取り入れ、入力特徴にピクセル座標を連結して空間的に変化する予測を可能にする。
- L = L_cate + λ L_mask という結合損失で訓練し、L_maskは安定したマスク最適化のためDice損失を使用する。
実験結果
リサーチクエスチョン
- RQ1バウンディングボックス提案やピクセル単位のクラスタリングなしで、単一ショット直接にインスタンス分割を実行できるか。
- RQ2インスタンスの場所とオブジェクトサイズをインスタンスカテゴリにエンコードすることで、ピクセルごとのマスク予測の精度を高められるか。
- RQ3グリッドサイズ、FPNレベル、CoordConvはセグメンテーション精度にどのような影響を与えるか。
- RQ4SOLOはCOCOで最先端の2段階・1段階手法と比較してどうか。
- RQ5分離型SOLOの潜在的な効率向上はどの程度か。
主な発見
| backbone | AP | AP 50 | AP 75 | AP S | AP M | AP L | |
|---|---|---|---|---|---|---|---|
| Mask R-CNN ∗ | 37.8 | 59.8 | 40.7 | 20.5 | 40.4 | 49.3 | |
| TensorMask | 35.4 | 57.2 | 37.3 | 16.3 | 36.8 | 49.3 | |
| YOLACT | 31.2 | 50.6 | 32.8 | 12.1 | 33.3 | 47.1 | |
| PolarMask | 30.4 | 51.9 | 31.0 | 13.4 | 32.4 | 42.8 | |
| SOLO | 36.8 | 58.6 | 39.0 | 15.9 | 39.5 | 52.1 | |
| SOLO | Res-101-FPN | 37.8 | 59.5 | 40.4 | 16.4 | 40.6 | 54.2 |
| D-SOLO | Res-101-FPN | 38.4 | 59.6 | 41.1 | 16.8 | 41.5 | 54.6 |
| D-SOLO | Res-DCN-101-FPN | 40.5 | 62.4 | 43.7 | 17.7 | 43.6 | 59.3 |
- SOLOはResNet-101-FPNで37.8%のマスクAPを達成し、Mask R-CNNと競合(37.8%対37.8%を表のとおりに調整済みの値に注意)。
- SOLOは従来の単一ショット手法を上回り、COCO test-devで2段階手法に近づくか、それを超える。
- 分離型SOLO(XとYブランチ)はDCN-101-FPNで40.5 APを出し、メモリ使用量を削減。
- CoordConvは標準の畳み込みよりAPを大幅に向上させる(約3.6ポイントまで)。
- Dice損失は、テストした損失関数の中で最良のマスクAPと訓練安定性を提供する。
- より大きなグリッドと多層FPNで、SOLOはCOCO-valで35.8 APに到達し、オブジェクトサイズ全体でのスケーラビリティを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。