[論文レビュー] Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network
単一のネットワーク(JSIS-Net)を提案し、意味セグメンテーションとインスタンスセグメンテーションを同時に予測し、ヒューリスティックで出力を統合してパノプティックセグメンテーションを実現する。 joint training により COCO および Mapillary Vistas データセットで競争力のある PQ を達成。
We present a single network method for panoptic segmentation. This method combines the predictions from a jointly trained semantic and instance segmentation network using heuristics. Joint training is the first step towards an end-to-end panoptic segmentation network and is faster and more memory efficient than training and predicting with two networks, as done in previous work. The architecture consists of a ResNet-50 feature extractor shared by the semantic segmentation and instance segmentation branch. For instance segmentation, a Mask R-CNN type of architecture is used, while the semantic segmentation branch is augmented with a Pyramid Pooling Module. Results for this method are submitted to the COCO and Mapillary Joint Recognition Challenge 2018. Our approach achieves a PQ score of 17.6 on the Mapillary Vistas validation set and 27.2 on the COCO test-dev set.
研究の動機と目的
- 物体と背景を両方含むパノプティックセグメンテーションを統合タスクとして動機づける。
- 意味セグメンテーションとインスタンスセグメンテーションを共同で学習し、エンドツーエンドのパノプティック出力を可能にする単一ネットワークを開発する。
- aResNet-50 ボトムアップを共有し、二つのブランチを同時に訓練することでメモリと計算量を削減する。
- 意味出力とインスタンス出力をパノプティック予測に結合するマージヒューリスティクスを導入する。
提案手法
- 意味セグメンテーションとインスタンスセグメンテーションのブランチの両方に共通の ResNet-50 ボトムを使用する。
- Pyramid Pooling Module とハイブリッドアップサンプリングを用いて意味ブランチを強化し、全画像解像度へ到達させる。
- RPN 提案と提案ごとのマスクを用いた Mask R-CNN に基づくインスタンスセグメンテーションブランチを実装する。
- 学習可能な重み(lambda1...lambda7)で複数タスク損失をバランスさせ、単一のジョイント損失 Ltot を形成する。
- 重なり合うマスクを解消し、things/stuff の予測の衝突を解決するためにヒューリスティクスを介して意味出力とインスタンス出力を結合し、画素ごとのクラスIDとインスタンスIDを生成する。
実験結果
リサーチクエスチョン
- RQ1単一ネットワークで意味セグメンテーションとインスタンスセグメンテーションを共同訓練することは、独立したモデルと比較してパノプティックセグメンテーションの性能を向上させるか?
- RQ2意味ブランチとインスタンスブランチの予測をどのようにマージして、正確なパノプティック出力を生成すべきか?
- RQ3COCOやMapillary Vistasのような多様なデータセットに対する共有バックボーンアプローチの制限は何か?
- RQ4小さなオブジェクト検出やthingsとstuffの境界衝突に対してこのアプローチは頑健か?
主な発見
| データセット | PQ | SQ | RQ | PQ 閾値 | SQ 閾値 | RQ 閾値 | PQ St | SQ St | RQ St |
|---|---|---|---|---|---|---|---|---|---|
| Mapillary Vistas val | 17.6 | 55.9 | 23.5 | 10.0 | 47.6 | 14.1 | 27.5 | 66.9 | 35.8 |
| COCO test-dev | 27.2 | 71.9 | 35.9 | 29.6 | 71.6 | 39.4 | 23.4 | 72.3 | 30.6 |
| COCO val | 26.9 | 72.4 | 35.7 | 29.3 | 72.1 | 39.2 | 23.3 | 73.0 | 30.4 |
- ジョイント訓練は Mapillary Vistas Val において PQ、mIoU、および mAP_0.5 を独立に訓練されたブランチより改善する。
- Mapillary Vistas では、ジョイント訓練モデルは mIoU 34.7、mAP 0.5 8.4、PQ 17.4 を達成し、意味のみ(mIoU 33.6)およびインスタンスのみ(mAP 0.5 6.5)のベースラインを上回る。
- COCO では、PQ 27.2(test-dev)と 26.9(val)を達成し、thingsとstuffの両方で高い SQ、および競争力のある RQ を示す(表を参照)。
- RPN recall はデータセット依存性がある;COCO val の mean recall は 0.827 対 Mapillary Vistas val の 0.363 で、Mapillary で RPN ボトルネックがありインスタンスセグメンテーションの性能に影響することを示している。
- マージヒューリスティクスはインスタンス予測を優先し、各ピクセルを最高のピクセルごとのインスタンス確率に割り当てることと、適用可能な場合にはセマンティックなstuff予測をインスタンスベースのラベルに置換することによって、重複したピクセル割り当てを排除する。
- 提案されたジョイントフレームワークはメモリ効率が高く、二つの別々のネットワークを実行するよりも高速だが、いくつかの指標でベースラインのパノプティック法には遅れをとる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。