Skip to main content
QUICK REVIEW

[論文レビュー] Panoptic Feature Pyramid Networks

Alexander Kirillov, Ross Girshick|arXiv (Cornell University)|Jan 8, 2019
Advanced Neural Network Applications参考文献 56被引用数 61
ひとこと要約

Panoptic FPN は、FPN をバックボーンとする Mask R-CNN に軽量なセマンティックセグメンテーション分岐を追加し、単一のネットワークでインスタンスとセマンティックセグメンテーションおよびそれらの結合パノプティックセグメンテーションを競争力のある精度と計算量の削減で実行できるようにする。

ABSTRACT

The recently introduced panoptic segmentation task has renewed our community's interest in unifying the tasks of instance segmentation (for thing classes) and semantic segmentation (for stuff classes). However, current state-of-the-art methods for this joint task use separate and dissimilar networks for instance and semantic segmentation, without performing any shared computation. In this work, we aim to unify these methods at the architectural level, designing a single network for both tasks. Our approach is to endow Mask R-CNN, a popular instance segmentation method, with a semantic segmentation branch using a shared Feature Pyramid Network (FPN) backbone. Surprisingly, this simple baseline not only remains effective for instance segmentation, but also yields a lightweight, top-performing method for semantic segmentation. In this work, we perform a detailed study of this minimally extended version of Mask R-CNN with FPN, which we refer to as Panoptic FPN, and show it is a robust and accurate baseline for both tasks. Given its effectiveness and conceptual simplicity, we hope our method can serve as a strong baseline and aid future research in panoptic segmentation.

研究の動機と目的

  • 単一のネットワークアーキテクチャ内でインスタンス分割とセマンティック分割を統一することを目指す。
  • 領域ベースの出力に加えて密なピクセルラベリングをサポートするよう、Mask R-CNN with FPN の最小限の拡張を評価する。
  • COCO および Cityscapes でのインスタンス分割、セマンティック分割、パノプティック分割の性能を評価する。
  • パノプティック設定におけるマルチタスク学習の訓練ダイナミクスと損失バランシングを調査する。

提案手法

  • バックボーンとして Mask R-CNN with FPN から始める。
  • 複数スケールの FPN 特徴を統合して密なピクセルごとの出力にする、軽量なセマンティックセグメンテーション分岐を取り付ける。
  • L = lambda_i * (classification + box + mask) + lambda_s * semantic_loss の結合損失で訓練し、lambda_i および lambda_s を調整する。
  • セマンティック分岐は各 FPN レベルを 1/4 スケールへアップサンプルし、全レベルの特徴を加算してピクセル単位のクラススコアを生成する設計。
  • 推論時には、パノプティック分割要件に一致するよう、インスタンスとセマンティック予測のオーバーラップを解消するポスト処理を含む。

実験結果

リサーチクエスチョン

  • RQ1最小限に拡張された単一の Mask R-CNN with FPN は、インスタンス分割とセマンティック分割の両方のタスクで高い性能を達成できるか?
  • RQ2セマンティック分岐を用いた結合訓練は、インスタンス分割の精度を向上させるか、少なくとも害を及ぼさないか、そしてその逆はどうか?
  • RQ3同様の計算予算の下で、Panoptic FPN は2つの別々のネットワークと比較してパノプティック分割の性能はどうか?
  • RQ4アーキテクチャの選択と損失の重み付けがマルチタスク訓練の安定性と性能に与える影響は?

主な発見

  • Panoptic FPN は、共同訓練時に、インスタンス分割とセマンティック分割の双方で競争力のあるまたは優れた結果を達成し、2つの別々のネットワークと比較して約半分の計算量となる。
  • Semantic segmentation with the lightweight dense-prediction branch on FPN yields competitive mIoU scores on COCO and Cityscapes without dilation-based backbones.
  • Joint training with proper loss weighting can improve one task while maintaining or improving the other, enabling effective multi-task learning for stuff and thing segmentation.
  • Panoptic segmentation with a single FPN backbone outperforms comparable single-model entries on COCO test-dev and Cityscapes when compared under similar budgets, establishing Panoptic FPN as a strong baseline.
  • A simple aggregation (sum) of multi-scale features for the semantic branch is effective and more efficient than concatenation.
  • Using a single network for panoptic segmentation can match the accuracy of dual-network approaches while significantly reducing compute; in some cases it outperforms them.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。