Skip to main content
QUICK REVIEW

[논문 리뷰] Panoptic Feature Pyramid Networks

Alexander Kirillov, Ross Girshick|arXiv (Cornell University)|2019. 01. 08.
Advanced Neural Network Applications참고 문헌 56인용 수 61
한 줄 요약

Panoptic FPN은 FPN 백본을 가진 Mask R-CNN에 경량의 시맨틱 세그멘테이션 분기를 추가하여 단일 네트워크가 인스턴스 및 시맨틱 세그멘테이션과 이를 공동으로 수행하는 팬노픽 세그멘테이션을 가능하게 하며 경쟁력 있는 정확도와 감소된 계산량을 제공합니다.

ABSTRACT

The recently introduced panoptic segmentation task has renewed our community's interest in unifying the tasks of instance segmentation (for thing classes) and semantic segmentation (for stuff classes). However, current state-of-the-art methods for this joint task use separate and dissimilar networks for instance and semantic segmentation, without performing any shared computation. In this work, we aim to unify these methods at the architectural level, designing a single network for both tasks. Our approach is to endow Mask R-CNN, a popular instance segmentation method, with a semantic segmentation branch using a shared Feature Pyramid Network (FPN) backbone. Surprisingly, this simple baseline not only remains effective for instance segmentation, but also yields a lightweight, top-performing method for semantic segmentation. In this work, we perform a detailed study of this minimally extended version of Mask R-CNN with FPN, which we refer to as Panoptic FPN, and show it is a robust and accurate baseline for both tasks. Given its effectiveness and conceptual simplicity, we hope our method can serve as a strong baseline and aid future research in panoptic segmentation.

연구 동기 및 목표

  • 단일 네트워크 아키텍처 내에서 인스턴스와 시맨틱 세그멘테이션을 통합하려는 목표.
  • dense pixel labeling을 지역 기반 출력과 함께 지원하기 위해 FPN이 있는 Mask R-CNN의 최소 확장을 평가합니다.
  • COCO와 Cityscapes에서 인스턴스 세그멘테이션, 시맨틱 세그멘테이션, 팬노픽 세그멘테이션에 대한 성능을 평가합니다.
  • 팬노픽 설정에서 다중 작업 학습의 훈련 역학 및 손실 균형을 조사합니다.

제안 방법

  • Backbone으로 Mask R-CNN with FPN에서 시작합니다.
  • 다양한 스케일의 FPN 특성을 하나의 밀집 픽셀 출력으로 합치는 경량의 시맨틱 세그멘테이션 분기를 부착합니다.
  • joint 손실 L = lambda_i * (classification + box + mask) + lambda_s * semantic_loss를 사용하여 학습하고 lambda_i와 lambda_s를 조정합니다.
  • 시맨틱 분기 설계는 각 FPN 레벨을 1/4 스케일로 업샘플하고 모든 레벨의 특징을 합산하여 픽셀 단위의 클래스 점수를 생성합니다.
  • 추론 시 팬노픽 세그멘테이션 요구사항에 일치하도록 인스턴스 예측과 시맨틱 예측 간 중첩을 해결하는 후처리를 포함합니다.

실험 결과

연구 질문

  • RQ1하나의 최소한으로 확장된 Mask R-CNN with FPN이 인스턴스와 시맨틱 세그멘테이션 작업에서 강력한 성능을 달성할 수 있을까요?
  • RQ2시맨틱 분기를 포함한 공동 학습이 인스턴스 세그멘테이션 정확도를 개선하거나 적어도 손해를 주지 않나요, 그리고 그 반대도 마찬가지인가요?
  • RQ3유사한 계산 예산에서 두 개의 독립 네트워크와 비교했을 때 Panoptic FPN은 팬노픽 세그멘테이션에서 어떻게 성능을 보이나요?
  • RQ4다중 작업 학습의 안정성과 성능에 대한 아키텍처 선택 및 손실 가중치의 영향은 무엇인가요?

주요 결과

설정APPQ ThmIoUPQ StPQ
COCO Panoptic FPN original (R50-FPN × 2)33.946.640.227.939.2
COCO Panoptic FPN combined (R50-FPN × 2)33.345.941.028.739.0
Cityscapes Panoptic FPN original (R50-FPN × 2)32.251.374.562.257.7
Cityscapes Panoptic FPN combined (R50-FPN × 2)32.051.675.062.257.7
  • Panoptic FPN은 공동 학습 시 인스턴스와 시맨틱 세그멘테이션 모두에 대해 경쟁력 있거나 우수한 결과를 달성하며, 두 개의 독립 네트워크에 비해 약 절반의 계산량으로 달성합니다.
  • FPN의 경량 밀집 예측 분기로 시맨틱 세그멘테이션을 수행하면 dilation 기반 백본 없이도 COCO 및 Cityscapes에서 경쟁력 있는 mIoU를 얻습니다.
  • 적절한 손실 가중치 조합을 통한 공동 학습은 한 작업을 개선하면서 다른 작업을 유지하거나 개선할 수 있어, stuff와 thing 세그멘테이션을 위한 효과적인 다중 작업 학습이 가능합니다.
  • 단일 FPN 백본으로 수행한 팬노픽 세그멘테이션은 유사한 예산에서 COCO test-dev 및 Cityscapes의 비교 가능한 단일 모델 항목보다 우수한 성능을 보이며, Panoptic FPN을 강력한 기준선으로 설정합니다.
  • 시맨틱 분기에 다중 스케일 특징의 간단한 합계(sum) 집계가 연결(concatenation)보다 효과적이고 더 효율적입니다.
  • 팬노픽 세그멘테이션을 단일 네트워크로 수행하면 이중 네트워크 접근법의 정확도에 필적하거나 이를 능가하면서도 계산량을 크게 줄일 수 있으며, 경우에 따라 이들이 더 나은 성능을 보이기도 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.