Skip to main content
QUICK REVIEW

[논문 리뷰] Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network

Daan de Geus, Panagiotis Meletis|arXiv (Cornell University)|2018. 09. 06.
Advanced Neural Network Applications참고 문헌 14인용 수 71
한 줄 요약

한 네트워크(JSIS-Net)를 제안하여 시맨틱 및 인스턴스 분할을 함께 예측하고 휴리스틱으로 출력을 병합하여 팬토픽(segmentation)을 생성하며, joint training으로 COCO 및 Mapillary Vistas 데이터셋에서 경쟁력 있는 PQ를 달성함.

ABSTRACT

We present a single network method for panoptic segmentation. This method combines the predictions from a jointly trained semantic and instance segmentation network using heuristics. Joint training is the first step towards an end-to-end panoptic segmentation network and is faster and more memory efficient than training and predicting with two networks, as done in previous work. The architecture consists of a ResNet-50 feature extractor shared by the semantic segmentation and instance segmentation branch. For instance segmentation, a Mask R-CNN type of architecture is used, while the semantic segmentation branch is augmented with a Pyramid Pooling Module. Results for this method are submitted to the COCO and Mapillary Joint Recognition Challenge 2018. Our approach achieves a PQ score of 17.6 on the Mapillary Vistas validation set and 27.2 on the COCO test-dev set.

연구 동기 및 목표

  • 팬토픽 분할을 물체(things)와 배경(stuff)을 모두 포괄하는 통합 과제로 동기부여한다.
  • 시맨틱 분할과 인스턴스 분할을 함께 학습하는 단일 네트워크를 개발하여 엔드-투-엔드 팬토픽 출력을 가능하게 한다.
  • aResNet-50 백본을 공유하고 두 가지 분기를 함께 훈련하여 메모리 및 컴퓨트를 감소시킨다.
  • 시맨틱 출력과 인스턴스 출력을 팬토픽 예측으로 결합하기 위한 병합 휴리스틱을 도입한다.

제안 방법

  • 시맨틱 및 인스턴스 분할 분기 모두를 위해 공유된 ResNet-50 백본을 사용한다.
  • Pyramid Pooling Module과 하이브리드 업샘플링으로 시맨틱 분기를 전체 이미지 해상도로 향상시킨다.
  • RPN 제안과 제안당 마스크를 갖춘 Mask R-CNN 기반의 인스턴스 분할 분기를 구현한다.
  • 여러 작업 손실을 학습 가능한 가중치(lambda1...lambda7)로 균형 맞추어 단일 결합 손실 Ltot를 형성한다.
  • 중첩 마스크와 물체/배경 예측의 충돌을 해결하기 위해 시맨틱과 인스턴스 출력을 휴리스틱으로 병합하고, 픽셀 단위의 클래스 및 인스턴스 ID를 생성한다.

실험 결과

연구 질문

  • RQ1단일 네트워크에서 시맨틱 및 인스턴스 분할의 공동 학습이 독립 모델에 비해 팬토픽 분할 성능을 향상시킬 수 있는가?
  • RQ2시맨틱 및 인스턴스 분기에서 나온 예측을 팬토픽 출력으로 정확하게 병합하려면 어떻게 해야 하는가?
  • RQ3COCO와 Mapillary Vistas와 같은 다양한 데이터셋에 대해 공유 백본 접근법의 한계는 무엇인가?
  • RQ4작은 객체 탐지 및 물체와 배경 간 경계 충돌에 대한 방법의 강건성은 어느 정도인가?

주요 결과

DatasetPQSQRQPQ ThSQ ThRQ ThPQ StSQ StRQ St
Mapillary Vistas val17.655.923.510.047.614.127.566.935.8
COCO test-dev27.271.935.929.671.639.423.472.330.6
COCO val26.972.435.729.372.139.223.373.030.4
  • 공동 학습은 Mapillary Vistas Val에서 독립적으로 학습된 분기들보다 PQ, mIoU, 및 mAP_0.5를 향상시킨다.
  • Mapillary Vistas에서 공동 학습 모델은 mIoU 34.7, mAP 0.5 8.4, PQ 17.4를 달성하며 시맨틱 전용(mIoU 33.6) 및 인스턴스 전용(mAP 0.5 6.5) 베이스라인을 능가한다.
  • COCO에서 이 방법은 PQ 27.2(test-dev) 및 26.9(val)를 달성하며, Things와 Stuff 전반에 걸쳐 높은 SQ와 경쟁력 있는 RQ를 보인다(표 참조).
  • RPN 재현율은 데이터셋에 따라 민감하다; COCO val 평균 재현율 0.827에 비해 Mapillary Vistas val 0.363으로 나타나 Mapillary에서의 RPN 병목이 인스턴스 분할 성능에 영향을 준다.
  • 병합 휴리스틱은 인스턴스 예측을 우선시하고 픽셀별 최고 인스턴스 확률에 따라 중첩된 픽셀 배정을 제거하며, 가능한 경우 시맨틱 물체(stuff) 예측을 인스턴스 기반 레이블로 대체한다.
  • 제안된 공동 프레임워크는 메모리 효율적이고 두 개의 독립 네트워크를 실행하는 것보다 빠르지만, 몇 가지 지표에서 기준 팬토픽 방식에 비해 성능이 뒤처진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.