[논문 리뷰] Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network
한 네트워크(JSIS-Net)를 제안하여 시맨틱 및 인스턴스 분할을 함께 예측하고 휴리스틱으로 출력을 병합하여 팬토픽(segmentation)을 생성하며, joint training으로 COCO 및 Mapillary Vistas 데이터셋에서 경쟁력 있는 PQ를 달성함.
We present a single network method for panoptic segmentation. This method combines the predictions from a jointly trained semantic and instance segmentation network using heuristics. Joint training is the first step towards an end-to-end panoptic segmentation network and is faster and more memory efficient than training and predicting with two networks, as done in previous work. The architecture consists of a ResNet-50 feature extractor shared by the semantic segmentation and instance segmentation branch. For instance segmentation, a Mask R-CNN type of architecture is used, while the semantic segmentation branch is augmented with a Pyramid Pooling Module. Results for this method are submitted to the COCO and Mapillary Joint Recognition Challenge 2018. Our approach achieves a PQ score of 17.6 on the Mapillary Vistas validation set and 27.2 on the COCO test-dev set.
연구 동기 및 목표
- 팬토픽 분할을 물체(things)와 배경(stuff)을 모두 포괄하는 통합 과제로 동기부여한다.
- 시맨틱 분할과 인스턴스 분할을 함께 학습하는 단일 네트워크를 개발하여 엔드-투-엔드 팬토픽 출력을 가능하게 한다.
- aResNet-50 백본을 공유하고 두 가지 분기를 함께 훈련하여 메모리 및 컴퓨트를 감소시킨다.
- 시맨틱 출력과 인스턴스 출력을 팬토픽 예측으로 결합하기 위한 병합 휴리스틱을 도입한다.
제안 방법
- 시맨틱 및 인스턴스 분할 분기 모두를 위해 공유된 ResNet-50 백본을 사용한다.
- Pyramid Pooling Module과 하이브리드 업샘플링으로 시맨틱 분기를 전체 이미지 해상도로 향상시킨다.
- RPN 제안과 제안당 마스크를 갖춘 Mask R-CNN 기반의 인스턴스 분할 분기를 구현한다.
- 여러 작업 손실을 학습 가능한 가중치(lambda1...lambda7)로 균형 맞추어 단일 결합 손실 Ltot를 형성한다.
- 중첩 마스크와 물체/배경 예측의 충돌을 해결하기 위해 시맨틱과 인스턴스 출력을 휴리스틱으로 병합하고, 픽셀 단위의 클래스 및 인스턴스 ID를 생성한다.
실험 결과
연구 질문
- RQ1단일 네트워크에서 시맨틱 및 인스턴스 분할의 공동 학습이 독립 모델에 비해 팬토픽 분할 성능을 향상시킬 수 있는가?
- RQ2시맨틱 및 인스턴스 분기에서 나온 예측을 팬토픽 출력으로 정확하게 병합하려면 어떻게 해야 하는가?
- RQ3COCO와 Mapillary Vistas와 같은 다양한 데이터셋에 대해 공유 백본 접근법의 한계는 무엇인가?
- RQ4작은 객체 탐지 및 물체와 배경 간 경계 충돌에 대한 방법의 강건성은 어느 정도인가?
주요 결과
| Dataset | PQ | SQ | RQ | PQ Th | SQ Th | RQ Th | PQ St | SQ St | RQ St |
|---|---|---|---|---|---|---|---|---|---|
| Mapillary Vistas val | 17.6 | 55.9 | 23.5 | 10.0 | 47.6 | 14.1 | 27.5 | 66.9 | 35.8 |
| COCO test-dev | 27.2 | 71.9 | 35.9 | 29.6 | 71.6 | 39.4 | 23.4 | 72.3 | 30.6 |
| COCO val | 26.9 | 72.4 | 35.7 | 29.3 | 72.1 | 39.2 | 23.3 | 73.0 | 30.4 |
- 공동 학습은 Mapillary Vistas Val에서 독립적으로 학습된 분기들보다 PQ, mIoU, 및 mAP_0.5를 향상시킨다.
- Mapillary Vistas에서 공동 학습 모델은 mIoU 34.7, mAP 0.5 8.4, PQ 17.4를 달성하며 시맨틱 전용(mIoU 33.6) 및 인스턴스 전용(mAP 0.5 6.5) 베이스라인을 능가한다.
- COCO에서 이 방법은 PQ 27.2(test-dev) 및 26.9(val)를 달성하며, Things와 Stuff 전반에 걸쳐 높은 SQ와 경쟁력 있는 RQ를 보인다(표 참조).
- RPN 재현율은 데이터셋에 따라 민감하다; COCO val 평균 재현율 0.827에 비해 Mapillary Vistas val 0.363으로 나타나 Mapillary에서의 RPN 병목이 인스턴스 분할 성능에 영향을 준다.
- 병합 휴리스틱은 인스턴스 예측을 우선시하고 픽셀별 최고 인스턴스 확률에 따라 중첩된 픽셀 배정을 제거하며, 가능한 경우 시맨틱 물체(stuff) 예측을 인스턴스 기반 레이블로 대체한다.
- 제안된 공동 프레임워크는 메모리 효율적이고 두 개의 독립 네트워크를 실행하는 것보다 빠르지만, 몇 가지 지표에서 기준 팬토픽 방식에 비해 성능이 뒤처진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.