QUICK REVIEW

[논문 리뷰] Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network

Daan de Geus, Panagiotis Meletis|arXiv (Cornell University)|2018. 09. 06.

Advanced Neural Network Applications참고 문헌 14인용 수 71

한 줄 요약

한 네트워크(JSIS-Net)를 제안하여 시맨틱 및 인스턴스 분할을 함께 예측하고 휴리스틱으로 출력을 병합하여 팬토픽(segmentation)을 생성하며, joint training으로 COCO 및 Mapillary Vistas 데이터셋에서 경쟁력 있는 PQ를 달성함.

ABSTRACT

We present a single network method for panoptic segmentation. This method combines the predictions from a jointly trained semantic and instance segmentation network using heuristics. Joint training is the first step towards an end-to-end panoptic segmentation network and is faster and more memory efficient than training and predicting with two networks, as done in previous work. The architecture consists of a ResNet-50 feature extractor shared by the semantic segmentation and instance segmentation branch. For instance segmentation, a Mask R-CNN type of architecture is used, while the semantic segmentation branch is augmented with a Pyramid Pooling Module. Results for this method are submitted to the COCO and Mapillary Joint Recognition Challenge 2018. Our approach achieves a PQ score of 17.6 on the Mapillary Vistas validation set and 27.2 on the COCO test-dev set.

연구 동기 및 목표

팬토픽 분할을 물체(things)와 배경(stuff)을 모두 포괄하는 통합 과제로 동기부여한다.
시맨틱 분할과 인스턴스 분할을 함께 학습하는 단일 네트워크를 개발하여 엔드-투-엔드 팬토픽 출력을 가능하게 한다.
aResNet-50 백본을 공유하고 두 가지 분기를 함께 훈련하여 메모리 및 컴퓨트를 감소시킨다.
시맨틱 출력과 인스턴스 출력을 팬토픽 예측으로 결합하기 위한 병합 휴리스틱을 도입한다.

제안 방법

시맨틱 및 인스턴스 분할 분기 모두를 위해 공유된 ResNet-50 백본을 사용한다.
Pyramid Pooling Module과 하이브리드 업샘플링으로 시맨틱 분기를 전체 이미지 해상도로 향상시킨다.
RPN 제안과 제안당 마스크를 갖춘 Mask R-CNN 기반의 인스턴스 분할 분기를 구현한다.
여러 작업 손실을 학습 가능한 가중치(lambda1...lambda7)로 균형 맞추어 단일 결합 손실 Ltot를 형성한다.
중첩 마스크와 물체/배경 예측의 충돌을 해결하기 위해 시맨틱과 인스턴스 출력을 휴리스틱으로 병합하고, 픽셀 단위의 클래스 및 인스턴스 ID를 생성한다.

실험 결과

연구 질문

RQ1단일 네트워크에서 시맨틱 및 인스턴스 분할의 공동 학습이 독립 모델에 비해 팬토픽 분할 성능을 향상시킬 수 있는가?
RQ2시맨틱 및 인스턴스 분기에서 나온 예측을 팬토픽 출력으로 정확하게 병합하려면 어떻게 해야 하는가?
RQ3COCO와 Mapillary Vistas와 같은 다양한 데이터셋에 대해 공유 백본 접근법의 한계는 무엇인가?
RQ4작은 객체 탐지 및 물체와 배경 간 경계 충돌에 대한 방법의 강건성은 어느 정도인가?

주요 결과

Dataset	PQ	SQ	RQ	PQ Th	SQ Th	RQ Th	PQ St	SQ St	RQ St
Mapillary Vistas val	17.6	55.9	23.5	10.0	47.6	14.1	27.5	66.9	35.8
COCO test-dev	27.2	71.9	35.9	29.6	71.6	39.4	23.4	72.3	30.6
COCO val	26.9	72.4	35.7	29.3	72.1	39.2	23.3	73.0	30.4

공동 학습은 Mapillary Vistas Val에서 독립적으로 학습된 분기들보다 PQ, mIoU, 및 mAP_0.5를 향상시킨다.
Mapillary Vistas에서 공동 학습 모델은 mIoU 34.7, mAP 0.5 8.4, PQ 17.4를 달성하며 시맨틱 전용(mIoU 33.6) 및 인스턴스 전용(mAP 0.5 6.5) 베이스라인을 능가한다.
COCO에서 이 방법은 PQ 27.2(test-dev) 및 26.9(val)를 달성하며, Things와 Stuff 전반에 걸쳐 높은 SQ와 경쟁력 있는 RQ를 보인다(표 참조).
RPN 재현율은 데이터셋에 따라 민감하다; COCO val 평균 재현율 0.827에 비해 Mapillary Vistas val 0.363으로 나타나 Mapillary에서의 RPN 병목이 인스턴스 분할 성능에 영향을 준다.
병합 휴리스틱은 인스턴스 예측을 우선시하고 픽셀별 최고 인스턴스 확률에 따라 중첩된 픽셀 배정을 제거하며, 가능한 경우 시맨틱 물체(stuff) 예측을 인스턴스 기반 레이블로 대체한다.
제안된 공동 프레임워크는 메모리 효율적이고 두 개의 독립 네트워크를 실행하는 것보다 빠르지만, 몇 가지 지표에서 기준 팬토픽 방식에 비해 성능이 뒤처진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.