[논문 리뷰] Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation
Panoptic-DeepLab은 클래스 비특정 인스턴스 중심과 시맨틱 헤드를 갖춘 간단한 하향식(바텀업) 단일 패스 파노픽(segmentation) 시스템을 제공하며, Cityscapes, Mapillary Vistas, COCO에서 최첨단 성능을 달성하면서 거의 실시간에 가까운 속도로 실행됩니다.
In this work, we introduce Panoptic-DeepLab, a simple, strong, and fast system for panoptic segmentation, aiming to establish a solid baseline for bottom-up methods that can achieve comparable performance of two-stage methods while yielding fast inference speed. In particular, Panoptic-DeepLab adopts the dual-ASPP and dual-decoder structures specific to semantic, and instance segmentation, respectively. The semantic segmentation branch is the same as the typical design of any semantic segmentation model (e.g., DeepLab), while the instance segmentation branch is class-agnostic, involving a simple instance center regression. As a result, our single Panoptic-DeepLab simultaneously ranks first at all three Cityscapes benchmarks, setting the new state-of-art of 84.2% mIoU, 39.0% AP, and 65.5% PQ on test set. Additionally, equipped with MobileNetV3, Panoptic-DeepLab runs nearly in real-time with a single 1025x2049 image (15.8 frames per second), while achieving a competitive performance on Cityscapes (54.1 PQ% on test set). On Mapillary Vistas test set, our ensemble of six models attains 42.7% PQ, outperforming the challenge winner in 2018 by a healthy margin of 1.5%. Finally, our Panoptic-DeepLab also performs on par with several top-down approaches on the challenging COCO dataset. For the first time, we demonstrate a bottom-up approach could deliver state-of-the-art results on panoptic segmentation.
연구 동기 및 목표
- 주요 벤치마크에서 두-단계 방법과 동등하거나 이를 능가하는 견고한 하향식(바텀업) 파노픽 분할 기준선을 확립한다.
- 시맨틱 및 인스턴스 분할을 위한 듀얼-ASPP 및 듀얼 디코더 가지를 갖춘 간단하고 강력한 아키텍처를 제안한다.
- 빠르고 병렬화 가능한 인스턴스 그룹화를 가능하게 하는 클래스 비특정 인스턴스 센터 회귀 접근법을 사용한다.
- 효율적인 다수결 병합 전략을 통해 시맨틱 및 인스턴스 예측을 합칩니다.
- 여러 데이터셋에서 강력한 속도-정확도 트레이드오프를 시연한다.
제안 방법
- 조밀한 특징을 생성하기 위해 atrous 컨벌루션으로 보강된 공유 인코더 백본을 채택한다.
- 시맨틱 분할용 가지 하나와 클래스-비특정 인스턴스 분할용 가지 하나의 듀얼 ASPP 및 듀얼 디코더 모듈을 구현한다.
- 시맨틱 분할에 대한 가중 부트스트랩 크로스 엔트로피, 인스턴스 센터 히트맵에 대한 MSE, 센터 오프셋에 대한 L1의 세 가지 손실로 학습한다.
- 각 인스턴스를 중심으로 표현하고 픽셀에서 해당 중심으로의 오프셋을 학습한다(센터 히트맵은 2D 가우시안으로 인코딩된다).
- 추론 중에는 전경 픽셀을 가장 가까운 예측 중심으로 그룹화하고, 시맨틱 및 인스턴스 출력을 빠른 다수결 연산으로 병합한다.
- 단순하고 병렬화 가능한 병합 단계로 엔드-투-엔드 파노픽 예측을 달성하여 거의 실시간 성능을 가능하게 한다.
실험 결과
연구 질문
- RQ1하향식(바텀업) 단일 패스 접근법이 표준 파노픽 벤치마크에서 최첨단 성능에 도달할 수 있는가?
- RQ2Panoptic-DeepLab의 Cityscapes, Mapillary Vistas, COCO 전반의 성능 및 효율성 트레이드오프는 무엇인가?
- RQ3간단한 센터 기반 인스턴스 그룹화를 갖춘 듀얼-브랜치(시맨틱 및 인스턴스) 설계가 상향식(top-down) 방법과 정확도와 속도 면에서 어떻게 비교되는가?
- RQ4아키텍처 선택(듀얼-ASPP, 듀얼 디코더, 채널 크기)이 분할 품질과 런타임에 미치는 영향은 무엇인가?
주요 결과
- Cityscapes에서 Panoptic-DeepLab 단일 모델은 최첨단을 달성: PQ 65.5%, AP 39.0%, 및 mIoU 84.2%가 테스트 세트에서.
- Mapillary Vistas에서 단일 모델은 val에서 PQ 40.6%에 도달하고, 여섯 모델의 앙상블로 val에서 42.2% PQ, test에서 42.7% PQ를 달성하여 2018 챌린지 우승자보다 1.5% PQ 더 높은 성능을 보인다.
- COCO test-dev에서 Panoptic-DeepLab은 41.2% PQ(single-scale)로 달성하고, 이전 최상단 하향식 방법 대비 4.5% PQ 향상으로 상향식 방법과 경쟁력 있다.
- MobileNetV3 백엔드를 사용하면 Panoptic-DeepLab은 V100 GPU에서 1025x2049 이미지에 대해 초당 15.8 프레임으로 거의 실시간으로 실행되며, Cityscapes 성능도 경쟁력 있게 유지된다(테스트에서 54.1 PQ).
- 백본과 스케일 전반에 걸쳐 이 방법은 강력한 속도-정확도 트레이드오프를 보여주며, 종종 이전의 하향식 방법을 능가하고 여러 벤치마크에서 상향식 방법에 근접한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.