[논문 리뷰] UPSNet: A Unified Panoptic Segmentation Network
UPSNet는 공유 백본과 두 개의 경량 헤드를 통해 의미적 및 인스턴스 세분화를 동시에 예측하는 통합 패ノ픽 세분화 네트워크를 제안한다. 파rameter-free 패노픽 헤드는 알 수 없는 클래스를 도입하여 갈등을 해결하고 엔드 투 엔드 훈련을 가능하게 한다. 이는 Cityscapes, COCO, 그리고 내부 드라이빙 데이터셋에서 최신 기술 수준의 성능을 달성하며 추론 속도도 빠르다.
In this paper, we propose a unified panoptic segmentation network (UPSNet) for tackling the newly proposed panoptic segmentation task. On top of a single backbone residual network, we first design a deformable convolution based semantic segmentation head and a Mask R-CNN style instance segmentation head which solve these two subtasks simultaneously. More importantly, we introduce a parameter-free panoptic head which solves the panoptic segmentation via pixel-wise classification. It first leverages the logits from the previous two heads and then innovatively expands the representation for enabling prediction of an extra unknown class which helps better resolve the conflicts between semantic and instance segmentation. Additionally, it handles the challenge caused by the varying number of instances and permits back propagation to the bottom modules in an end-to-end manner. Extensive experimental results on Cityscapes, COCO and our internal dataset demonstrate that our UPSNet achieves state-of-the-art performance with much faster inference. Code has been made available at: https://github.com/uber-research/UPSNet
연구 동기 및 목표
- 패노픽 세분화를 위한 단일 엔드 투 엔드 훈련 가능한 프레임워크로 의미적 및 인스턴스 세분화를 통합한다.
- parameter-free 패노픽 헤드에서 알 수 없는 클래스를 도입하여 의미적 및 인스턴스 세분화 예측 간의 갈등을 해결한다.
- 이미지당 인스턴스 수가 변동함에도 불구하고 전체 네트워크를 거쳐 역전파를 가능하게 하여 백프로파게이션을 지원한다.
- 이전 방법보다 더 빠른 추론 속도를 유지하면서 최신 기술 수준의 성능을 달성한다.
제안 방법
- 의미적 및 인스턴스 세분화 모두를 위한 공유 특징을 추출하기 위해 단일 잔차 백본 네트워크를 사용한다.
- 다중 척도의 맥락을 위해 특징 피라미드 네트워크(FPN)를 사용하는 변형 가능 컨볼루션 기반의 의미적 세분화 헤드를 활용한다.
- 바운딩 박스, 클래스, 마스크 예측을 위한 Mask R-CNN 스타일의 인스턴스 세분화 헤드를 구현한다.
- 의미적 및 인스턴스 헤드의 로짓을 사용하여 픽셀 단위 분류를 수행하는 parameter-free 패노픽 헤드를 도입하며, 추가로 알 수 없는 클래스 채널을 포함한다.
- 이미지당 인스턴스 수가 다양함에도 불구하고 패노픽 헤드를 통해 역전파가 가능하게 하여 엔드 투 엔드 훈련을 가능하게 한다.
- 손실 균형 조정 및 새로운 RoI 손실을 적용하여 훈련의 안정성과 성능을 향상시킨다.
실험 결과
연구 질문
- RQ1공유 표현 학습을 통해 의미적 및 인스턴스 세분화를 통합한 단일 네트워크 아키텍처가 패노픽 세분화에 효과적으로 작용할 수 있는가?
- RQ2의미적 및 인스턴스 세분화 예측 간의 갈등을 기울이지 않고, 미분 가능하고 엔드 투 엔드 방식으로 어떻게 해결할 수 있는가?
- RQ3패노픽 헤드에 알 수 없는 클래스를 도입했을 때 예측 일관성과 성능에 어떤 영향을 미치는가?
- RQ4정확도와 추론 속도 측면에서 parameter-free 패노픽 헤드는 후처리 또는 이중 단계 접근 방식보다 어떻게 비교되는가?
- RQ5패노픽 헤드를 통해 역전파가 가능한 엔드 투 엔드 훈련은 전체 성능 향상에 어느 정도 기여하는가?
주요 결과
- COCO에서 UPSNet는 전체 훈련을 통해 PQ 점수 46.7을 기록하여 이전 방법보다 뚜렷이 뛰어난 성능을 보였다.
- 절단 실험 결과, 패노픽 헤드를 훈련시킨 경우 후처리 방식 대비 PQ 점수 0.5점 향상됨을 확인했다.
- 손실 균형 조정을 도입함으로써 PQ 점수 0.1점 향상되었으며, 이는 훈련 안정성 향상에 중요한 영향을 미친다는 것을 보여준다.
- RoI 손실을 사용해 알 수 없는 클래스를 예측함으로써 PQ^St 점수 0.5점 향상되었으며, 이는 모호한 영역을 더 잘 다루었다는 것을 시사한다.
- 오라클 실험 결과, 의미적 세분화가 가장 큰 성능 저하 요인임을 확인했으며, 참값 의미적 레이블을 사용할 경우 PQ 점수 +29.5 향상됨을 보여주며, 이 구성 요소의 향상 여지가 크다는 것을 시사한다.
- Cityscapes, COCO, 그리고 내부 대규모 드라이빙 데이터셋에서 최근 경쟁자들보다 훨씬 더 빠른 추론 속도를 유지하면서 최신 기술 수준의 성능을 달성했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.