[논문 리뷰] ShapeMask: Learning to Segment Novel Objects by Refining Shape Priors
ShapeMask는 개체별 우선순위와 개체별 임bedding을 학습하여 새로운 카테고리로의 일반화를 향상시키는 새로운 인스턴스 세그멘테이션 프레임워크를 제안한다. 경계 상자에서 시작하여 학습된 우선순위와 임베딩을 사용해 객체의 형태를 점진적으로 개선하며, 카테고리 간 학습에서 최신 기술 대비 6.4 AP 향상을 달성하고, 150ms 추론 시간으로 완전히 지도된 설정에서도 경쟁 가능한 성능을 보인다.
Instance segmentation aims to detect and segment individual objects in a scene. Most existing methods rely on precise mask annotations of every category. However, it is difficult and costly to segment objects in novel categories because a large number of mask annotations is required. We introduce ShapeMask, which learns the intermediate concept of object shape to address the problem of generalization in instance segmentation to novel categories. ShapeMask starts with a bounding box detection and gradually refines it by first estimating the shape of the detected object through a collection of shape priors. Next, ShapeMask refines the coarse shape into an instance level mask by learning instance embeddings. The shape priors provide a strong cue for object-like prediction, and the instance embeddings model the instance specific appearance information. ShapeMask significantly outperforms the state-of-the-art by 6.4 and 3.8 AP when learning across categories, and obtains competitive performance in the fully supervised setting. It is also robust to inaccurate detections, decreased model capacity, and small training data. Moreover, it runs efficiently with 150ms inference time and trains within 11 hours on TPUs. With a larger backbone model, ShapeMask increases the gap with state-of-the-art to 9.4 and 6.2 AP across categories. Code will be released.
연구 동기 및 목표
- 새로운 객체 카테고리로의 인스턴스 세그멘테이션 일반화를 위해 광범위한 카테고리별 마스크 애너테이션을 요구하지 않는 문제를 해결하기 위해.
- 경계 상자보다 더 강력한 인도크티브 비이즈(Inductive Bias)인 중간 단계의 형태 우선순위를 도입하여 제로샷 및 희소샷 일반화를 향상시키기 위해.
- 최소한의 감독 정보를 사용한 클래스 무관 훈련을 통해 효율적이고 견고하며 정확한 인스턴스 세그멘테이션을 가능하게 하기 위해.
- 매개변수와 FLOPs를 크게 줄였음에도 정확도를 유지하는 경량 고성능 마스크 브랜치를 설계하기 위해.
- TPU와 GPU에서 하드웨어 효율성을 확보하면서도 경쟁 가능한 검출 및 세그멘테이션 성능를 달성하기 위해.
제안 방법
- ShapeMask는 클래스 무관 경계 상자 검출을 입력으로 사용하여 관심 있는 객체의 위치를 국한한다.
- 학습된 집합에서 가장 적합한 형태 우선순위를 선택하여 객체의 형태를 추정함으로써 강력한 기하학적 우선순위를 제공한다.
- 완전 컨볼루션 네트워크가 형태 우선순위에서 거칠은 마스크를 디코딩하고, 학습된 개체별 임베딩을 사용해 최종 픽셀 수준의 세그멘테이션을 개선한다.
- 훈련을 가속화하고 NMS 또는 정렬 작업을 피하기 위해 ROIAlign 대신 단순한 자르기 및 왜곡된 진짜값을 사용한다.
- 효율적인 훈련을 위해 일단 검출기(RetinaNet)를 사용하고, 클래스 무관 감독을 통해 엔드 투 엔드로 훈련한다.
- 마스크 브랜치는 경량 설계로, 16채널 용량에서도 성능을 유지하며, Mask R-CNN보다 130배 적은 매개변수와 23배 적은 FLOPs로 35.8 AP를 달성한다.
실험 결과
연구 질문
- RQ1형태 우선순위를 중간 표현으로 학습하는 것이 새로운 카테고리에 대한 인스턴스 세그멘테이션의 일반화에 기여하는가?
- RQ2형태 우선순위와 개체별 임베딩의 조합이 제로샷 및 희소샷 설정에서 기존의 검출 또는 군집 기반 방법보다 어떻게 성능을 높이는가?
- RQ3경량 마스크 브랜치가 모델 크기와 FLOPs를 줄이면서도 높은 정확도를 유지할 수 있는 정도는 어느 정도인가?
- RQ4형태 우선순위와 개체별 임베딩의 조합이 잘못된 검출, 제한된 훈련 데이터, 제한된 모델 용량에 대해 얼마나 견고한가?
- RQ5ShapeMask는 최신 기술보다 빠른 훈련 속도를 확보하면서도 완전 지도 설정에서 경쟁 가능한 성능를 달성할 수 있는가?
주요 결과
- ShapeMask는 카테고리 간 인스턴스 세그멘테이션에서 이전 최신 기술 대비 6.4 AP 향상을 달성했고, 더 큰 백본을 사용할 경우 9.4 AP 향상을 기록했다.
- 라벨된 데이터의 1%만으로도 최신 기술을 초월하며 강력한 희소샷 일반화 성능를 입증했다.
- 16채널 마스크 브랜치를 사용할 경우 ShapeMask는 35.8 AP를 달성했으며, 이는 Mask R-CNN보다 0.4 AP 높고, 매개변수는 130배 적고, FLOPs는 23배 적다.
- 모델은 150ms 추론 시간을 기록했고, TPU에서 11시간 내에 훈련을 완료했으며, 아키텍처 최적화 덕분에 최신 기술 대비 4배 빠른 훈련 속도를 확보했다.
- 완전 지도 설정에서 ShapeMask는 COCO에서 37.2 AP를 달성했으며, 동일한 ResNet-101-FPN 백본을 사용한 Mask R-CNN와 RetinaNet를 모두 초월했다.
- ShapeMask는 강력한 객체 검출기로도 기능하며, ResNet-101-FPN를 사용할 경우 42.0 AP, 더 큰 NAS-FPN 백본을 사용할 경우 45.4 AP를 기록해 RetinaNet과 Mask R-CNN를 모두 초월했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.