[논문 리뷰] BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation
BlendMask는 완전 합성곱 파이프라인에서 위에서 아래로의 인스턴스 수준 정보를 아래에서 위로의 고해상도 픽셀 특징과 융합하는 블렌더 모듈을 도입하여, 마스크 품질에서 Mask R-CNN을 능가하고 COCO에서 약 20% 더 빠릅니다. 경량 버전은 25 FPS에서 34.2% mAP를 달성합니다.
Instance segmentation is one of the fundamental vision tasks. Recently, fully convolutional instance segmentation methods have drawn much attention as they are often simpler and more efficient than two-stage approaches like Mask R-CNN. To date, almost all such approaches fall behind the two-stage Mask R-CNN method in mask precision when models have similar computation complexity, leaving great room for improvement. In this work, we achieve improved mask prediction by effectively combining instance-level information with semantic information with lower-level fine-granularity. Our main contribution is a blender module which draws inspiration from both top-down and bottom-up instance segmentation approaches. The proposed BlendMask can effectively predict dense per-pixel position-sensitive instance features with very few channels, and learn attention maps for each instance with merely one convolution layer, thus being fast in inference. BlendMask can be easily incorporated with the state-of-the-art one-stage detection frameworks and outperforms Mask R-CNN under the same training schedule while being 20% faster. A light-weight version of BlendMask achieves $ 34.2% $ mAP at 25 FPS evaluated on a single 1080Ti GPU card. Because of its simplicity and efficacy, we hope that our BlendMask could serve as a simple yet strong baseline for a wide range of instance-wise prediction tasks. Code is available at https://git.io/AdelaiDet
연구 동기 및 목표
- 조밀하고 완전 합성곱 인스턴스 분할 프레임워크를 동기부여하고 개발한다. 이 프레임워크는 거친 인스턴스 수준 정보와 미세한 픽셀 디테일을 결합한다.
- 기기 경량 블렌더 모듈을 설계하여 베이스와 어텐션을 per-instance 마스크로 효율적으로 결합한다.
- BlendMask를 하나의 스테이지 탐지기(FCOS 기반)와 통합하고 COCO에서 평가하여 정확도와 속도 면에서 두 스테이지 방법을 능가한다.
- BlendMask가 고해상도 마스크 예측을 지원하며 최소한의 수정으로 팬토픽 분할로 확장될 수 있음을 보인다.
제안 방법
- 특징 맵 위에서 일련의 베이스를 예측하는 바텀 모듈을 제안한다.
- 예측된 각 박스에 대해 인스턴스 수준 어텐션 맵을 생성하는 탑 레이어를 추가한다.
- 제안에 따라 베이스를 프로포절로 자르고, 어텐션을 업샘플링하며, 이를 정규화하고, 베이스를 선형적으로 혼합해 최종 마스크를 생성하는 블렌더를 도입한다.
- RoIPool/RoIAlign 기반 자르기 및 제안별 어텐션 가이드 융합을 사용하여 per-instance 마스크를 생성한다.
- 정확도와 속도를 균형 있게 하기 위해 해상도, 베이스 수, 피처 소스를 실험한다.
- ResNet 백본과 DeepLabV3+를 바텀 모듈 디코더로 사용하여 COCO에서 평가하고, YOLACT, FCIS, Mask R-CNN, TensorMask와 비교한다.
실험 결과
연구 질문
- RQ1상향-어텐션으로 가이드되는 블렌더가 완전한 합성곱 파이프라인에서 아래에서 위로의 베이스와 결합될 때 조밀한 픽셀 단위 인스턴스 마스크를 개선할 수 있는가?
- RQ2맵의 해상도, 베이스 수, 입력 피처가 마스크 정확도와 속도에 어떤 영향을 미치는가?
- RQ3BLendMask가 COCO에서 기존의 하나의 스테이지 방법과 두 스테이지 방법과의 정확도 및 추론 시간에 어떻게 비교되는가?
- RQ4최소한의 수정으로 BlendMask를 팬토픽 분할로 확장할 수 있는가?
주요 결과
- BlendMask는 COCO에서 ResNet-50으로 37.0% mAP, ResNet-101으로 38.4% mAP를 달성하여 같은 학습 스케줄에서 Mask R-CNN을 능가하고 약 20% 더 빠릅니다.
- 경량 버전은 COCO에서 25 FPS로 34.2% mAP를 달성하여 강력한 실시간 성능을 입증합니다.
- 블렌더 모듈은 ablation에서 YOLACT 및 FCIS 대비 합성에 있어 상당한 개선을 보였습니다(예: Blender가 두 기준선 모두를 능가).
- 상향 어텐션 해상도를 M으로 증가시키면 영역 크기의 약 1/4 지점에서 포화되며; 하단 베이스 해상도는 시간 비용이 큰 폭 없이 증가시킬 수 있습니다.
- BlendMask는 일반적으로 28x28인 Mask R-CNN보다 더 높은 해상도(mask 56x56)를 생성할 수 있어 가장자리 선명도와 인스턴스 식별력을 향상시킵니다.
- BlendMask는 인스턴스 마스크를 시맨틱 분할과 결합하여 팬토픽 분할로 쉽게 확장 가능하며, COCO 팬토픽 결과에서 Panoptic-FPN 벤치마크 대비 향상을 보입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.