[논문 리뷰] SOLOv2: Dynamic and Fast Instance Segmentation
SOLOv2는 위치를 기준으로 예측하는 동적 커널과统一 고해상도 마스크 특징을 사용하고, 후처리로 빠른 Matrix NMS를 사용하는 박스 없는 완전 합성곱 기반의 인스턴스 분할 프레임워크를 도입한다. COCO와 LVIS에서 최첨단 속도/정확도를 달성한다.
In this work, we aim at building a simple, direct, and fast instance segmentation framework with strong performance. We follow the principle of the SOLO method of Wang et al. "SOLO: segmenting objects by locations". Importantly, we take one step further by dynamically learning the mask head of the object segmenter such that the mask head is conditioned on the location. Specifically, the mask branch is decoupled into a mask kernel branch and mask feature branch, which are responsible for learning the convolution kernel and the convolved features respectively. Moreover, we propose Matrix NMS (non maximum suppression) to significantly reduce the inference time overhead due to NMS of masks. Our Matrix NMS performs NMS with parallel matrix operations in one shot, and yields better results. We demonstrate a simple direct instance segmentation system, outperforming a few state-of-the-art methods in both speed and accuracy. A light-weight version of SOLOv2 executes at 31.3 FPS and yields 37.1% AP. Moreover, our state-of-the-art results in object detection (from our mask byproduct) and panoptic segmentation show the potential to serve as a new strong baseline for many instance-level recognition tasks besides instance segmentation. Code is available at: https://git.io/AdelaiDet
연구 동기 및 목표
- Bounding box 검출기 없이 더 단순한 박스 없는 인스턴스 분할 접근 방식의 동기 부여.
- 고해상도 인스턴스 마스크를 생성하기 위한 동적이고 위치 조건부 마스크 생성 메커니즘 개발.
- 마스크 예측 및 후처리의 병목 현상을 제거하여 정확도를 희생하지 않으면서 속도 향상.
- COCO와 LVIS 전반에서의 강력한 성능을 증명하고 객체 탐지 및 팬토픽 분할로의 확장을 보여주기
제안 방법
- 이미지 특징에 조건부로 학습된 D 차원의 커널로 각 위치에 대해 마스크 커널을 동적으로 예측한다.
- FPN 레벨 전반에 공유되는 통일된 고해상도 마스크 특징 표현을 계산한다.
- 동적으로 생성된 커널을 마스크 특징과 컨볼루션하여 위치별 인스턴스 마스크를 생성한다.
- CoordConv로 입력을 보강하여 마스크 커널 가지에 명시적 공간 좌표를 주입한다.
- Matrix NMS를 사용하여 중복 마스크 예측을 병렬로 억제하고 속도와 정확도를 개선한다.
- 선택적으로 예측된 마스크에서 바운딩 박스를 도출하여 별도 박스 학습 없이 박스 기반 결과를 얻는다.
실험 결과
연구 질문
- RQ1직접적이고 박스 없는 프레임워크가 위치 conditioned 마스크 예측으로 경쟁력 있는 인스턴스 분할을 달성할 수 있는가?
- RQ2마스크 커널 학습과 마스크 특징 학습을 분리하는 것이 효율성과 정확도를 향상시키는가?
- RQ3병렬의 행렬 기반 NMS(Matrix NMS)가 전통적 NMS 및 Fast NMS보다 마스크에서 우수한가?
- RQ4명시적 좌표 정보 및 통합 마스크 특징이 객체 스케일에 따른 마스크 품질에 미치는 영향은 무엇인가?
- RQ5SOLOv2는 COCO와 LVIS에서 정확도와 속도의 측면에서 어떤 성능을 보이며 탐지 및 팬토픽 분할로 확장이 가능한가?
주요 결과
- SOLOv2는 COCO에서 속도-정확도 균형이 최첨단이며, 예를 들어 ResNet-50-FPN에서 18 FPS로 38.8% AP를 달성하고 경량 버전에서 37.1% AP를 달성한다.
- SOLOv2 with Res-DCN-101-FPN은 COCO test-dev 설정에서 41.7% 마스크 AP 및 상자 기반 탐지에 대해 61.6 mAP를 달성한다.
- Matrix NMS는 500개 마스크를 1 ms 이내에 처리하고 Fast NMS보다 0.4% AP를 상회한다.
- 통합 마스크 특징 표현은 FPN 레벨별 개별 마스크보다 성능이 더 좋으며, 특히 중대형 객체에서 이점이 크다.
- SOLOv2는 COCO 및 LVIS에서 많은 박스 기반 및 박스 없는 베이스라인을 능가하며, 대형 객체에서 특히 AP_L이 크게 향상된다.
- 마스크에서 도출된 바운딩 박스의 부산물은 일부 구성에서 전통 탐지기보다 경쟁력 있는 결과를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.