QUICK REVIEW

[논문 리뷰] BoxInst: High-Performance Instance Segmentation with Box Annotations

Zhi Tian, Chunhua Shen|arXiv (Cornell University)|2020. 12. 03.

Advanced Neural Network Applications참고 문헌 33인용 수 28

한 줄 요약

BoxInst는 예측 마스크와 진짜 상자 간의 투영 일관성 및 유사 색상의 인접 픽셀 간의 쌍별 레이블 일관성이라는 두 가지 구성 요소를 가진 새로운 마스크 손실을 도입함으로써 유일한 경계 상자 애너테이션만을 사용하여 고성능 인스턴스 세그멘테이션을 달성한다. 이 방법은 마스크 애너테이션이 전혀 없는 COCO에서 33.2%의 마스크 AP를 달성하여 이전의 약한 감독 방법보다 크게 향상시켰다.

ABSTRACT

We present a high-performance method that can achieve mask-level instance segmentation with only bounding-box annotations for training. While this setting has been studied in the literature, here we show significantly stronger performance with a simple design (e.g., dramatically improving previous best reported mask AP of 21.1% in Hsu et al. (2019) to 31.6% on the COCO dataset). Our core idea is to redesign the loss of learning masks in instance segmentation, with no modification to the segmentation network itself. The new loss functions can supervise the mask training without relying on mask annotations. This is made possible with two loss terms, namely, 1) a surrogate term that minimizes the discrepancy between the projections of the ground-truth box and the predicted mask; 2) a pairwise loss that can exploit the prior that proximal pixels with similar colors are very likely to have the same category label. Experiments demonstrate that the redesigned mask loss can yield surprisingly high-quality instance masks with only box annotations. For example, without using any mask annotations, with a ResNet-101 backbone and 3x training schedule, we achieve 33.2% mask AP on COCO test-dev split (vs. 39.1% of the fully supervised counterpart). Our excellent experiment results on COCO and Pascal VOC indicate that our method dramatically narrows the performance gap between weakly and fully supervised instance segmentation. Code is available at: https://git.io/AdelaiDet

연구 동기 및 목표

완전 감독과 약한 감독 인스턴스 세그멘테이션 간의 성능 격차를 좁히기 위해 경계 상자 애너테이션만으로 학습하는 것.
인스턴스 세그멘테이션에서 비용이 많이 드는 픽셀 수준의 마스크 애너테이션의 필요성을 제거하기 위해.
COCO와 같은 대규모 벤치마크에서 이전의 약한 감독 방법보다 뛰어난 성능을 내는 단순하고 단일 스텝이며 효율적인 방법을 개발하기 위해.
부분적인 마스크 및 상자 애너테이션을 사용하여 새로운 카테고리로의 일반화를 가능하게 하기 위해.
자기문자 세그멘테이션과 같은 다른 작업들에 대해서도 상자 수준의 감독만으로도 방법의 일반성을 입증하기 위해.

제안 방법

CondInst에서 표준 픽셀 수준의 마스크 손실을 두 항목으로 구성된 새로운 손실로 대체: 투영 일관성과 쌍별 레이블 일관성.
예측 마스크와 진짜 상자 간의 수평 및 수직 투영 간의 차이를 최소화하는 투영 손실을 사용.
색상 유사성 기반으로 이웃 픽셀 간의 일관된 레이블링을 장려하는 쌍별 손실을 적용하며, 확장률 2를 사용하고 신뢰도가 높은 쌍들만을 사용하여 노이즈를 줄인다.
색상 유사성 임계값을 정의하여 신뢰할 수 있는 픽셀 쌍을 식별하고, 유사한 레이블을 가진 쌍들만 손실에 기여하도록 보장한다.
반복적 보정이나 GrabCut과 같은 외부 도구가 필요 없이 유일한 상자 애너테이션만으로 모델을 종합적으로 훈련한다.
프레임워크의 완전한 컨volutional 성질을 활용하여 GrabCut과 같은 느린 비가역적 방법과는 달리 빠르고 GPU 병렬 처리가 가능한 추론을 가능하게 한다.

실험 결과

연구 질문

RQ1경계 상자 애너테이션만으로도 완전 감독 방법에 가까운 성능을 달성할 수 있는가?
RQ2복잡한 반복적 약한 감독 방법보다 단순하고 단일 스텝인 손실 설계가 COCO와 같은 대규모 벤치마크에서 더 나은 성능을 낼 수 있는가?
RQ3제안된 손실 구성 요소인 투영 일관성과 쌍별 레이블 일관성이 마스크 애너테이션이 없이도 고품질의 마스크 예측을 가능하게 하는가?
RQ4부분적인 마스크 애너테이션만 있을 경우 모델이 얼마나 새로운 카테고리로 일반화할 수 있는가?
RQ5이 방법은 자기문자 세그멘테이션과 같은 다른 세그멘테이션 작업으로 확장 가능할 수 있는가? 상자 수준의 감독만으로도 가능한가?

주요 결과

BoxInst는 ResNet-101 백본과 3× 훈련 스케줄을 사용하여 COCO 테스트-dev 스플릿에서 마스크 애너테이션이 전혀 없는 상황에서 33.2%의 마스크 AP를 달성했으며, 이는 이전 최고 성능인 21.1%를 뛰어넘었다.
투영 손실만을 사용할 경우 마스크 AP가 31.8%로 향상되고, 투영 손실과 쌍별 손실을 모두 적용할 경우 32.5%로 상승하여 이중 손실 설계의 효과를 입증했다.
반감독 설정에서는 20개 클래스에 마스크 애너테이션을, 나머지 60개의 새로운 COCO 카테고리에 상자 애너테이션을 사용하여 훈련한 결과 BoxInst는 30.9%의 마스크 AP를 달성하여 기준 모델보다 뚜렷이 뛰어났다.
60개 클래스에 마스크 애너테이션을, 20개의 새로운 클래스에 상자 애너테이션을 사용하여 훈련한 결과, BoxInst는 새로운 클래스에서 35.7%의 마스크 AP를 달성하여 강력한 일반화 능력을 보였다.
ICDAR 2019 ReCTS 데이터셋에서의 정성적 결과는 BoxInst가 자동차 상자 애너테이션만으로도 고품질의 문자 마스크를 생성함을 보여주었으며, 이는 방법의 일반성에 대한 증거가 되었다.
BoxInst는 GrabCut 기반 방법들(예: 36.5% 대비 19.0%)보다 훨씬 빠르며, 완전히 미분 가능하여 현대 GPU에서 효율적인 종단 간 훈련이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.