[논문 리뷰] Learning to Segment Object Candidates
이 논문은 엣지 또는 슈퍼픽셀에 의존하지 않고 원시 이미지 픽셀에서 직접 클래스 무관 세그멘테이션 마스크와 객체 가능성 점수를 생성하는 컨볼루션 신경망인 DeepMask을 제안한다. MS COCO에서 훈련하고 PASCAL VOC 및 COCO에서 평가하여 최신 기술 수준의 객체 제안 성능를 달성하였으며, 이전 방법보다 훨씬 적은 제안 수로도 Recall에서 뛰어난 성능을 보였다. 예를 들어, 100개의 DeepMask 제안으로 68.2% mAP를 달성한 반면, 2000개의 SelectiveSearch 제안으로는 66.9% mAP를 기록하였다.
Recent object detection systems rely on two critical steps: (1) a set of object proposals is predicted as efficiently as possible, and (2) this set of candidate proposals is then passed to an object classifier. Such approaches have been shown they can be fast, while achieving the state of the art in detection performance. In this paper, we propose a new way to generate object proposals, introducing an approach based on a discriminative convolutional network. Our model is trained jointly with two objectives: given an image patch, the first part of the system outputs a class-agnostic segmentation mask, while the second part of the system outputs the likelihood of the patch being centered on a full object. At test time, the model is efficiently applied on the whole test image and generates a set of segmentation masks, each of them being assigned with a corresponding object likelihood score. We show that our model yields significant improvements over state-of-the-art object proposal algorithms. In particular, compared to previous approaches, our model obtains substantially higher object recall using fewer proposals. We also show that our model is able to generalize to unseen categories it has not seen during training. Unlike all previous approaches for generating object masks, we do not rely on edges, superpixels, or any other form of low-level segmentation.
연구 동기 및 목표
- 기존 방법을 능가하는 리콜과 효율성을 갖춘 객체 제안을 생성하는 방법을 개발하기 위해.
- 제안 생성 과정에서 엣지, 슈퍼픽셀, 수작업으로 설계된 특징과 같은 저수준 신호에 의존하지 않기 위해.
- 세그멘테이션 마스크와 객체 가능성 점수를 동시에 예측하는 통합 컨볼루션 네트워크를 훈련하기 위해.
- 훈련 중에 포함되지 않은 새로운 객체 카테고리에 대한 일반화 성능를 평가하기 위해.
- 더 적은 수의 제안으로도 향상된 검출 성능를 보여주기 위해, Fast R-CNN와 통합하여 성능을 입증하기 위해.
제안 방법
- 공통 컨볼루션 기반 아키텍처가 이미지 패치를 처리하고 세그멘테이션과 객체 가능성 예측을 위한 특징을 출력한다.
- 세그멘테이션 브랜치는 특징에서 56×56 클래스 무관 마스크를 예측하기 위해 저랭크 완전 연결층을 사용한다.
- 객체 가능성 브랜치는 별도로 디스크리미너티브하게 훈련된 헤드를 사용하여 패치가 완전한 객체를 포함할 가능성 점수를 예측한다.
- 마스크 및 점수 예측 목표를 결합한 공동 손실을 사용하여 엔드 투 엔드로 모델을 훈련한다.
- 테스트 시, 네트워크는 다중 스케일에서 이미지 전역에 걸쳐 조밀하게 적용되어 순위가 매겨진 세그멘테이션 제안을 생성한다.
- 스케일 간 배치 처리와 GPU 가속을 통해 추론 속도를 향상시킨다.
실험 결과
연구 질문
- RQ1딥 컨볼루션 네트워크는 저수준 세그멘테이션에 의존하지 않고 원시 이미지 픽셀에서 직접 고품질의 객체 제안을 학습할 수 있는가?
- RQ2세그멘테이션과 객체 가능성 예측을 동시에 최적화하는 것이 별도 최적화보다 제안 품질을 향상시키는가?
- RQ3훈련 중에 나타나지 않은 객체 카테고리에 대해 모델이 일반화될 수 있는가, 특히 세그멘테이션 브랜치에서 성능가능성은?
- RQ4더 적은 수의 고품질 제안을 사용할 경우, 후속 검출 성능가 향상되는가?
- RQ5다양한 객체 크기와 IoU 임계값에서 모델의 성능는 어떠한가?
주요 결과
- PASCAL VOC 2007에서 DeepMask는 단 500개의 제안으로 69.9% mAP를 달성하였으며, 2000개의 SelectiveSearch 제안을 사용한 Fast R-CNN(66.9% mAP)을 능가하였다.
- 100개의 제안으로도 DeepMask는 68.2% mAP를 기록하였고, 2000개의 SelectiveSearch 제안으로 얻은 66.9% mAP를 초월하였다.
- PASCAL VOC 2007에서 DeepMask는 1000개 제안에서 평균 리콜 69.0%(AR@1000)를 달성하였으며, MCG(63.4%)와 SelectiveSearch(61.8%)를 모두 능가하였다.
- 모델은 잘 일반화된다: 20개의 PASCAL 카테고리로만 훈련된 DeepMask20∗는 80개의 COCO 카테고리에서 전체 DeepMask 모델의 성능를 재현하였다.
- IoU 임계값이 0.7 이하일 경우, DeepMask는 모든 기준 모델보다 높은 국소화 리콜을 기록하였으며, 매우 높은 IoU(≥0.9)에서는 다운샘플링된 마스크 출력으로 인해 약간 성능이 떨어졌다.
- COCO에서 이미지당 추론 시간은 1.6초이며(PASCAL에서는 1.2초) 이는 Geodesic(~1초)과 경쟁 가능하며, MCG(~30초)보다 훨씬 빠르다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.