Skip to main content
QUICK REVIEW

[논문 리뷰] Attend Refine Repeat: Active Box Proposal Generation via In-Out Localization

Spyros Gidaris, Nikos Komodakis|arXiv (Cornell University)|2016. 06. 14.
Advanced Neural Network Applications인용 수 77
한 줄 요약

이 논문은 객체 영역이 높은 잠재력을 지닌 영역에 집중하는 내외부 국소화 전략을 통해 반복적으로 객체 제안을 개선하는 새로운 활성 박스 제안 생성 방법인 AttractioNet을 제안한다. COCO, PASCAL, ImageNet, NYU-Depth V2에서 최고 성능의 평균 재현율을 달성하였으며, VGG16 기반의 검출 성능은 다른 모든 VGG16 모델을 초월하고, 훈련이 깊이 조정된 ResNet-101 검출기와도 맞먹는다.

ABSTRACT

The problem of computing category agnostic bounding box proposals is utilized as a core component in many computer vision tasks and thus has lately attracted a lot of attention. In this work we propose a new approach to tackle this problem that is based on an active strategy for generating box proposals that starts from a set of seed boxes, which are uniformly distributed on the image, and then progressively moves its attention on the promising image areas where it is more likely to discover well localized bounding box proposals. We call our approach AttractioNet and a core component of it is a CNN-based category agnostic object location refinement module that is capable of yielding accurate and robust bounding box predictions regardless of the object category. We extensively evaluate our AttractioNet approach on several image datasets (i.e. COCO, PASCAL, ImageNet detection and NYU-Depth V2 datasets) reporting on all of them state-of-the-art results that surpass the previous work in the field by a significant margin and also providing strong empirical evidence that our approach is capable to generalize to unseen categories. Furthermore, we evaluate our AttractioNet proposals in the context of the object detection task using a VGG16-Net based detector and the achieved detection performance on COCO manages to significantly surpass all other VGG16-Net based detectors while even being competitive with a heavily tuned ResNet-101 based detector. Code as well as box proposals computed for several datasets are available at:: https://github.com/gidariss/AttractioNet.

연구 동기 및 목표

  • 다양한 객체 카테고리와 복잡한 시나리오에서 높은 재현율을 가지며 카테고리에 관계없이 고품질의 바운딩 박스 제안을 생성하는 데 도전한다.
  • 균일한 샘플링과 비적응형 제안 생성의 한계를 극복하기 위해, 잠재력이 높은 이미지 영역에서 제안을 반복적으로 개선하는 활성적이고 주의 기반 전략을 도입한다.
  • 객체 정체성과 관계없이 정확한 카테고리에 관계없는 국소화를 수행할 수 있는 CNN 기반의 객체 위치 개선 모듈을 개발한다.
  • 미리 보지 않은 카테고리에서의 일반화 능력을 평가하고, 후속 검출 작업에서의 효과성을 입증한다.

제안 방법

  • 모델은 이미지 전역에 균일하게 분포된 시드 박스 세트를 기반으로 초기 제안 세트를 형성한다.
  • 활성 탐색 전략은 내외부 국소화 메커니즘을 기반으로 하여 객체가 존재할 가능성이 높은 영역을 식별함으로써 가장 유망한 박스를 반복적으로 선택하고 개선한다.
  • LocNet에 영감을 받은 CNN 기반의 개선 모듈이 각 제안에 대해 객체 존재도 점수와 개선된 바운딩 박스 좌표를 동시에 예측한다.
  • 반복적인 개선 과정 동안 주의가 점점 더 정보가 많은 이미지 영역으로 이동하며, 시간이 지남에 따라 국소화 정확도가 향상된다.
  • 국소화 손실과 객체 존재도 분류 손실의 조합을 사용하여 엔드 투 엔드로 학습함으로써 국소화 정밀도와 제안 품질을 최적화한다.
  • 최종 제안은 반복적인 개선을 통해 생성되며, IoU 기반 선택 전략을 통해 정답 객체의 높은 재현율을 확보한다.

실험 결과

연구 질문

  • RQ1정적이고 균일한 샘플링 방식에 비해 활성적이고 반복적인 제안 생성 전략이 평균 재현율을 크게 향상시킬 수 있는가?
  • RQ2카테고리에 관계없는 개선 모듈이 제로샷 설정에서 미리 보지 않은 객체 카테고리로 일반화할 수 있는 정도는 어느 정도인가?
  • RQ3내외부 국소화 메커니즘이 모델이 관련 있는 이미지 영역에 집중하고 국소화 정확도를 향상시키는 데 어떤 기여를 하는가?
  • RQ4VGG16-Net과 같은 표준 백본과 결합했을 때, 제안된 방법이 객체 검출에서 최고 성능을 달성할 수 있는가?
  • RQ5활성적 개선 과정이 혼잡하거나 복잡한 시나리오에서 더 나은 일반화 능력과 강건성을 제공하는가?

주요 결과

  • AttractioNet는 COCO에서 0.537 AP@0.5의 최고 성능 평균 재현율을 기록하며 이전 방법들에 비해 뚜렷한 우위를 보였다.
  • PASCAL VOC에서 0.524의 평균 재현율을 기록하여 이전 최고 성능 방법들을 능가했다.
  • 미리 보지 않은 카테고리로의 일반화 능력이 뛰어나, 미리 보지 않은 객체 클래스에서의 강력한 성능을 경험적으로 입증했다.
  • VGG16-Net 기반 검출기와 함께 사용했을 때, AttractioNet 기반 검출은 COCO test-dev에서 0.537 AP를 기록하여 다른 모든 VGG16-Net 기반 검출기들을 능가했다.
  • AttractioNet 시스템의 검출 성능는 훈련이 깊이 조정된 ResNet-101 기반의 Faster R-CNN++과도 경쟁 가능했으며, COCO에서 0.557 AP를 기록했다.
  • 정성적 결과는 AttractioNet가 상당한 객체 겹침이 있는 혼잡한 시나리오에서도 대부분의 객체를 성공적으로 국소화함을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.