Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Object Detectors from Scratch with Gated Recurrent Feature Pyramids.

Zhiqiang Shen, Humphrey Shi|arXiv (Cornell University)|2017. 12. 04.
Advanced Neural Network Applications참고 문헌 33인용 수 37
한 줄 요약

이 논문은 특징 피라미드의 다양한 스케일에서 동적으로 감독을 조정함으로써, 처음부터 객체 검출기를 학습하는 게이트 제어된 순환 특징 피라미드 네트워크를 제안한다. 파라미터 수를 DSOD의 1/3으로 줄이고 게이트 제어 특징 정련을 통해 PASCAL VOC 2012 (VOC 07++12)에서 77% mAP를 달성하며, 사전 훈련되지 않은 기존 방법들을 능가하고 일부 ImageNet 사전 훈련 모델을 초월한다.

ABSTRACT

In this paper, we propose gated recurrent feature pyramid for the problem of learning object detection from scratch. Our approach is motivated by the recent work of deeply supervised object detector (DSOD), but explores new network architecture that dynamically adjusts the supervision intensities of intermediate layers for various scales in object detection. The benefits of the proposed method are two-fold: First, we propose a recurrent feature-pyramid structure to squeeze rich spatial and semantic features into a single prediction layer that further reduces the number of parameters to learn (DSOD need learn 1/2, but our method need only 1/3). Thus our new model is more fit for learning from scratch, and can converge faster than DSOD (using only 50% of iterations). Second, we introduce a novel gate-controlled prediction strategy to adaptively enhance or attenuate supervision at different scales based on the input object size. As a result, our model is more suitable for detecting small objects. To the best of our knowledge, our study is the best performed model of learning object detection from scratch. Our method in the PASCAL VOC 2012 comp3 leaderboard (which compares object detectors that are trained only with PASCAL VOC data) demonstrates a significant performance jump, from previous 64% to our 77% (VOC 07++12) and 72.5% (VOC 12). We also evaluate the performance of our method on PASCAL VOC 2007, 2012 and MS COCO datasets, and find that the accuracy of our learning from scratch method can even beat a lot of the state-of-the-art detection methods which use pre-trained models from ImageNet. Code is available at: this https URL .

연구 동기 및 목표

  • 작은 객체에 대해 정확한 객체 검출기를 처음부터 훈련시키는 데 도전하는 것.
  • 특징 피라미드 네트워크의 학습 가능한 파라미터 수를 줄여 훈련 효율성과 수렴 속도를 향상시키는 것.
  • 객체 크기에 따라 적응적으로 감독을 조절할 수 있는 동적 감독 메커니즘을 개발하는 것.
  • 다양한 특징 수준에서 감독을 선택적으로 강화하거나 감쇠시킴으로써 작은 객체 검출 성능을 향상시키는 것.
  • ImageNet 사전 훈련 없이도 PASCAL VOC 및 MS COCO 데이터셋에서 최고 성능을 달성하는 것.

제안 방법

  • 다양한 스케일에서 특징을 반복적으로 정련하는 순환 특징 피라미드 구조를 도입하여 학습해야 할 파라미터 수를 줄인다.
  • 입력 객체 크기에 따라 감독 강도를 적응적으로 조절하는 게이트 제어 메커니즘을 사용한다.
  • 검출된 객체의 크기에 따라 특징 맵을 강화하거나 억제하는 게이트 메커니즘이 작동하여 작은 객체 검출 성능을 향상시킨다.
  • 아키텍처는 ImageNet 사전 훈련에 의존하지 않고 엔드 투 엔드로 처음부터 훈련된다.
  • 학습 가능한 파라미터 수를 DSOD의 1/3으로 줄여, 반복 횟수의 50%만으로도 더 빠른 수렴이 가능하다.
  • 공간적 정보와 의미적 정보를 다양한 스케일 간에 통합하는 순환 정련 과정을 통해 특징 피라미드를 업데이트한다.

실험 결과

연구 질문

  • RQ1순환 특징 피라미드 아키텍처는 처음부터 객체 검출을 위한 훈련 효율성과 성능을 향상시킬 수 있는가?
  • RQ2게이트 메커니즘을 통한 적응적 감독은 특히 작은 객체에 대해 검출 정확도에 어떤 영향을 미치는가?
  • RQ3사전 훈련 없이 훈련된 모델이 ImageNet 사전 훈련에 의존하는 최고 수준의 검출기들을 능가할 수 있는가?
  • RQ4학습 가능한 파라미터 수를 줄이면 수렴 속도와 모델 효율성이 어느 정도 향상되는가?
  • RQ5제안된 방법은 PASCAL VOC 및 MS COCO와 같은 다양한 데이터셋에 대해 얼마나 잘 일반화되는가?

주요 결과

  • 제안된 방법은 PASCAL VOC 2012 (VOC 07++12)에서 기존 사전 훈련 없이 훈련된 최고 수준의 64%보다 뚜렷한 향상을 이룩하여 77% mAP를 달성했다.
  • PASCAL VOC 2012 단독에서 72.5% mAP를 기록하여 사전 훈련 없이도 뛰어난 성능을 입증했다.
  • DSOD가 요구하는 반복 횟수의 50%만으로도 수렴함으로써 파라미터 수 감소로 인해 훨씬 더 빠른 훈련 속도를 보였다.
  • PASCAL VOC 2007 및 2012에서 ImageNet 사전 훈련을 사용하는 많은 최고 수준의 검출기들을 능가하는 성능을 보였다.
  • 게이트 제어 감독 메커니즘이 동적으로 특징 학습 강도를 조절함으로써 작은 객체 검출 성능을 크게 향상시켰다.
  • MS COCO에서의 성능은 사전 훈련 없이도 경쟁 가능한 정확도를 달성함으로써 일반화 능력을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.