Skip to main content
QUICK REVIEW

[논문 리뷰] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal\n Networks

Shaoqing Ren, Kaiming He|arXiv (Cornell University)|2015. 06. 04.
Advanced Neural Network Applications참고 문헌 19인용 수 6,233
한 줄 요약

Faster R-CNN은 Fast R-CNN과 Convolutional 특징을 공유하는 Region Proposal Networks(RPNs)을 도입하여 영역 제안을 즉시 생성하고, 거의 비용이 들지 않는 제안과 엔드-투-엔드 학습을 통해 VOC와 COCO 데이터세트에서 강력한 정확도의 실시간 객체 탐지를 가능하게 한다.

ABSTRACT

State-of-the-art object detection networks depend on region proposal\nalgorithms to hypothesize object locations. Advances like SPPnet and Fast R-CNN\nhave reduced the running time of these detection networks, exposing region\nproposal computation as a bottleneck. In this work, we introduce a Region\nProposal Network (RPN) that shares full-image convolutional features with the\ndetection network, thus enabling nearly cost-free region proposals. An RPN is a\nfully convolutional network that simultaneously predicts object bounds and\nobjectness scores at each position. The RPN is trained end-to-end to generate\nhigh-quality region proposals, which are used by Fast R-CNN for detection. We\nfurther merge RPN and Fast R-CNN into a single network by sharing their\nconvolutional features---using the recently popular terminology of neural\nnetworks with 'attention' mechanisms, the RPN component tells the unified\nnetwork where to look. For the very deep VGG-16 model, our detection system has\na frame rate of 5fps (including all steps) on a GPU, while achieving\nstate-of-the-art object detection accuracy on PASCAL VOC 2007, 2012, and MS\nCOCO datasets with only 300 proposals per image. In ILSVRC and COCO 2015\ncompetitions, Faster R-CNN and RPN are the foundations of the 1st-place winning\nentries in several tracks. Code has been made publicly available.\n

연구 동기 및 목표

  • 두 단계 탐지기에서 영역 제안 병목을 줄이는 동기를 제시한다.
  • 검출기와 특징을 공유하는 완전 합성곱 Region Proposal Network(RPN)를 제안한다.
  • RPN과 Fast R-CNN을 결합하는 공동 학습 전략을 개발하여 단일 네트워크로 구성한다.
  • PASCAL VOC 및 COCO 데이터세트에서 속도-정확도 트레이드오프를 평가한다.
  • 실용적 효과성과 실제 벤치마크에서의 경쟁력을 보여준다.

제안 방법

  • 공유 컨볼루션 특성 맵을 따라 슬라이딩하면서 각 위치에서 객체성(o bjectness)과 경계 상자(bounding box)를 예측하는 Region Proposal Network(RPN)을 도입한다.
  • 각 슬라이딩 위치에서 앵커(k=9)를 사용하여 서로 다른 스케일과 가로세로 비를 갖는 다중 제안을 예측한다.
  • 객체성 분류와 경계 상자 회귀(smooth L1 손실)를 결합한 다중 작업 손실로 학습한다.
  • RPN과 Fast R-CNN 사이의 합성곱 계층을 공유하여 거의 비용이 들지 않는 제안을 포함하는 단일 네트워크를 형성한다.
  • 공유된 특징을 학습하면서 제안 품질을 보존하는 4단계 교대 학습 절차를 제시한다.

실험 결과

연구 질문

  • RQ1공유된 컨볼루션 백본에서 영역 제안이 탐지 정확도를 희생하지 않고도 효율적으로 생성될 수 있는가?
  • RQ2제안 네트워크와 검출 네트워크 간의 특징 공유가 측정 가능한 속도 증가와 엔드-투-엔드 성능 개선을 가져오는가?
  • RQ3앵커 기반 다중 스케일 제안이 데이터세트 전반의 탐지 정확도에 어떤 영향을 미치는가?
  • RQ4깊은 아키텍처를 사용한 실시간 객체 탐지를 위한 엔드-투-엔드 학습 가능 프레임워크가 가능한가?

주요 결과

  • RPN+Fast R-CNN은 300개의 제안으로도 VOC 2007/2012에서 최첨단 또는 경쟁 수준의 mAP를 달성한다.
  • VGG-16을 사용하는 VOC 2007에서 RPN+VGG와 공유 특성은 300 제안으로 학습 시 69.9% mAP를 달성한다(07).
  • VGG-16을 사용하는 VOC 2007에서 RPN+VGG와 공유 특성은 07+12(300 제안)로 학습 시 73.2% mAP를 달성한다.
  • VGG-16을 사용할 때 Faster R-CNN은 전체 탐지 파이프라인(모든 단계 포함)에서 약 5 fps로 GPU에서 작동하여 실시간 가능성을 보여준다(약 300 제안 사용).
  • 공유 특성을 사용할 때 제안 생성의 계산 부담을 이미지당 약 10 ms로 줄여 엔드-투-엔드 탐지를 더 빠르게 가능하게 한다.
  • 제안 수를 300을 초과하면 테스트 구성에서 mAP의 수익 증가가 감소하는 경향이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.