Skip to main content
QUICK REVIEW

[논문 리뷰] RON: Reverse Connection with Objectness Prior Networks for Object Detection

Tao Kong, Fuchun Sun|arXiv (Cornell University)|2017. 07. 06.
Advanced Neural Network Applications참고 문헌 25인용 수 66
한 줄 요약

RON은 CNN 스케일 간의 역방향 연결과 객체 존재성(prior)을 결합하여 빠르고 엔드-투-엔드이며 완전한 합성곱 탐지기를 만들어 영역 기반 및 영역 프리 방법과 경쟁하며 VOC와 COCO에서 강력한 성능을 달성하고 약 15 FPS로 실행됩니다.

ABSTRACT

We present RON, an efficient and effective framework for generic object detection. Our motivation is to smartly associate the best of the region-based (e.g., Faster R-CNN) and region-free (e.g., SSD) methodologies. Under fully convolutional architecture, RON mainly focuses on two fundamental problems: (a) multi-scale object localization and (b) negative sample mining. To address (a), we design the reverse connection, which enables the network to detect objects on multi-levels of CNNs. To deal with (b), we propose the objectness prior to significantly reduce the searching space of objects. We optimize the reverse connection, objectness prior and object detector jointly by a multi-task loss function, thus RON can directly predict final detection results from all locations of various feature maps. Extensive experiments on the challenging PASCAL VOC 2007, PASCAL VOC 2012 and MS COCO benchmarks demonstrate the competitive performance of RON. Specifically, with VGG-16 and low resolution 384X384 input size, the network gets 81.3% mAP on PASCAL VOC 2007, 80.7% mAP on PASCAL VOC 2012 datasets. Its superiority increases when datasets become larger and more difficult, as demonstrated by the results on the MS COCO dataset. With 1.5G GPU memory at test phase, the speed of the network is 15 FPS, 3X faster than the Faster R-CNN counterpart.

연구 동기 및 목표

  • 영역 기반 탐지와 영역 프리 탐지 패러다임을 연결해 두 가지의 강점을 활용한다.
  • 역방향 연결을 통해 객체를 해당 CNN 스케일과 연관시켜 다중 스케일 객체 로컬라이제이션을 가능하게 한다.
  • 탐지를 안내하기 위해 객체 존재성(prior)을 도입해 음성 샘플 탐색을 줄인다.
  • 객체존재성, 로컬라이제이션, 분류를 함께 최적화하는 통합된 엔드-투-엔드 프레임워크를 학습하고 배포한다.

제안 방법

  • 상위 수준의 의미 맵에서 추출된 특성을 하위 레이어로 융합하는 역방향 연결을 도입해 다중 CNN 스케일에서 객체를 탐지한다.
  • 다중 특성 맵에서 스케일과 종횡비를 가진 기준(기본) 박스를 생성해 객체 크기를 포괄한다.
  • 가벼운 가지로 객체 존재성(prior)을 추가해 객체 탐색을 안내하고 학습 및 추론 중 음성 샘플을 줄인다.
  • 다중 스케일 특성 맵에서 바운딩 박스를 분류하고 회귀하기 위해 인셉션 기반 탐지 모듈을 사용한다.
  • 객체 존재성(prior)과 탐지를 다중 작업 손실로 결합해 객체존재성, 로컬라이제이션, 클래스별 분류를 함께 최적화한다.
  • 추론 시 객체 존재성과 클래스 조건부 예측을 곱해 클래스 조건부 점수를 계산하고 NMS를 적용해 최종 탐지를 얻한다.

실험 결과

연구 질문

  • RQ1다중 CNN 스케일에 탐지를 분산시키고 학습 가능한 역방향 연결로 다중 스케일 객체 로컬라이제이션을 어떻게 개선할 수 있는가?
  • RQ2명시적 객체 존재성(prior)이 탐색 공간을 줄이고 별도의 영역 제안을 생성하지 않고도 학습 효율을 향상시킬 수 있는가?
  • RQ3객체존재성, 로컬라이제이션, 분류의 공동 엔드-투-엔드 최적화가 영역 기반 및 영역 프리 탐지기에 대해 경쟁력 있는 성능을 낼 수 있는가?

주요 결과

  • RON은 MS COCO 사전 학습 및 VOC2012 미세 조정에서 PASCAL VOC 2007의 81.3% mAP를 달성합니다(VOC2007 표 4의 결과 포함).
  • RON은 동일한 사전 학습 설정으로 PASCAL VOC 2012에서 80.7% mAP를 달성합니다(표 4).
  • MS COCO test-dev2015에서 RON은 27.4% AP를 달성하여 표준 COCO 평가에서 Faster R-CNN 및 SSD를 능가합니다(표 3).
  • 추론 시 1.5 GB GPU 메모리에서 RON은 15 FPS로 실행되며 Faster R-CNN보다 약 3배 빠릅니다.
  • 여러 개의 특징 맵과 역방향 연결을 사용하면 기저선 대비 작은 물체(예: 보트, 병 등) 탐지가 향상됩니다.
  • COCO 사전 학습 미세 조정은 VOC 결과를 크게 향상시키며, RON384++은 VOC2012에서 VGG-16 기반 모델 중 최상위 성능을 달성합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.