Skip to main content
QUICK REVIEW

[논문 리뷰] An Implementation of Faster RCNN with Study for Region Sampling

Xinlei Chen, Abhinav Gupta|arXiv (Cornell University)|2017. 02. 07.
Advanced Neural Network Applications참고 문헌 7인용 수 124
한 줄 요약

이 논문은 TensorFlow에서 Faster R-CNN을 구현하고, 단순화들을 분석하며, 지역 샘플링 전략을 연구한다. 작은 영역으로의 편향 샘플링이 충분한 수렴하에서 NMS 기반 샘플링과 동일하거나 그 이상을 달성할 수 있음을 보인다.

ABSTRACT

We adapted the join-training scheme of Faster RCNN framework from Caffe to TensorFlow as a baseline implementation for object detection. Our code is made publicly available. This report documents the simplifications made to the original pipeline, with justifications from ablation analysis on both PASCAL VOC 2007 and COCO 2014. We further investigated the role of non-maximal suppression (NMS) in selecting regions-of-interest (RoIs) for region classification, and found that a biased sampling toward small regions helps performance and can achieve on-par mAP to NMS-based sampling when converged sufficiently.

연구 동기 및 목표

  • Faster RCNN의 joint-training을 Caffe에서 TensorFlow로 기본 구현으로 적응시키기.
  • 원래 파이프라인을 단순화하고 VOC 2007 및 COCO 2014에서 ablation을 통해 영향을 평가한다.
  • 향상된 탐지를 위한 RoI 선택에서 지역 샘플링과 NMS의 역할을 조사한다.

제안 방법

  • RoI 풀링 대신 crop_and_resize 풀링을 채택하여 14x14 크롭을 생성하고, fc6 입력을 위해 7x7으로 최대 풀링한다.
  • 한 장의 이미지(N=1)와 한 번의 순전파-역전파당 R=256 영역으로 학습한다(배치 간 그래디언트 누적은 피한다).
  • R=256 영역인 기본 RPN 훈련을 유지하면서 영역 분류기를 편향된 지역 샘플링으로 훈련한다.
  • 작은 프로포절 제외(<16 픽셀)를 훈련 중 제거하여 작은 물체의 성능 손실을 관찰했다.
  • 학습/테스트 성능 및 재현율에 미치는 영향을 연구하기 위해 다중 지역 샘플링 스킴(NMS, ALL, PRE, POW, TOP)을 비교한다.

실험 결과

연구 질문

  • RQ1RoI 풀링에서 crop_and_resize로 전환하는 것이 Faster R-CNN의 성능에 영향을 미치는가?
  • RQ2학습 중에 작은 제안들에 편향된 영역 샘플링이 NMS를 통한 중복 제거에 의존하는 것보다 유리한가?
  • RQ3다양한 지역 샘플링 스킴(NMS, ALL, PRE, POW, TOP)이 VOC 2007 및 COCO 2014의 mAP와 recall에 어떤 영향을 미치는가?
  • RQ4샘플링되는 영역의 수 R을 증가시키는 것이 수렴과 성능에 어떤 영향을 미치는가?
  • RQ5훈련 중 NMS 부재를 TOP(상위-K 제안 직접 선택)으로 보상할 수 있는가?

주요 결과

  • TensorFlow Faster R-CNN 구현에서 crop_and_resize 풀링이 RoI 풀링에 비해 약간의 성능 이점을 제공한다.
  • 한 이미지(N=1)에서 R=256 영역을 샘플링하는 것은 효과적이며 여러 배치에 걸친 느린 그래디언트 누적을 피한다; RPN은 여전히 256 제안을 사용한다.
  • 훈련 중 작은 프로포절 필터(<16 px)를 제거하면 성능이 향상되며 특히 작은 물체에서 효과가 커진다.
  • 작은 영역에 편향된 샘플링(NMS 기반, PRE, POW, TOP 스킴)은 일반적으로 ALL 샘플링보다 비슷하거나 더 나은 mAP/recall을 보이며, K가 클 때 TOP이 종종 NMS와 동등하거나 이를 초과한다.
  • VOC 2007의 경우 편향 샘플링 스킴이 약 71% mAP를 달성하며 작은 물체의 개선(AP for small objects)이 관찰된다; COCO 2014의 경우 편향 샘플링이 작은 물체의 AP와 AR을 개선한다(특정 구성에서 AP와 AR 이득이 관찰됨).
  • R을 256 이상으로 증가시키면 수익 감소 또는 과적합으로 이어질 수 있으며, 256이 좋은 절충점을 제공한다.
  • 더 긴 학습(예: COCO에서 790k 반복)에서 NMS와 편향 샘플링의 차이가 좁혀지며, 수렴 시간이 샘플링 전략 간 상대 성능에 영향을 준다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.