Skip to main content
QUICK REVIEW

[논문 리뷰] Bag of Freebies for Training Object Detection Neural Networks

Zhi Zhang, Tong He|arXiv (Cornell University)|2019. 02. 11.
Advanced Neural Network Applications참고 문헌 21인용 수 146
한 줄 요약

이 논문은 추론에 영향을 주지 않는 객체 탐지의 학습 시 포인트(훈련 시간 프리비)들을 연구하여, YOLOv3와 Faster R-CNN 전반에서 시각적으로 일관된 mixup, 라벨 스무딩, 코사인 학습률, 동기화된 BN, 무작위 형태 등을 차례로 쌓아 VOC/COCO에서 최대 5% 절대 mAP 향상을 보여준다.

ABSTRACT

Training heuristics greatly improve various image classification model accuracies~\cite{he2018bag}. Object detection models, however, have more complex neural network structures and optimization targets. The training strategies and pipelines dramatically vary among different models. In this works, we explore training tweaks that apply to various models including Faster R-CNN and YOLOv3. These tweaks do not change the model architectures, therefore, the inference costs remain the same. Our empirical results demonstrate that, however, these freebies can improve up to 5% absolute precision compared to state-of-the-art baselines.

연구 동기 및 목표

  • 객체 탐지 성능을 아키텍처에 상관없이 개선하는 일반적인 학습 트릭을 식별한다.
  • Pascal VOC와 MS COCO에서 YOLOv3와 Faster R-CNN에 대한 각 학습 트릭의 영향을 계량한다.
  • 단일/다중 스테이지 검출기에 이러한 트릭을 적용하기 위한 일관된 가이드라인을 개발한다.

제안 방법

  • 객체 탐지를 위해 공간 정렬을 보존하는 시각적으로 일관된 이미지 mixup을 제안한다.
  • 학습 시간 트릭(학습률 스케줄링, 라벨 스무딩, 동기화된 배치 정규화, 데이터 전처리 등)을 평가한다.
  • 단계적으로 트릭을 쌓아 단일 단계 및 다단계 검출기에 추가 효과를 평가한다.
  • 고정 입력 스케일과 표준 NMS를 사용하여 YOLOv3와 Faster-RCNN으로 Pascal VOC 및 COCO에서 결과를 벤치마크한다.

실험 결과

연구 질문

  • RQ1학습 시간 프리로 일반화가 단일 스테이지 대 다중 스테이지 파이프라인 간에 이루어지는가?
  • RQ2mixup, 라벨 스무딩, 코사인 LR 스케줄링, 동기화된 BN 및 기타 트릭이 mAP에 미치는 개별적 및 누적 영향은 무엇인가?
  • RQ3이 학습 트릭들이 네트워크 아키텍처를 바꾸지 않고 최첨단 기준치와의 격차를 줄일 수 있는가?
  • RQ4성능은 데이터셋(Pascal VOC 및 COCO) 및 입력 해상도에서 일관된가?

주요 결과

  • 아키텍처를 변경하지 않고 베이스라인 대비 최대 5% 절대 mAP 향상.
  • 객체 탐지를 위한 mixup은 합리적인 이득을 낳으며(예: VOC에서 다른 트릭과 함께 스택했을 때 누적 3.43%의 증가).
  • 데이터 증강만으로 단일 단계 검출기의 이득 대다수를 차지했다(COCO 결과에서 약 16%).
  • 동기화된 배치 정규화, 무작위 학습 형태, 코사인 LR 스케줄, 클래스 라벨 스무딩, 그리고 mixup이 YOLOv3와 Faster-RCNN에서 일관된 개선을 낸다.
  • COCO에서 BoF가 320–608 입력 해상도에서 YOLOv3를 최대 5.4% 절대 mAP 상승시키고 Faster-RCNN을 약 1–2% 상승시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.