Skip to main content
QUICK REVIEW

[논문 리뷰] Object Detection in 20 Years: A Survey

Zhengxia Zou, Chen, Keyan|arXiv (Cornell University)|2019. 05. 13.
Advanced Neural Network Applications참고 문헌 396인용 수 560
한 줄 요약

객체 탐지의 전통적인 수작업 특징에서 딥러닝 기반 방법으로의 진화를 추적하고, 중요한 detector들, 데이터셋, 지표, 빌딩 블록, 속도 향상 기법, 그리고 2022년까지의 최첨단 방법들을 상세히 다룹니다.

ABSTRACT

Object detection, as of one the most fundamental and challenging problems in computer vision, has received great attention in recent years. Over the past two decades, we have seen a rapid technological evolution of object detection and its profound impact on the entire computer vision field. If we consider today's object detection technique as a revolution driven by deep learning, then back in the 1990s, we would see the ingenious thinking and long-term perspective design of early computer vision. This paper extensively reviews this fast-moving research field in the light of technical evolution, spanning over a quarter-century's time (from the 1990s to 2022). A number of topics have been covered in this paper, including the milestone detectors in history, detection datasets, metrics, fundamental building blocks of the detection system, speed-up techniques, and the recent state-of-the-art detection methods.

연구 동기 및 목표

  • 전통적인 방법에서 딥러닝 기반 방법까지의 객체 탐지의 역사적 진화를 지도한다.
  • 핵심 아이디어(특징, 제안, 엔드-투-엔드 네트)의 주요 이정표 탐지기를 요약한다.
  • 탐지 발전에 영향을 준 데이터셋과 평가 지표를 분석한다.
  • 실용적 탐지기를 가능하게 한 속도 향상 기법과 핵심 아키텍처 구성 요소를 검토한다.

제안 방법

  • 주요 이정표 탐지기와 그 기술 혁신(VJ, HOG, DPM, RCNN 계열, YOLO/SSD, RetinaNet, DETR 등)의 개요.
  • 데이터셋(VOC, ILSVRC/ImageNet, MS-COCO, Open Images) 및 발전하는 평가 지표(IoU 임계값, MS-COCO AP)의 비교.
  • 다중 스케일 탐지, 맥락 프라이밍, 제안 기반 대 앵커-프리 방식, 손실 함수에 대한 논의.
  • 속도 향상 기법과 엔드투엔드 학습의 발전의 종합.

실험 결과

연구 질문

  • RQ12014년 전후로 객체 탐지를 형성한 주요 역사적 이정표는 무엇인가?
  • RQ2데이터셋과 평가 지표가 탐지기의 발전과 공정한 비교를 어떻게 이끌어 왔는가?
  • RQ3정확도를 희생하지 않으면서 실시간 또는 거의 실시간 탐지를 가능하게 만든 아키텍처 및 학습 혁신은 무엇인가?

주요 결과

  • 두 가지 주요 시기가 나타났다: 2014년 이전의 전통적 탐지기와 2014년 이후의 딥러닝 기반 탐지기.
  • R-CNN 시대는 영역 제안과 CNN 기반 특징을 도입했고, 이어 Fast RCNN과 Faster RCNN이 엔드-투-엔드 학습 및 Region Proposal Networks(RPN)을 통한 거의 실시간 성능을 제공했다.
  • FPN(Feature Pyramid Networks)은 모든 스케일에서 시맨틱 맵을 구축하여 다중 스케일 탐지를 효과적으로 가능하게 하고 Faster R-CNN과 함께 COCO 결과를 향상시켰다.
  • 원샷 탐지기(YOLO, SSD)는 높은 속도를 달성했고, focal loss(RetinaNet)은 클래스 불균형을 해결하여 더 높은 속도에서도 경쟁력 있는 정확도를 달성했다.
  • 트랜스포머 기반 DETR은 앵커 박스 없이 엔드-투-엔드 세트 예측을 도입했고, Deformable DETR은 MS-COCO에서 강한 성능을 달성했다(예: COCO에서 71.9% mAP).
  • MS-COCO와 Open Images가 현재 표준 벤치마크로 강조되며, 고정된 IoU 임계값에서 다중 임계값 COCO AP로의 메트릭이 발전하고 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.