Skip to main content
QUICK REVIEW

[논문 리뷰] DSOD: Learning Deeply Supervised Object Detectors from Scratch

Zhiqiang Shen, Zhuang Liu|arXiv (Cornell University)|2017. 08. 03.
Advanced Neural Network Applications참고 문헌 30인용 수 96
한 줄 요약

DSOD는 DenseNets와 SSD에서 영감을 받은 제안-free, 조밀하게 연결된 프레임워크에서 처음부터 객체 탐지기를 학습시켜 더 작은 모델과 실시간 속도로 최첨단 성능을 달성합니다.

ABSTRACT

We present Deeply Supervised Object Detector (DSOD), a framework that can learn object detectors from scratch. State-of-the-art object objectors rely heavily on the off-the-shelf networks pre-trained on large-scale classification datasets like ImageNet, which incurs learning bias due to the difference on both the loss functions and the category distributions between classification and detection tasks. Model fine-tuning for the detection task could alleviate this bias to some extent but not fundamentally. Besides, transferring pre-trained models from classification to detection between discrepant domains is even more difficult (e.g. RGB to depth images). A better solution to tackle these two critical problems is to train object detectors from scratch, which motivates our proposed DSOD. Previous efforts in this direction mostly failed due to much more complicated loss functions and limited training data in object detection. In DSOD, we contribute a set of design principles for training object detectors from scratch. One of the key findings is that deep supervision, enabled by dense layer-wise connections, plays a critical role in learning a good detector. Combining with several other principles, we develop DSOD following the single-shot detection (SSD) framework. Experiments on PASCAL VOC 2007, 2012 and MS COCO datasets demonstrate that DSOD can achieve better results than the state-of-the-art solutions with much more compact models. For instance, DSOD outperforms SSD on all three benchmarks with real-time detection speed, while requires only 1/2 parameters to SSD and 1/10 parameters to Faster RCNN. Our code and models are available at: https://github.com/szq0214/DSOD .

연구 동기 및 목표

  • 사전 학습된 분류 모델에서 생기는 편향을 피하기 위해 처음부터 객체 탐지기를 학습시키는 것을 동기화합니다.
  • 자원 효율이 높은 고정밀 탐지기를 위한 설계 원칙을 제안합니다.
  • 깊은 감독을 가진 제안-free, 단일 샷 탐지 패러다임에 기반한 DSOD 프레임워크를 개발합니다.
  • DSOD가 더 작은 모델로 VOC 2007, VOC 2012, MS COCO에서 최첨단 결과를 달성함을 입증합니다.

제안 방법

  • 속도를 위해 SSD를 기반으로 한 제안-free, 단일 샷 탐지 프레임워크를 채택합니다.
  • 깊은 감독을 위한 조밀한 층별 연결을 도입하여 암시적 보조 감독을 가능하게 합니다.
  • 원시 입력으로부터의 정보 손실을 줄이기 위해 스템 블록을 도입합니다.
  • 예측 스케일마다 다중 스케일 특성 맵을 융합하는 조밀한 예측 구조를 사용합니다.
  • 다운샘플링 없이 조밀 블록을 증가시키기 위한 풀링 없는 전이(transition) 층을 포함합니다.
  • 표준 탐지 벤치마크에서 모든 네트워크를 처음부터 학습시킵니다.

실험 결과

연구 질문

  • RQ1사전 학습된 분류 모델 없이도 객체 탐지기를 처음부터 효과적으로 학습시킬 수 있나요?
  • RQ2처음부터 학습된 탐지기의 고정밀도와 효율성을 가능하게 하는 네트워크 설계 원칙은 무엇인가요?
  • RQ3조밀하고 다중 스케일 예측 구조가 처음부터 학습된 탐지기의 정확도와 매개변수 효율성에 어떤 영향을 미치나요?

주요 결과

  • ImageNet 사전 학습 없이도 DSOD가 VOC 2007, VOC 2012, MS COCO에서 경쟁력 있거나 때로는 우수한 mAP를 달성합니다.
  • Plain connections를 사용한 DSOD300은 07+12에서 학습될 때 VOC 2007 테스트에서 77.3% mAP에 도달합니다; dense prediction을 사용하면 77.7%로 올라갑니다.
  • COCO 데이터(07+12+COCO)로 학습한 DSOD300의 dense prediction은 VOC 2007 테스트에서 81.7% mAP에 도달합니다.
  • DSOD는 실시간 탐지 속도(예: Titan X에서 300x300 기준 plain 구조로 20.6 fps)를 제공하며 SSD/Faster R-CNN baseline보다 훨씬 적은 매개변수를 사용합니다.
  • 스템 블록과 풀링 없는 전이가 정확도를 크게 향상시키고, 조밀 예측 구조는 매개변수를 줄이면서 정확도를 높일 수 있습니다.
  • 처음부터 학습된 DSOD는 사전 학습된 분류기에 대해 미세조정된 모델과 맞먹거나 이를 능가할 수 있으며, 사전 학습 없이 탐지에 대한 아키텍처 설계의 가치를 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.