Skip to main content
QUICK REVIEW

[논문 리뷰] Single-Shot Refinement Neural Network for Object Detection

Shifeng Zhang, Longyin Wen|arXiv (Cornell University)|2017. 11. 18.
Advanced Neural Network Applications참고 문헌 46인용 수 111
한 줄 요약

RefineDet는 Anchor Refinement Module(ARM)과 Object Detection Module(ODM)을 Transfer Connection Blocks로 연결하여 단일 샷 검출기 내부에 2단계 유사 정제를 제안하고, 높은 효율로 최첨단 정확도를 달성한다.

ABSTRACT

For object detection, the two-stage approach (e.g., Faster R-CNN) has been achieving the highest accuracy, whereas the one-stage approach (e.g., SSD) has the advantage of high efficiency. To inherit the merits of both while overcoming their disadvantages, in this paper, we propose a novel single-shot based detector, called RefineDet, that achieves better accuracy than two-stage methods and maintains comparable efficiency of one-stage methods. RefineDet consists of two inter-connected modules, namely, the anchor refinement module and the object detection module. Specifically, the former aims to (1) filter out negative anchors to reduce search space for the classifier, and (2) coarsely adjust the locations and sizes of anchors to provide better initialization for the subsequent regressor. The latter module takes the refined anchors as the input from the former to further improve the regression and predict multi-class label. Meanwhile, we design a transfer connection block to transfer the features in the anchor refinement module to predict locations, sizes and class labels of objects in the object detection module. The multi-task loss function enables us to train the whole network in an end-to-end way. Extensive experiments on PASCAL VOC 2007, PASCAL VOC 2012, and MS COCO demonstrate that RefineDet achieves state-of-the-art detection accuracy with high efficiency. Code is available at https://github.com/sfzhang15/RefineDet

연구 동기 및 목표

  • 두 단계 검출기의 정확도와 한 단계 검출기의 속도를 연결하는 동기를 제시한다.
  • 연속적으로 앵커를 정제하고 객체를 검출하는 두 모듈 단일 샷 프레임워크(ARM 및 ODM)를 도입한다.
  • 음성 불균형과 작은 물체 정확도를 Negative 앵커 필터링과 두 단계 회귀를 통해 해결한다.
  • PASCAL VOC 2007/2012 및 MS COCO에서 엔드 투 엔드 학습 가능성과 최첨단 성능을 보인다.

제안 방법

  • Anchor Refinement Module(ARM)과 Object Detection Module(ODM)을 Transfer Connection Blocks(TCB)으로 연결한 RefineDet를 제안한다.
  • ARM은 음성 앵커를 필터링하고 앵커 위치/크기를 거친 정제로 보정하여 회귀기의 초기화를 개선한다.
  • ODM은 ARM에서 정제된 앵커를 사용하여 정확한 분류와 정밀한 위치 추정을 수행한다.
  • TCB는 ARM의 특징을 ODM으로 전달하고 예측을 개선하기 위해 대규모 맥락 정보를 통합한다.
  • 멀티태스크 손실을 통해 ARM 및 ODM 목표를 결합하여 네트워크 전체를 엔드 투 엔드로 학습한다.
  • 두 단계의 연쇄 회귀를 사용한다: 먼저 ARM이 앵커를 정제하고, 그 후 ODM이 최종 박스와 클래스 라벨을 예측한다.

실험 결과

연구 질문

  • RQ1두 모듈형 단일 샷 검출기가 정확도 면에서 이중 단계 방법과 대등하거나 더 나은 성능을 보이면서도 한 단계의 효율성을 유지할 수 있는가?
  • RQ2앵커 정제와 전달 연결 블록이 표준 단일 샷 검출기보다 위치 추정과 분류를 향상시키는가?
  • RQ3음성 앵커 필터링과 두 단계 연쇄 회귀가 검출 성능에 어떤 영향을 미치는가?
  • RQ4ARM과 ODM의 엔드 투 엔드 학습이 VOC 및 MS COCO에서 다중 백본에 걸쳐 최첨단 결과를 낳는가?

주요 결과

  • RefineDet는 백본(VGG-16, ResNet-101)에서 VOC 2007/2012 및 MS COCO에 대해 최신 또는 경쟁적인 mAP를 달성한다.
  • 두 단계의 연쇄 회귀(ARM 정제 후 ODM)가 한 단계 회귀에 비해 정확도를 크게 향상시킨다.
  • Negative Anchor Filtering은 학습/추론 노이즈를 감소시키고 mAP를 개선한다(필터링으로 VOC에서 절대 이득 0.5%).
  • Transfer Connection Blocks(TCB)은 ARM에서 ODM으로의 효과적인 특징 전달과 맥락 통합을 가능하게 하여 제거법에서 최대 1.1%의 mAP 개선을 달성한다.
  • RefineDet320/512와 다중 스케일 테스트(320+, 512+)는 VOC2012 및 VOC2007에서 최고 성능에 도달하고, RefineDet+ 변종은 MS COCO에서 320/512 입력으로 최첨단 AP를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.