QUICK REVIEW

[논문 리뷰] DenseBox: Unifying Landmark Localization with End to End Object Detection

Lichao Huang, Yi Yang|arXiv (Cornell University)|2015. 09. 16.

Advanced Neural Network Applications참고 문헌 42인용 수 454

한 줄 요약

DenseBox는 모든 이미지 위치와 스케일에서 바운딩 박스와 클래스 신뢰도를 직접 예측하는 통합형 엔드 투 엔드 완전 컨volution 신경망(FCN)을 제안한다. 다중 작업 학습을 통한 랜드마크 위치 추정을 통합함으로써, MALF(얼굴 검출)와 KITTI(자동차 검출)와 같은 도전적인 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성하였으며, MALF에서 평균 리콜률은 87.26%, KITTI의 중간 설정에서 평균 정밀도는 85.74%를 기록하였다.

ABSTRACT

How can a single fully convolutional neural network (FCN) perform on object detection? We introduce DenseBox, a unified end-to-end FCN framework that directly predicts bounding boxes and object class confidences through all locations and scales of an image. Our contribution is two-fold. First, we show that a single FCN, if designed and optimized carefully, can detect multiple different objects extremely accurately and efficiently. Second, we show that when incorporating with landmark localization during multi-task learning, DenseBox further improves object detection accuray. We present experimental results on public benchmark datasets including MALF face detection and KITTI car detection, that indicate our DenseBox is the state-of-the-art system for detecting challenging objects such as faces and cars.

연구 동기 및 목표

영역 제안 생성 없이도 엔드 투 엔드 객체 검출을 수행할 수 있는 단일 완전 컨볼루션 신경망을 개발하는 것.
작고 심하게 가림을 입은 객체, 예를 들어 얼굴과 먼 거리에 있는 자동차의 검출 정확도를 향상시키는 것.
다중 작업 학습을 통한 랜드마크 위치 추정의 공동 학습이 객체 검출 성능에 미치는 영향을 조사하는 것.
철저한 네트워크 설계와 하드 음성 마이닝의 효과를 도전적인 벤치마크에서 높은 정확도를 달성하는 데서 입증하는 것.

제안 방법

모든 공간적 위치와 스케일에서 한 번의 순방향 전파로 객체 바운딩 박스와 클래스 신뢰도를 예측하는 완전 컨볼루션 신경망(FCN)을 설계하는 것.
작고 가림을 입은 객체의 검출을 향상시키기 위해 철저한 하드 음성 마이닝을 적용한 엔드 투 엔드 훈련을 수행하는 것.
검출 헤드와 공유된 특징을 활용하여 검출 헤드와 다중 작업 헤드로 랜드마크 위치 추정을 통합하는 것.
KITTI 데이터셋의 27% 자동차에 대해 8개의 핵심점 랜드마크를 애너테이션하여 검출과 함께 공동 훈련을 가능하게 하는 것.
KITTI의 엄격한 70% 겹침 기준을 고려해 IOU 임계값 0.75를 사용한 비최대 억제(NMS)를 후처리에 적용하는 것.
다양한 배치 반복에 대해 훈련된 여러 개의 DenseBox 모델을 앙상블하여 성능을 추가로 향상시키는 것.

실험 결과

연구 질문

RQ1영역 제안 생성 없이도 단일 완전 컨볼루션 네트워크가 엔드 투 엔드 객체 검출에서 최신 기술 수준 성능을 달성할 수 있는가?
RQ2다중 작업 학습을 통해 랜드마크 위치 추정을 통합할 경우, 작은 또는 가림을 입은 객체의 검출 정확도에 어떤 영향을 미치는가?
RQ3하드 음성 마이닝이 소규모 및 심하게 가림을 입은 객체의 검출 성능 향상에 얼마나 기여하는가?
RQ4어려운 객체 스케일과 외관을 가진 벤치마크에서, DenseBox는 R-CNN 기반 및 두 단계 검출기와 비교해 어떤 성능을 보이는가?
RQ5실제 세계 데이터셋인 KITTI에서 부분적인 랜드마크 애너테이션(27%)이 검출 성능에 어떤 영향을 미치는가?

주요 결과

DenseBox는 MALF 얼굴 검출 벤치마크에서 평균 리콜률 87.26%를 기록하여 DDFD보다 약 10% 높은 성능을 달성하였다.
KITTI 자동차 검출 벤치마크에서 DenseBox는 중간 설정에서 평균 정밀도 85.74%를 기록하였으며, 전통적인 방법인 Regionlets와 spCov_LBP를 초월하였다.
랜드마크 위치 추정 통합으로 인해, 랜드마크가 애너테이션된 차량 비율이 27%에 불과한 KITTI 데이터셋에서 평균 정밀도가 0.9% 향상되었다.
DenseBox는 ImageNet 사전 훈련된 GoogLeNet을 사용한 R-CNN 기반 방법인 DeepInsight보다 KITTI 중간 설정에서 평균 정밀도 85.74% 대비 84.40%로 뛰어난 성능을 보였다.
다양한 배치 반복에 대해 훈련된 10개의 DenseBox 변종을 앙상블함으로써 성능이 추가로 향상되었으며, 이는 예측의 높은 다양성과 강건성을 시사한다.
복잡한 장면에서 작은 객체나 가림을 입은 객체에 대해 강력한 일반화 능력을 보였지만, 여전히 일부 객체를 놓치거나 가짜 양성 결과를 생성하는 경우가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.