QUICK REVIEW

[논문 리뷰] SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving

BoRui Wu, Alvin Wan|arXiv (Cornell University)|2016. 12. 04.

Advanced Neural Network Applications참고 문헌 5인용 수 92

한 줄 요약

SqueezeDet는 자율주행을 위한 실시간 객체 검출을 위한 완전 컨볼루션형, 소형, 에너지 효율적인 신경망이다. 기존의 영역 제안 네트워크와 완전 연결 계층을 통합된 컨볼루션 검출 헤드(ConfDet)로 대체함으로써, VGG16 기반 Faster R-CNN 대비 57.2 FPS의 추론 속도, 30.4배의 모델 크기 감소, 19.7배의 빠른 속도 향상, 35.2배의 낮은 에너지 소비를 달성하면서 KITTI에서 최신 기술 수준의 정확도를 유지한다.

ABSTRACT

Object detection is a crucial task for autonomous driving. In addition to requiring high accuracy to ensure safety, object detection for autonomous driving also requires real-time inference speed to guarantee prompt vehicle control, as well as small model size and energy efficiency to enable embedded system deployment. In this work, we propose SqueezeDet, a fully convolutional neural network for object detection that aims to simultaneously satisfy all of the above constraints. In our network, we use convolutional layers not only to extract feature maps but also as the output layer to compute bounding boxes and class probabilities. The detection pipeline of our model only contains a single forward pass of a neural network, thus it is extremely fast. Our model is fully-convolutional, which leads to a small model size and better energy efficiency. While achieving the same accuracy as previous baselines, our model is 30.4x smaller, 19.7x faster, and consumes 35.2x lower energy. The code is open-sourced at \url{https://github.com/BichenWuUCB/squeezeDet}.

연구 동기 및 목표

자율주행을 위한 임베디드 시스템에서 실시간, 정확도 높고, 소형, 에너지 효율적인 객체 검출기가 필요한 이유를 해결한다.
기존의 이단계 검출기들(예: Faster R-CNN)이 겪는 모델 크기, 추론 속도, 에너지 소비의 한계를 극복한다.
특징 추출과 검출을 하나의 전방향 전파에 통합하는 완전 컨볼루션 아키텍처를 설계하여 속도와 효율성을 높인다.
계산 및 메모리 사용량을 크게 줄이면서도 KITTI 벤치마크에서 높은 정확도를 달성한다.
자율주행 차량에서 사용되는 저전력 임베디드 프로세서에 딥 러닝 기반 객체 검출을 실질적으로 구현할 수 있도록 한다.

제안 방법

특징 추출을 위해 백본 네트워크로 SqueezeNet을 사용하는 완전 컨볼루션 검출 파이프라인을 제안한다.
영역 제안 네트워크와 완전 연결 계층을 대체하는 전용 컨볼루션 레이어인 ConvDet를 도입한다. 이는 특징 맵에서 바운딩 박스와 클래스 확률을 직접 예측한다.
단일 전방향 전파를 통해 엔드 투 엔드 객체 검출을 수행함으로써 영역 제안 생성이 필요 없어지고 지연 시간이 감소한다.
완전 연결 계층을 깊이 분離형 컨볼루션으로 대체하고 활성화 메모리 사용량을 줄여 모델 크기와 에너지 효율성을 최적화한다.
KITTI 데이터셋에서 검출 정확도 향상을 위해 데이터 증강과 전이 학습을 적용하여 모델을 미세 조정한다.
정확도, FLOPs, 속도, 메모리 사용량을 고려한 설계 공간 탐색을 통해 입력 해상도, 앵커 수, 모델 아키텍처 간의 상호 교환 관계를 평가한다.

실험 결과

연구 질문

RQ1완전 컨볼루션 네트워크가 자율주행 객체 검출에서 실시간 추론 속도를 달성하면서도 높은 정확도를 유지할 수 있는가?
RQ2성능 저하 없이 모델 크기와 에너지 소비를 얼마나 줄일 수 있는가?
RQ3완전 연결 계층과 영역 제안 네트워크를 통합된 컨볼루션 검출 헤드(ConvDet)로 대체할 경우 속도, 정확도, 효율성에 어떤 영향을 미치는가?
RQ4정확도, FLOPs, 메모리 사용량 측면에서 입력 해상도, 앵커 수, 모델 아키텍처 간의 상호 교환 관계는 어떠한가?
RQ5SqueezeDet처럼 소형이고 효율적인 모델이 더 큰, 더 복잡한 모델들에 비해 KITTI 벤치마크에서 최신 기술 수준의 성능을 달성할 수 있는가?

주요 결과

SqueezeDet는 TITAN X GPU에서 입력 해상도 1242x375로 57.2 FPS의 추론 속도를 달성하여 실시간 성능(30 FPS)을 거의 두 배로 초월한다.
Faster R-CNN과 VGG16를 사용한 모델 대비 30.4배 작고 총 모델 크기가 7.9 MB 뿐이므로, Faster R-CNN과 AlexNet를 사용한 경우보다 30배 작다.
이미지당 에너지 소비가 오직 1.4 J에 불과하여 Faster R-CNN 대비 84배 적고, 에너지 소비가 35.2배 낮아 훨씬 효율적이다.
KITTI 데이터셋에서 평균 평균 정밀도(mAP)가 80.4%를 기록하여, 자전거 기사 검출의 세 가지 난이도 수준에서 모두 다른 모델들을 능가한다.
입력 이미지 해상도를 낮추면 추론 속도가 92.5 FPS로 증가하고 mAP는 3% 감소하나, 이는 유리한 속도-정확도 상충 관계를 보여준다.
더 많은 앵커를 사용할 경우 FLOPs와 메모리 사용량은 다소 증가하지만 mAP는 감소하여 검출 품질 향상에 대한 수익 감소 현상이 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.