QUICK REVIEW

[논문 리뷰] Fused Deep Neural Networks for Efficient Pedestrian Detection

Xianzhi Du, Mostafa El‐Khamy|arXiv (Cornell University)|2018. 05. 02.

Video Surveillance and Tracking Methods참고 문헌 1인용 수 27

한 줄 요약

이 논문은 단일 스크린 검출기로 후보 생성을 수행하고, 앙상블 딥 검증 네트워크 및 의미적 세그멘테이션 네트워크를 융합함으로써 효율적이고 정확한 보행자 검출을 위한 융합 딥 네트워크(F-DNN)를 제안한다. 새로운 소프트 레이블 훈련 방법과 소프트 거부 융합 전략을 사용하여, Caltech 데이터셋에서 7.67%의 로그 평균 누락률을 달성하며 기존 방법을 초월하는 최신 기술 성능을 유지하면서도 높은 속도를 확보한다.

ABSTRACT

In this paper, we present an efficient pedestrian detection system, designed by fusion of multiple deep neural network (DNN) systems. Pedestrian candidates are first generated by a single shot convolutional multi-box detector at different locations with various scales and aspect ratios. The candidate generator is designed to provide the majority of ground truth pedestrian annotations at the cost of a large number of false positives. Then, a classification system using the idea of ensemble learning is deployed to improve the detection accuracy. The classification system further classifies the generated candidates based on opinions of multiple deep verification networks and a fusion network which utilizes a novel soft-rejection fusion method to adjust the confidence in the detection results. To improve the training of the deep verification networks, a novel soft-label method is devised to assign floating point labels to the generated pedestrian candidates. A deep context aggregation semantic segmentation network also provides pixel-level classification of the scene and its results are softly fused with the detection results by the single shot detector. Our pedestrian detector compared favorably to state-of-art methods on all popular pedestrian detection datasets. For example, our fused DNN has better detection accuracy on the Caltech Pedestrian dataset than all previous state of art methods, while also being the fastest. We significantly improved the log-average miss rate on the Caltech pedestrian dataset to 7.67% and achieved the new state-of-the-art.

연구 동기 및 목표

복잡한 상황(예: 가림, 혼잡)에서도 높은 정확도와 실시간 속도를 확보하는 데 도전한다.
앙상블 학습과 신뢰도 융합을 통해 후보 검증을 향상시켜 보행자 검출의 오진을 줄인다.
소프트 융합를 통해 경계 상자 검출과 픽셀 수준의 의미적 세그멘테이션을 통합함으로써 검출의 강인성을 향상시킨다.
IoU 겹침을 부동 소수점 레이블로 표현하는 새로운 소프트 레이블 방법을 사용해 검증 네트워크의 훈련 효율성과 일반화 능력을 향상시킨다.
다양한 네트워크를 학습 가능한 신뢰도 가중치로 융합함으로써 고정밀도를 유지하면서도 경량이고 빠른 추론 파이프라인을 개발한다.

제안 방법

다양한 스케일과 종횡비에서 고 커버리지, 고 오진률의 보행자 후보를 생성하기 위해 SSD 기반 단일 스크린 검출기를 후보 생성기로 사용한다.
예측된 경계상자와 진짜 경계상자 간의 IoU를 레이블로 사용하여 소프트 레이블을 적용한 후보에 대해 복수의 딥 검증 네트워크(GoogLeNet, ResNet-50)를 독립적으로 훈련한다.
학습 가능한 가중치를 사용해 다수의 검증 네트워크 및 후보 생성기의 예측을 융합하는 소프트 거부 융합 네트워크를 구현한다.
픽셀 수준의 장면 이해를 제공하기 위해 딥 컨텍스트 집약 세그멘테이션 네트워크를 통합하고, 커널 기반 방법을 통해 그 출력을 검출 신뢰도에 소프트 융합한다.
모든 네트워크의 의견을 적응적으로 가중할 수 있도록 융합 과정을 엔드 투 엔드로 최적화하여 융합 네트워크의 파라미터를 학습한다.
선택적 처리를 통해 높이 기준 임계값(40 픽셀)을 초과하는 후보만 처리하고, SqueezeNet과 융합하여 실시간 추론을 구현한다.

실험 결과

연구 질문

RQ1다수의 딥 검증 네트워크를 사용한 앙상블 학습이 실시간 추론 속도를 유지하면서도 보행자 검출 정확도를 향상시킬 수 있는가?
RQ2이미지 오버랩(IoU) 기반의 소프트 레이블을 하드 이진 레이블 대신 사용할 경우, 보행자 검증 네트워크의 성능에 어떤 영향을 미치는가?
RQ3객체 검출에 의미적 세그멘테이션 예측을 융합할 경우, 가림이나 혼잡한 상황에서 검출의 강인성 향상에 어느 정도 기여하는가?
RQ4학습 가능한 소프트 거부 융합 메커니즘이 단순 평균화나 투표 방식보다 다수의 딥 네트워크 출력을 융합하는 데서 더 우수한 성능을 낼 수 있는가?
RQ5네트워크 유형, 융합 전략 등의 아키텍처 선택 사항이 검출 정확도와 추론 속도 사이의 트레이드오프에 어떤 영향을 미치는가?

주요 결과

제안된 F-DNN는 Caltech 보행자 데이터셋에서 기존 최고 기록인 8.18%에서 개선된 7.67%의 새로운 최고 기록인 로그 평균 누락률을 달성했다.
SqueezeNet과 융합된 경우, Caltech에서 모든 최신 기술 방법 중 가장 빠른 추론 속도를 기록했으며, 이미지당 평균 0.09초의 처리 시간을 기록했다.
소프트 레이블 방법은 IoU 기반의 연속적인 감독을 제공함으로써, 특히 부분적 겹침이 발생하는 모호한 케이스에서 검증 네트워크 성능을 크게 향상시켰다.
융합 네트워크는 훈련 데이터에서 비가림 보행자가 지배적이라는 점을 반영하여 ResNet-50에 대해 2.22의 더 높은 가중치를 부여하는 등, GoogLeNet(1.11)보다 더 높은 중요도를 부여했다.
의미적 세그멘테이션 통합은 혼잡한 장면과 가림 상황에서 검출 강인성을 향상시켰으며, 정성적 시각화 결과로 이를 확인할 수 있었다.
Caltech, INRIA, ETH 데이터셋에서 모든 이전 최고 기술 방법을 정확도와 속도 면에서 모두 초월했으며, KITTI 데이터셋에서도 유사한 성능을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.