QUICK REVIEW

[논문 리뷰] Real-time Distracted Driver Posture Classification

Yehya Abouelnaga, Hesham M. Eraqi|arXiv (Cornell University)|2017. 06. 28.

Hand Gesture Recognition Systems참고 문헌 20인용 수 81

한 줄 요약

한 두 문장으로 직접 답하는 요약

ABSTRACT

In this paper, we present a new dataset for "distracted driver" posture estimation. In addition, we propose a novel system that achieves 95.98% driving posture estimation classification accuracy. The system consists of a genetically-weighted ensemble of Convolutional Neural Networks (CNNs). We show that a weighted ensemble of classifiers using a genetic algorithm yields in better classification confidence. We also study the effect of different visual elements (i.e. hands and face) in distraction detection and classification by means of face and hand localizations. Finally, we present a thinned version of our ensemble that could achieve a 94.29% classification accuracy and operate in a realtime environment.

연구 동기 및 목표

산만 운전 연구와 안전 영향의 필요성 제기.
실제 주행 조건에서 수집된 운전자 자세의 도전적인 데이터셋 구축.
여러 CNN 및 모달리티(raw, face, hands, face+hands)를 활용한 강건한 비전 기반 자세 분류기 개발.
자세 부여를 위한 얼굴 및 손 위치 추적의 이점 조사.
높은 정확도를 유지하면서 더 가벼운 앙상블로 실시간 배치 가능성 확보.

제안 방법

31명의 참가자로부터 4대의 차량에서 수집된 10개의 자세로 구성된 새로운 AUC Distracted Driver 데이터셋 구성.
각 프레임에서 얼굴과 손을 탐지하여 여러 입력 소스(raw, face, hands, face+hands) 형성.
각 입력 소스에서 AlexNet(처음부터 학습)과 InceptionV3(전이 학습)로 학습하여 총 8개의 모델 생성.
유전 알고리즘으로 학습된 가중치를 사용하여 클래스 확률을 최적화하는 유전적 가중 앙상블 결합.
부정 로그 우도 손실과 정확도로 모델 평가를 수행하고 75/25 학습/테스트 세트 분할에서 실시간 축소 앙상블 변형과 비교.

실험 결과

연구 질문

RQ1CNN 앙상블을 사용하여 운전자 이미지로부터 산만 운전 자세를 얼마나 정확하게 분류할 수 있는가?
RQ2입력 모달리티로 얼굴, 손 또는 둘 다를 사용할 때 자세 분류 정확도에 어떤 영향이 있는가?
RQ3실시간으로 더 가벼운 모델이 실용적 배치를 위해 높은 정확도를 유지할 수 있는가?
RQ4가중치가 있는 앙상블 구성원이 비가중치 또는 다수결 앙상블보다 분류 성능을 향상시키는가?
RQ5비슷한 자세 간 혼동(예: 문자 보내기 vs 대화)에서 모델은 어떻게 처리하며, 어떤 시간적 단서가 성능을 더 개선할 수 있는가?

주요 결과

모델	소스	손실 (NLL)	정확도 (%)
AlexNet	원본	0.3909	93.65
얼굴	1.0516	84.28	손	0.6186	89.52	얼굴 + 손	0.8298	86.68
InceptionV3	원본	0.2654	95.17
얼굴	0.6096	88.82"],[

GA-가중 앙상블이 보고된 최고 정확도 95.98%를 달성했다.
InceptionV3 기반 모델이 전반적으로 AlexNet보다 높은 정확도를 달성하며 Original 입력이 최상의 모델 성능(해당 모델의 95.17%를 포함)으로 나타났다.
Hands 기반 모델이 얼굴 기반 모델보다 더 나은 성능을 보였고, 얼굴+손의 결합은 탐지 실패로 인해 손 모델보다 작은 이득을 보였다.
실시간 CPU/GPU 처리량으로 두 개의 AlexNet을 사용하는 실시간 앙상블이 94.29%의 정확도 달성.
단순 다수결 앙상블은 95.77%의 정확도에 도달하여 GA-가중 앙상블보다 약간 낮았다.
최고의 실시간 시스템은 CPU에서도 실용적이며 얼굴/손 탐지기가 정확도를 개선하지만 오버헤드가 증가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.