QUICK REVIEW

[논문 리뷰] Long-term Multi-granularity Deep Framework for Driver Drowsiness Detection

Jie Lyu, Zejian Yuan|arXiv (Cornell University)|2018. 01. 08.

Sleep and Work-Related Fatigue참고 문헌 20인용 수 31

한 줄 요약

이 논문은 영상에서 운전사의 졸림 상태를 탐지하기 위해 장기적 다중 해상도 딥 프레임워크(LMDF)를 제안한다. 이 프레임워크는 큰 헤드 포즈 변동 상황에서도 잘 정렬된 얼굴 패치에서 강건한 공간적 특징을 추출하는 다중 해상도 컨볼루션 신경망(MCNN)과 장기적인 시간적 의존성을 모델링하는 딥 장기 단기 기억(LSTM) 네트워크를 결합한다. 이 방법은 NTHU-DDD 데이터셋에서 90.05%의 정확도와 37 fps의 속도를 기록하여 새로운 최고 성능을 달성한다.

ABSTRACT

For real-world driver drowsiness detection from videos, the variation of head pose is so large that the existing methods on global face is not capable of extracting effective features, such as looking aside and lowering head. Temporal dependencies with variable length are also rarely considered by the previous approaches, e.g., yawning and speaking. In this paper, we propose a Long-term Multi-granularity Deep Framework to detect driver drowsiness in driving videos containing the frontal faces. The framework includes two key components: (1) Multi-granularity Convolutional Neural Network (MCNN), a novel network utilizes a group of parallel CNN extractors on well-aligned facial patches of different granularities, and extracts facial representations effectively for large variation of head pose, furthermore, it can flexibly fuse both detailed appearance clues of the main parts and local to global spatial constraints; (2) a deep Long Short Term Memory network is applied on facial representations to explore long-term relationships with variable length over sequential frames, which is capable to distinguish the states with temporal dependencies, such as blinking and closing eyes. Our approach achieves 90.05% accuracy and about 37 fps speed on the evaluation set of the public NTHU-DDD dataset, which is the state-of-the-art method on driver drowsiness detection. Moreover, we build a new dataset named FI-DDD, which is of higher precision of drowsy locations in temporal dimension.

연구 동기 및 목표

영상 기반 운전사 졸림 탐지에서 큰 헤드 포즈 변동으로 인해 전역 얼굴 기반 방법의 효과성이 저하되는 문제를 해결하기 위해.
긴 시간 동안의 운전 행동 패턴, 예를 들어 하품이나 장시간 눈 감음과 같은 특징을 단기적 또는 정적 특징으로는 구분하기 어려운 장기적인 시간적 의존성을 모델링하기 위해.
눈, 입, 코와 같은 정보성 있는 얼굴 영역에 초점을 맞춰 다중 해상도 및 잘 정렬된 패치를 통해 특징 표현을 향상시키기 위해.
정확한 시간적 애너테이션을 갖춘 새로운 고정밀도 데이터셋(FI-DDD)을 개발하여 실시간 졸림 탐지 시스템의 평가를 지원하기 위해.
기준 데이터셋에서 정확도와 실시간 추론 속도 측면에서 최신 기술 수준을 초월하는 성능을 달성하기 위해.

제안 방법

프레임에서 얼굴 랜드마크 정렬을 통해 주요 영역(눈, 코, 입)에 집중한 잘 정렬된 얼굴 패치를 추출한다.
다중 해상도 컨볼루션 신경망(MCNN)이 여러 공간적 해상도에서 동시에 패치를 처리하여 국소적 세부 사항과 전반적인 공간 제약 조건을 모두 포착한다.
MCNN의 출력은 완전 연결층을 통해 융합되어 각 프레임에 대한 강건한, 포즈에 영향을 받지 않는 공간적 표현을 생성한다.
딥 장기 단기 기억(LSTM) 네트워크가 공간적 표현의 시퀀스를 처리하여 장기적인 시간적 동역학을 모델링하고, 깜빡임과 눈 감음 상태를 구분한다.
모델은 소프트맥스 분류기를 사용하여 졸림 확률을 출력하는 엔드 투 엔드 백프로파게이션으로 훈련된다.
실시간 훈련 및 평가를 지원하기 위해 정확한 시간적 애너테이션을 갖춘 새로운 데이터셋인 FI-DDD가 구축된다.

실험 결과

연구 질문

RQ1큰 헤드 포즈 변동 상황에서도 다중 해상도 및 잘 정렬된 얼굴 패치가 졸림 탐지에서 특징 표현의 강건성을 향상시킬 수 있는가?
RQ2딥 LSTM 네트워크가 하품이나 지속적인 눈 감음과 같은 운전 행동의 장기적인 시간적 의존성을 효과적으로 모델링하여 분류 정확도를 향상시킬 수 있는가?
RQ3공간적 모델링과 시간적 모델링의 통합은 단지 공간적 특징에 의존하거나 고정 윈도우 기반 시간 모델링에 의존하는 기존 방법과 비교해 어떤가?
RQ4실제 주행 영상 데이터셋에서 제안된 프레임워크가 기존 최고 수준의 방법보다 정확도와 추론 속도 측면에서 얼마나 뛰어나게 성능을 발휘하는가?
RQ5정확한 시간적 애너테이션을 갖춘 새로 수집된 데이터셋(FI-DDD)이 실시간 졸림 탐지 시스템 평가를 위한 신뢰할 수 있는 벤치마크로 기능할 수 있는가?

주요 결과

제안된 LMDF 프레임워크는 NTHU-DDD 평가 세트에서 90.05%의 정확도를 기록하여 이전 최고 수준의 방법을 초월한다.
MCNN+LSTM 조합은 MCNN 단독 대비 정확도가 15.6%p 향상되어 시간적 모델링의 핵심적 역할을 입증한다.
GPU 플랫폼에서 37 fps의 추론 속도를 기록하여 실시간 구현 요구 조건을 충족한다.
다중 해상도 접근 방식, 특히 주요 얼굴 부위(눈, 입, 코)에 집중한 경우가 가장 높은 성능를 기록하여 이들이 졸림 탐지에서 중요한 역할을 한다는 것을 확인한다.
새로운 FI-DDD 데이터셋은 더 높은 시간 정밀도로 졸린 상태를 애너테이션하여 실시간 졸림 탐지 시스템의 보다 신뢰할 수 있는 평가를 가능하게 한다.
NTHU-DDD 데이터셋의 근적외선 영상 데이터로 재학습한 후 야간 환경에서도 잘 일반화됨을 보여주어 조명 변화에 대한 강건성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.