QUICK REVIEW

[論文レビュー] Long-term Multi-granularity Deep Framework for Driver Drowsiness Detection

Jie Lyu, Zejian Yuan|arXiv (Cornell University)|Jan 8, 2018

Sleep and Work-Related Fatigue参考文献 20被引用数 31

ひとこと要約

本論文は、ビデオを用いたドライバーの眠気検出のための長期的マルチスケール深層フレームワーク（LMDF）を提案する。この手法は、顔の姿勢変動が著しい状況下でも良好に整列された顔領域を抽出するマルチスケール畳み込みニューラルネットワーク（MCNN）と、長期的な時間的依存性をモデル化する深層長短期記憶（LSTM）ネットワークを組み合わせる。本手法はNTHU-DDDデータセットで90.05%の精度と37 fpsを達成し、新たな最先端性能を確立した。

ABSTRACT

For real-world driver drowsiness detection from videos, the variation of head pose is so large that the existing methods on global face is not capable of extracting effective features, such as looking aside and lowering head. Temporal dependencies with variable length are also rarely considered by the previous approaches, e.g., yawning and speaking. In this paper, we propose a Long-term Multi-granularity Deep Framework to detect driver drowsiness in driving videos containing the frontal faces. The framework includes two key components: (1) Multi-granularity Convolutional Neural Network (MCNN), a novel network utilizes a group of parallel CNN extractors on well-aligned facial patches of different granularities, and extracts facial representations effectively for large variation of head pose, furthermore, it can flexibly fuse both detailed appearance clues of the main parts and local to global spatial constraints; (2) a deep Long Short Term Memory network is applied on facial representations to explore long-term relationships with variable length over sequential frames, which is capable to distinguish the states with temporal dependencies, such as blinking and closing eyes. Our approach achieves 90.05% accuracy and about 37 fps speed on the evaluation set of the public NTHU-DDD dataset, which is the state-of-the-art method on driver drowsiness detection. Moreover, we build a new dataset named FI-DDD, which is of higher precision of drowsy locations in temporal dimension.

研究の動機と目的

ビデオからのドライバーの眠気検出において、顔全体に基づく手法の有効性を制限する顔の姿勢変動の課題に対処すること。
あくびや長時間の目を閉じるといった、短期的または静的特徴では区別が難しい、ドライバー行動の長期的時間的依存性をモデル化すること。
目の周辺、口、鼻といった情報量の多い顔領域に注目し、マルチスケールかつ良好に整列されたパッチを用いることで、特徴表現を向上させること。
正確な時間的アノテーションを備えた、実時間の眠気検出システムの評価に適した新規高精度データセット（FI-DDD）を構築すること。
ベンチマークデータセットにおいて、精度と実時間推論速度の両面で最先端の性能を達成すること。

提案手法

フレームごとの顔ランドマークのアライメントを用いて、目、鼻、口といった重要な領域に注目した良好に整列された顔パッチを抽出する。
マルチスケール畳み込みニューラルネットワーク（MCNN）が、複数の空間的スケールで並列にこれらのパッチを処理し、局所的詳細とグローバルな空間的制約の両方を捉える。
MCNNの出力を全結合層を介して統合し、各フレームに対してポーズに依存しない頑健な空間的表現を生成する。
深層長短期記憶（LSTM）ネットワークが、空間的表現の系列を処理し、長期間の時間的ダイナミクスをモデル化し、瞬きと目を閉じている状態を区別する。
モデルは、出力として眠気確率を返すソフトマックス分類器を用いて、エンド・ツー・エンドの誤差逆伝播法で学習する。
訓練と評価を支援するため、眠気状態の高精度な時間的アノテーションを備えた新規データセットFI-DDDを構築した。

実験結果

リサーチクエスチョン

RQ1顔の姿勢変動が著しい状況下でも、マルチスケールかつ良好に整列された顔パッチは、眠気検出における特徴表現のロバスト性を向上させるか？
RQ2深層LSTMネットワークは、あくびや持続的な目を閉じるといったドライバー行動の長期的時間的依存性を効果的にモデル化でき、分類精度の向上に寄与するか？
RQ3空間的および時間的モデリングを統合した手法は、空間的特徴のみに依存する手法や固定ウィンドウ時間的モデリングに比べて、どのように優れているか？
RQ4本手法は、実世界のドライブ動画データセットにおいて、既存の最先端手法に比べて精度と推論速度の両面でどれほど優れているか？
RQ5高精度な時間的アノテーションを備えた新規に収集されたデータセット（FI-DDD）は、実時間の眠気検出システムの評価に信頼できるベンチマークとして機能するか？

主な発見

提案されたLMDFフレームワークは、NTHU-DDD評価セットで90.05%の精度を達成し、以前の最先端手法を上回った。
MCNN＋LSTMの組み合わせは、MCNN単体に比べ15.6パーセンテージポイントの精度向上を示し、時間的モデリングの重要性を裏付けた。
GPUプラットフォーム上での推論速度は37 fpsを達成し、実時間での実装に必要な要件を満たした。
マルチスケールアプローチ、特に目、口、鼻といった主要な顔領域に注目したアプローチが最も高い性能を示し、眠気検出におけるその重要性を確認した。
新規に構築されたFI-DDDデータセットは、眠気状態のアノテーションに高い時間的精度を備えており、実時間の眠気検出システムの信頼性ある評価を可能にした。
NTHU-DDDデータセットの近赤外データを用いて再学習した場合、夜間のシナリオにおいてもモデルの汎化性能が高く、照明変動へのロバスト性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。