[論文レビュー] Driver Drowsiness Detection Model Using Convolutional Neural Networks Techniques for Android Application
論文は Android 用の顔のランドマークを用いた軽量 CNN ベースのドライバー眠気検知モデルを提案し、平均精度は83%超、モデルサイズは75 KB未満。
A sleepy driver is arguably much more dangerous on the road than the one who\nis speeding as he is a victim of microsleeps. Automotive researchers and\nmanufacturers are trying to curb this problem with several technological\nsolutions that will avert such a crisis. This article focuses on the detection\nof such micro sleep and drowsiness using neural network based methodologies.\nOur previous work in this field involved using machine learning with\nmulti-layer perceptron to detect the same. In this paper, accuracy was\nincreased by utilizing facial landmarks which are detected by the camera and\nthat is passed to a Convolutional Neural Network (CNN) to classify drowsiness.\nThe achievement with this work is the capability to provide a lightweight\nalternative to heavier classification models with more than 88% for the\ncategory without glasses, more than 85% for the category night without glasses.\nOn average, more than 83% of accuracy was achieved in all categories. Moreover,\nas for model size, complexity and storage, there is a marked reduction in the\nnew proposed model in comparison to the benchmark model where the maximum size\nis 75 KB. The proposed CNN based model can be used to build a real-time driver\ndrowsiness detection system for embedded systems and Android devices with high\naccuracy and ease of use.\n
研究の動機と目的
- リアルタイムで低リソースの眠気検知の必要性を動機づけ、マイクロスリープを防ぐ。
- 頑健性のために顔のランドマークを活用するCNNベースの手法を検討する。
- 重いハードウェアを必要とせず、組込み/ Android デバイスに適したコンパクトなモデルを開発する。
- 既存ベンチマークと比較して精度、モデルサイズ、実行時パフォーマンスを評価する。
提案手法
- NTHU Driver Drowsiness Datasetを前処理し、フレームサンプリングとデータ拡張により60万枚の画像を抽出。
- Dlib/OpenCVを用いて各画像から68個の顔特徴点を検出し、重要な顔領域を表現。
- D2CNN-FLDを提案します。Leaky ReLU活性化、ドロップアウト(約25%)、MaxPooling、2クラス分類用のSoftmax出力を備えた5層CNN。
- 正規化されたランドマーク座標に対してMin-Maxスケーリングと2クラス Softmax出力でモデルを訓練。
- JNIを介してJavaベースのアプリからCNNへランドマークデータを転送し、リアルタイム推論を行うAndroidパイプラインを実装。
実験結果
リサーチクエスチョン
- RQ1顔のランドマーク座標を用いた軽量CNNモデルは、NTHUデータセット上で競争力のある眠気検知精度を達成できるか。
- RQ2提案手法であるD2CNN-FLDは、従来のMLPベースおよび重いCNN/RCNNのベースラインと、精度およびリソース使用の点でどう比較されるか。
- RQ3照明条件とアイウェア(眼鏡/サングラス)が検知性能に与える影響はどれくらいか。
- RQ4GPUアクセラレーションなしで、モバイル/組込み機器上でリアルタイムに動作するほどモデルはコンパクトか。
主な発見
- D2CNN-FLDは、運転シナリオ全体で83.3%の全体精度を達成。
- 提案モデルのサイズは0.075 MB(約75 KB)で、ベンチマークのCNN/RCNNモデルよりもはるかに小さい。
- D2CNN-FLDは、総合結果で前のD2MLP-FLDより約2.5ポイントの精度向上を示す。
- デバイスによって検出時間は異なる。例えば、D2CNN-FLDではNVIDIA Quadro P4000で38.45 ms、Samsung Galaxy S8 Plusで142 ms。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。