[論文レビュー] Real-time Distracted Driver Posture Classification
論文は新しい注意散漫運転者の姿勢データセットと、CNNの遺伝的重み付けアンサンブル(AlexNetとInceptionV3)を導入し、姿勢分類の最先端精度を達成、リアルタイム対応の軽量版も含む。
In this paper, we present a new dataset for "distracted driver" posture estimation. In addition, we propose a novel system that achieves 95.98% driving posture estimation classification accuracy. The system consists of a genetically-weighted ensemble of Convolutional Neural Networks (CNNs). We show that a weighted ensemble of classifiers using a genetic algorithm yields in better classification confidence. We also study the effect of different visual elements (i.e. hands and face) in distraction detection and classification by means of face and hand localizations. Finally, we present a thinned version of our ensemble that could achieve a 94.29% classification accuracy and operate in a realtime environment.
研究の動機と目的
- 注意散漫運転とそれが安全に与える影響の研究を動機づける。
- 実世界の運転条件で取得された運転者の姿勢の挑戦的なデータセットを作成する。
- 複数のCNNとモダリティ(原画像、顔、手、顔+手)を用いた堅牢な視覚ベースの姿勢分類器を開発する。
- 姿勢属性付与のための顔と手のローカライゼーションの利点を調査する。
- 高精度を維持しつつ、軽量なアンサンブルでリアルタイム展開を可能にする。
提案手法
- 31名の参加者から収集し4台の車で10姿勢を含む新しいAUC Distracted Driverデータセットを組み立てる。
- 各フレームで顔と手を検出し、複数の入力ソース(raw、face、hands、face+hands)を形成する。
- 各入力ソース上でAlexNet(スクラッチから)とInceptionV3(転移学習を通じて)を訓練し、合計8モデルを生み出す。
- 遺伝的重み付けアンサンブルを用いてクラス確率を最適化するためにモデル出力を結合し、重みは遺伝的アルゴリズムで学習される。
- 75/25の訓練/テスト分割で負の対数尤度損失と精度を用いてモデルを評価し、リアルタイムの軽量アンサンブル版と比較する。
実験結果
リサーチクエスチョン
- RQ1CNNアンサンブルを用いて運転者画像から注意散漫運転姿勢をどれだけ正確に分類できるか?
- RQ2顔、手、または両方を入力モダリティとして使用することが姿勢分類の精度にどのような影響を与えるか?
- RQ3実用展開のためにリアルタイムで軽量なモデルが高精度を維持できるか?
- RQ4遺伝的アルゴリズムに基づくアンサンブルメンバーの重み付けは、無重みまたは多数決アンサンブルより分類性能を向上させるか?
- RQ5類似した姿勢間の混乱(例:テキスト入力と会話)をモデルはどう処理し、どのような時間的手がかりが性能をさらに向上させる可能性があるか?
主な発見
| Model | Source | Loss (NLL) | Accuracy (%) | |||||
|---|---|---|---|---|---|---|---|---|
| AlexNet | Original | 0.3909 | 93.65 | |||||
| Face | 1.0516 | 84.28 | Hands | 0.6186 | 89.52 | Face + Hands | 0.8298 | 86.68 |
| InceptionV3 | Original | 0.2654 | 95.17 | |||||
| Face | 0.6096 | 88.82"],[ |
- GA重み付けアンサンブルが報告された中で最高の精度95.98%を達成。
- InceptionV3ベースのモデルが全体的にAlexNetより高い精度を達成し、Original入力で各モデルの最高性能を出す(InceptionV3 Originalで95.17%)。
- 手ベースのモデルは顔ベースモデルを上回り、face+handsの結合は検出器の故障により手のみよりも僅かな利得にとどまる。
- リアルタイムのAlexNetベースアンサンブル(2つのAlexNet)は、リアルタイムCPU/GPUスループットで94.29%の精度を達成。
- 単純な多数決アンサンブルは95.77%の精度に達し、GA重みに基づくアンサンブルよりわずかに劣る。
- 最良のリアルタイムシステムはCPU上で実用的なままであり、顔/手検出は精度を改善するがオーバーヘッドが大きい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。