[论文解读] Long-term Multi-granularity Deep Framework for Driver Drowsiness Detection
本文提出了一种基于视频的长期多粒度深度框架(LMDF),用于驾驶员瞌睡检测,结合了多粒度卷积神经网络(MCNN),在大姿态变化下从对齐良好的面部区域中提取鲁棒的空间特征,并利用深层长短期记忆(LSTM)网络建模长期时间依赖关系。该方法在NTHU-DDD数据集上实现了90.05%的准确率和37 fps的推理速度,创下新的最先进性能记录。
For real-world driver drowsiness detection from videos, the variation of head pose is so large that the existing methods on global face is not capable of extracting effective features, such as looking aside and lowering head. Temporal dependencies with variable length are also rarely considered by the previous approaches, e.g., yawning and speaking. In this paper, we propose a Long-term Multi-granularity Deep Framework to detect driver drowsiness in driving videos containing the frontal faces. The framework includes two key components: (1) Multi-granularity Convolutional Neural Network (MCNN), a novel network utilizes a group of parallel CNN extractors on well-aligned facial patches of different granularities, and extracts facial representations effectively for large variation of head pose, furthermore, it can flexibly fuse both detailed appearance clues of the main parts and local to global spatial constraints; (2) a deep Long Short Term Memory network is applied on facial representations to explore long-term relationships with variable length over sequential frames, which is capable to distinguish the states with temporal dependencies, such as blinking and closing eyes. Our approach achieves 90.05% accuracy and about 37 fps speed on the evaluation set of the public NTHU-DDD dataset, which is the state-of-the-art method on driver drowsiness detection. Moreover, we build a new dataset named FI-DDD, which is of higher precision of drowsy locations in temporal dimension.
研究动机与目标
- 为解决从视频中进行驾驶员瞌睡检测时大头部姿态变化带来的挑战,此类挑战限制了基于全局人脸方法的有效性。
- 建模驾驶员行为中的长期时间依赖关系,例如打哈欠和长时间闭眼,这些行为难以通过短期或静态特征区分。
- 通过关注具有信息量的面部区域(如眼睛、嘴巴、鼻子)的多粒度、对齐良好的区域,提升特征表示能力。
- 构建一个全新的高精度数据集(FI-DDD),用于评估实时瞌睡检测系统,具备精确的时间标注。
- 在基准数据集上实现准确率和实时推理速度方面的最先进性能。
提出的方法
- 该框架使用面部关键点对齐技术,从视频帧中提取对齐良好的面部区域,重点关注眼睛、鼻子和嘴巴等关键区域。
- 多粒度卷积神经网络(MCNN)并行处理这些区域,在多个空间粒度上捕捉局部细节与全局空间约束。
- MCNN的输出通过全连接层融合,生成每帧的鲁棒、姿态不变的空间表征。
- 深层长短期记忆(LSTM)网络处理空间表征序列,以建模长期时间动态,区分眨眼与真正闭眼的状态。
- 模型通过端到端反向传播与Softmax分类器进行训练,输出瞌睡概率。
- 构建了一个新数据集FI-DDD,包含对瞌睡状态的高精度时间标注,以支持训练与评估。
实验结果
研究问题
- RQ1多粒度、对齐良好的面部区域是否能提升在大头部姿态变化下瞌睡检测的特征表示鲁棒性?
- RQ2深层LSTM网络是否能有效建模驾驶员行为中的长期时间依赖关系(如打哈欠或持续闭眼),从而提高分类准确率?
- RQ3空间与时间建模相结合的方法,相较于仅依赖空间特征或固定窗口时间建模的方法,表现如何?
- RQ4所提出的框架在真实驾驶视频数据集上的准确率和推理速度方面,相较于现有最先进方法,优势有多大?
- RQ5通过高精度时间标注构建的新数据集(FI-DDD)是否可作为评估实时瞌睡检测系统的可靠基准?
主要发现
- 所提出的LMDF框架在NTHU-DDD测试集上实现了90.05%的准确率,优于以往最先进方法。
- MCNN+LSTM组合相比仅使用MCNN的模型,准确率提升了15.6个百分点,证明了时间建模的关键作用。
- 该方法在GPU平台上实现了37 fps的推理速度,满足实际部署的实时性能要求。
- 多粒度方法,特别是聚焦于主要面部区域(眼睛、嘴巴、鼻子)时,性能最高,证实了其在瞌睡检测中的重要性。
- 新构建的FI-DDD数据集在瞌睡状态的时间标注上具有更高的精度,使实时瞌睡检测系统的评估更加可靠。
- 当在NTHU-DDD数据集的近红外数据上微调后,模型在夜间场景下仍表现出良好的泛化能力,显示出对光照变化的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。