QUICK REVIEW

[论文解读] Interpretable Self-Attention Temporal Reasoning for Driving Behavior Understanding

Yi-Chieh Liu, Yung‐An Hsieh|arXiv (Cornell University)|Nov 5, 2019

Human Pose and Action Recognition参考文献 27被引用 19

一句话总结

本文提出一种基于自注意力机制的时序推理模块（TRB），以提升自动驾驶行为识别中的因果推理能力。通过将TRB集成到3D卷积神经网络中，模型在行为识别任务中达到86.3%的准确率，优于当前最先进模型；同时，基于扰动的可视化解释方法验证了TRB增强了对交通灯、行人等因果因素的关注。

ABSTRACT

Performing driving behaviors based on causal reasoning is essential to ensure driving safety. In this work, we investigated how state-of-the-art 3D Convolutional Neural Networks (CNNs) perform on classifying driving behaviors based on causal reasoning. We proposed a perturbation-based visual explanation method to inspect the models' performance visually. By examining the video attention saliency, we found that existing models could not precisely capture the causes (e.g., traffic light) of the specific action (e.g., stopping). Therefore, the Temporal Reasoning Block (TRB) was proposed and introduced to the models. With the TRB models, we achieved the accuracy of $\mathbf{86.3\%}$, which outperform the state-of-the-art 3D CNNs from previous works. The attention saliency also demonstrated that TRB helped models focus on the causes more precisely. With both numerical and visual evaluations, we concluded that our proposed TRB models were able to provide accurate driving behavior prediction by learning the causal reasoning of the behaviors.

研究动机与目标

探究当前最先进的3D卷积神经网络在基于因果推理的驾驶行为分类任务中的表现。
通过引入时序推理模块（TRB）提升模型性能，以增强全局时序与空间依赖性建模能力。
开发一种基于扰动的可视化解释方法，用于分析视频识别模型中的时空注意力机制。
验证TRB是否能同时提升预测准确率，并使注意力模式更符合人类的因果推理逻辑，特别是在驾驶场景中。

提出的方法

时序推理模块（TRB）采用分层自注意力机制，用于建模视频帧之间的时空依赖关系。
TRB在应用多头自注意力之前，先通过3D卷积提取细粒度的时空特征，以捕捉长距离的全局依赖关系。
TRB被插入到3D卷积神经网络（C3D、I3D、3DResNet）的深层网络中，以增强特征表示能力，同时保持主干网络架构不变。
基于扰动的可视化解释方法通过迭代掩码输入视频块并测量分类分数变化，生成注意力显著性图。
该方法结合高斯模糊与中值模糊进行扰动处理，并通过Adam优化算法生成显著性图。
注意力分数通过聚合目标中心周围半径范围内的显著性值计算得出，并按目标大小进行归一化，以确保不同尺度目标之间的公平比较。

实验结果

研究问题

RQ1当前最先进的3D卷积神经网络能否基于因果推理（如因红灯或行人而停车）准确分类驾驶行为？
RQ2所提出的时序推理模块（TRB）是否能提升3D卷积神经网络在因果驾驶行为识别任务中的性能？
RQ3所提出的基于扰动的可视化解释方法是否能有效揭示模型在预测过程中关注的视频区域？
RQ4TRB是否能带来更具可解释性且与人类推理对齐的注意力模式，例如聚焦于实际原因（如交通灯）而非虚假线索？

主要发现

3DResnet-TRB模型在因果驾驶行为分类任务中达到最高准确率86.3%，优于所有基线模型。
TRB的引入显著提升了所有评估模型的性能：CRNN-TRB（78.31% vs. 73.49%）、C3D-TRB（69.88% vs. 60.71%）、I3D-TRB（83.13% vs. 77.11%）、3DResnet-TRB（86.30% vs. 83.56%）。
视觉显著性分析表明，3DResnet-TRB对因果性物体（如交通灯和行人）的注意力聚焦更加精确，经边界框对齐验证。
在雨天拥堵场景中，随着本车接近前方车辆，注意力从交通灯逐渐转移至前车，反映出理性且符合因果逻辑的注意力转移。
基于扰动的解释方法成功识别出显著区域，注意力分数在实际原因（如停车标志、交通灯）周围高度集中。
通过目标大小对注意力分数进行归一化，实现了跨不同尺度目标的公平注意力评估，验证了注意力评估方法的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。