QUICK REVIEW

[论文解读] Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer

Hao Shao, LeTian Wang|arXiv (Cornell University)|Jul 28, 2022

Adversarial Robustness in Machine Learning被引用 54

一句话总结

InterFuser 将多视角多模态传感器数据与 Transformer 融合，生成可解释的中间安全特征和一个受安全约束的控制器，在 CARLA 基准上达到顶尖性能。

ABSTRACT

Large-scale deployment of autonomous vehicles has been continually delayed due to safety concerns. On the one hand, comprehensive scene understanding is indispensable, a lack of which would result in vulnerability to rare but complex traffic situations, such as the sudden emergence of unknown objects. However, reasoning from a global context requires access to sensors of multiple types and adequate fusion of multi-modal sensor signals, which is difficult to achieve. On the other hand, the lack of interpretability in learning models also hampers the safety with unverifiable failure causes. In this paper, we propose a safety-enhanced autonomous driving framework, named Interpretable Sensor Fusion Transformer(InterFuser), to fully process and fuse information from multi-modal multi-view sensors for achieving comprehensive scene understanding and adversarial event detection. Besides, intermediate interpretable features are generated from our framework, which provide more semantics and are exploited to better constrain actions to be within the safe sets. We conducted extensive experiments on CARLA benchmarks, where our model outperforms prior methods, ranking the first on the public CARLA Leaderboard. Our code will be made available at https://github.com/opendilab/InterFuser

研究动机与目标

用健壮的多模态感知推动更安全的端到端自动驾驶。
开发一种一阶段的融合架构，将多视角摄像头和 LiDAR 融合以实现对场景的全面理解。
生成可解释的中间特征（安全思维导图），以将动作约束在安全集合内。
利用一个使用中间输出来提升在对抗性城市场景中的驾驶安全性的安全控制器。

提出的方法

使用 CNN 主干从四个传感器（三个 RGB 摄像头和 LiDAR BEV）提取特征并将其投影到 transformer token 中。
将多模态多视角特征与 Transformer 编码器融合，并使用三分支 Transformer 解码器解码，产生路径点、目标密度图和交通规则信号。
通过 GRU 自回归头初始化的 GPS 目标位置嵌入，预测 L=10 的未来路径点。
在一个 2D BEV 网格 (R x R x 7) 中预测对象密度图 M，捕捉存在概率、偏移量、大小、朝向和速度，以及交通规则信号（交通灯、停车标志、路口）。
一个安全控制器使用密度图和跟踪对象预测来求解一个线性规划问题，以获得安全的期望速度，并应用受安全考虑约束的 PID 基横向与纵向控制。

实验结果

研究问题

RQ1一阶段基于 Transformer 的多视角、多模态传感器融合是否能提升对自主驾驶全局上下文的推理能力？
RQ2中间的可解释特征（安全思维导图）是否可用于强制执行安全约束并提升端到端驾驶的可靠性？
RQ3加入多视角输入（包括聚焦视角以获取远距离交通灯）在对抗性场景下如何影响安全性与性能？
RQ4利用可解释输出的安全约束控制器是否能在保持路线前进的同时降低违规次数，相较于以往方法？

主要发现

方法	驾驶分数	路线完成度	违规分数
InterFuser (ours)	76.18	88.23	0.84
TCP	75.14	85.63	0.87
LAV	61.85	94.46	0.64
TransFuser	61.18	86.69	0.71
Latent TransFuser	45.20	66.31	0.72
GRIAD	36.79	61.85	0.60
TransFuser+	34.58	69.84	0.56
Rails	31.37	57.65	0.56
IARL	24.98	46.97	0.52
NEAT	21.83	41.71	0.65

InterFuser 在公开 CARLA 榜单中排名第一，驾驶分数为 76.18，路线完成度 88.23，违规分数 0.84。
加入所有传感器（frontLRFcLi）在基准测试中实现了最佳的驾驶性能和安全性。
消融实验显示全传感器使用、传感器嵌入/位置编码，以及安全控制器显著改善指标，相较于消融组。
该模型在 CARLA 榜单上超过了包括 TCP、LAV、TransFuser 变体等在内的若干基线。
安全思维导图与安全控制器对性能贡献显著；移除安全控制器会降低驾驶分数和违规分数。
在 CARLA 的对抗性城市场景（Town05 与 CARLA 42 Routes 基准）中，该方法展现出强劲性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。