[论文解读] RESBev: Making BEV Perception More Robust
RESBev 引入一个潜在世界模型框架,通过从历史帧预测干净的语义先验并与当前被污染的 BEV 特征融合,实现对 BEV 感知的鲁棒性提升,便于在基于 LSS 的模型中实现 plug-and-play 的鲁棒性。
Bird's-eye-view (BEV) perception has emerged as a cornerstone of autonomous driving systems, providing a structured, ego-centric representation critical for downstream planning and control. However, real-world deployment faces challenges from sensor degradation and adversarial attacks, which can cause severe perceptual anomalies and ultimately compromise the safety of autonomous driving systems. To address this, we propose a resilient and plug-and-play BEV perception method, RESBev, which can be easily applied to existing BEV perception methods to enhance their robustness to diverse disturbances. Specifically, we reframe perception robustness as a latent semantic prediction problem. A latent world model is constructed to extract spatiotemporal correlations across sequential BEV observations, thereby learning the underlying BEV state transitions to predict clean BEV features for reconstructing corrupted observations. The proposed framework operates at the semantic feature level of the Lift-Splat-Shoot pipeline, enabling recovery that generalizes across both natural disturbances and adversarial attacks without modifying the underlying backbone. Extensive experiments on the nuScenes dataset demonstrate that, with few-shot fine-tuning, RESBev significantly improves the robustness of existing BEV perception models against various external disturbances and adversarial attacks.
研究动机与目标
- 分析在自然和对抗性干扰下,基于 LSS 的 BEV 感知管线的鲁棒性。
- 识别在 BEV 管线中何处以及如何干预以提升鲁棒性。
- 提出一个可插拔的潜在世界模型,能够从历史和自运动中预测干净的 BEV 先验。
- 在 nuScenes 上展示鲁棒性提升和对未见干扰的泛化能力。
提出的方法
- 将感知鲁棒性表述为 BEV 语义空间中的时间潜在预测问题。
- 引入语义先验预测器,通过潜在世界模型对 BEV 状态演化进行建模。
- 加入异常重构器,利用带有动态门控的跨注意力将预测的干净先验与当前被污染的 BEV 特征融合。
- 在 Splat(BEV 语义)阶段进行集成,以保留高维上下文。
- 使用在潜在回归和预测上的变分目标(ELBO)进行训练,以学习动力学和鲁棒重建。
实验结果
研究问题
- RQ1是否可以通过预测并使用潜在 BEV 先验来改进 BEV 鲁棒性,而不是仅依赖当前原始观测?
- RQ2潜在空间的时间预测是否比简单的时间聚合在恢复被污染的 BEV 特征方面更有效?
- RQ3在 LSS 管线的哪一处应嵌入鲁棒性模块以获得最佳效果?
- RQ4基于潜在动力学的方法在未见干扰上的泛化能力是否优于现有基线?
主要发现
- RESBev 在多种基线的已知干扰下,始终提高了 IoU 鲁棒性。
- 带有生成先验的潜在动力学世界模型在鲁棒性方面优于时间注意力和单帧基线。
- 在 BEV Splat 阶段进行干预比图像空间或任务头处干预能获得更好的恢复效果。
- 语义先验预测器与异常重构器的组合带来比任一组成部分单独使用更大的增益。
- 与 GraphBEV 相比,RESBev 在对未见干扰的泛化能力上总体表现更好。
- 消融实验表明预测先验和基于异常感知的融合对鲁棒恢复都很重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。