[論文レビュー] RESBev: Making BEV Perception More Robust
RESBev は過去フレームからのクリーンなセマンティックプリオリを予測し、それを現在の破損BEV特徴と融合することで、LSSベースのモデル全体でプラグアンドプレイの堅牢性を実現する潜在世界モデルフレームワークを導入する。
Bird's-eye-view (BEV) perception has emerged as a cornerstone of autonomous driving systems, providing a structured, ego-centric representation critical for downstream planning and control. However, real-world deployment faces challenges from sensor degradation and adversarial attacks, which can cause severe perceptual anomalies and ultimately compromise the safety of autonomous driving systems. To address this, we propose a resilient and plug-and-play BEV perception method, RESBev, which can be easily applied to existing BEV perception methods to enhance their robustness to diverse disturbances. Specifically, we reframe perception robustness as a latent semantic prediction problem. A latent world model is constructed to extract spatiotemporal correlations across sequential BEV observations, thereby learning the underlying BEV state transitions to predict clean BEV features for reconstructing corrupted observations. The proposed framework operates at the semantic feature level of the Lift-Splat-Shoot pipeline, enabling recovery that generalizes across both natural disturbances and adversarial attacks without modifying the underlying backbone. Extensive experiments on the nuScenes dataset demonstrate that, with few-shot fine-tuning, RESBev significantly improves the robustness of existing BEV perception models against various external disturbances and adversarial attacks.
研究の動機と目的
- 自然および敵対的破損に対する LSS ベース BEV 知覚パイプラインの頑健性を分析する。
- BEV パイプラインで頑健性を向上させる介入箇所と方法を特定する。
- history と ego-motion からクリーンな BEV priors を予測するプラグアンドプレイ潜在世界モデルを提案する。
- nuScenes における未知の摂動に対する頑健性の向上と一般化を実証する。
提案手法
- BEV セマンティック空間における時間的潜在予測問題として知覚頑健性を定式化する。
- BEV 状態の進化を潜在世界モデルでモデル化する Semantic Prior Predictor を導入する。
- 予測されたクリーンな priors を現在の破損 BEV特徴とクロスアテンションとダイナミックゲートを用いて融合する Anomaly Reconstructor を組み込む。
- 高次元の文脈を保持するため Splat (BEV セマンティック) ステージでの統合を行う。
- 潜在再発と予測に対して変分目的関数(ELBO)で訓練し、ダイナミクスと頑健な再構成を学習する。
実験結果
リサーチクエスチョン
- RQ1BEV の頑健性は、生の現在観測値に依存するよりも潜在 BEV priors を予測して利用することで向上するか。
- RQ2潜在空間の時系列予測は、破損した BEV特徴を復元するのに単純な時系列集約より効果的か。
- RQ3LSS パイプラインのどこに頑健性モジュールを介入させると最も効果的か。
- RQ4潜在ダイナミクスベースの手法は、未知の破損に対して既存のベースラインより一般化できるか。
主な発見
- RESBev は、 seen 破損下で複数の LSS ベースのベースラインに対して IoU の頑健性を一貫して改善する。
- 生成 priors を備えた潜在ダイナミクス世界モデルは、時間的アテンションおよび単一フレームのベースラインより優れている。
- BEV Splat ステージでの介入は、画像空間やタスクヘッド介入より良い再構成をもたらす。
- Semantic Prior Predictor と Anomaly Reconstructor の組み合わせは、いずれか一方のコンポーネント単独より大きな利得を生む。
- RESBev は未見の破損に対して GraphBEV より一般化能力が高い(平均)。
- アブレーションでは、予測 priors と異常認識融合の両方が頑健な再構成に重要であることが示される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。