[論文レビュー] Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer
InterFuser は、マルチビュー・マルチモーダルなセンサデータをトランスフォーマーで統合し、解釈可能な中間の安全機能と安全性を制約するコントローラを生成します。CARLA ベンチマークでトップ性能を達成します。
Large-scale deployment of autonomous vehicles has been continually delayed due to safety concerns. On the one hand, comprehensive scene understanding is indispensable, a lack of which would result in vulnerability to rare but complex traffic situations, such as the sudden emergence of unknown objects. However, reasoning from a global context requires access to sensors of multiple types and adequate fusion of multi-modal sensor signals, which is difficult to achieve. On the other hand, the lack of interpretability in learning models also hampers the safety with unverifiable failure causes. In this paper, we propose a safety-enhanced autonomous driving framework, named Interpretable Sensor Fusion Transformer(InterFuser), to fully process and fuse information from multi-modal multi-view sensors for achieving comprehensive scene understanding and adversarial event detection. Besides, intermediate interpretable features are generated from our framework, which provide more semantics and are exploited to better constrain actions to be within the safe sets. We conducted extensive experiments on CARLA benchmarks, where our model outperforms prior methods, ranking the first on the public CARLA Leaderboard. Our code will be made available at https://github.com/opendilab/InterFuser
研究の動機と目的
- 堅牢なマルチモーダル知覚によって、安全性の高いエンドツーエンド自動運転を推進する。
- マルチビューのカメラと LiDAR を統合して包括的なシーン理解を実現するワンステージの融合アーキテクチャを開発する。
- 解釈可能な中間特徴量(safety mind map)を生成し、安全な集合内で行動を制約する。
- 中間出力を利用する安全コントローラを活用して、対抗的な都市環境での運転安全性を高める。
提案手法
- 4つのセンサー(3つのRGBカメラとLiDAR BEV)から特徴を抽出するためにCNNバックボーンを用い、それらをトランスフォーマートークンへ射影する。
- マルチモーダル・マルチビュー特徴をトランスフォーマーエンコーダで融合し、3枝トランスフォーマーデコーダでウェイポイント、オブジェクト密度マップ、交通ルール信号を生成してデコードする。
- GPSゴール位置の埋め込みで初期化されたGRU自己回帰ヘッドを用いてL=10の将来ウェイポイントを予測する。
- 存在確率、オフセット、サイズ、方位、速度を捉える2D BEVグリッド(R x R x 7)内のオブジェクト密度マップMを予測し、加えて交通ルール信号(信号灯、停止標識、交差点)を予測する。
- 安全コントローラは密度マップと追跡されたオブジェクト予測を用いて安全な望ましい速度を求める線形計画問題を解き、安全上の配慮に制約されたPIDベースの横方向・縦方向制御を適用する。
実験結果
リサーチクエスチョン
- RQ1マルチビュー・マルチモードセンサーのワンステージ型トランスフォーマーフュージョンは、自動運転におけるグローバルな文脈推論を改善できるか?
- RQ2中間の解釈可能な特徴量(safety mind map)を用いて安全制約を課し、エンドツーエンドの運転の信頼性を向上させることができるか?
- RQ3遠方の信号機にフォーカスビューを含むマルチビュー入力の取り込みが、敵対的な状況下での安全性と性能にどう影響するか?
- RQ4解釈可能な出力を活用した安全制約付きコントローラは、以前の手法と比較して違反を減らしつつルート進行を維持できるか?
主な発見
| Method | Driving Score | Route Completion | Infraction Score |
|---|---|---|---|
| InterFuser (ours) | 76.18 | 88.23 | 0.84 |
| TCP | 75.14 | 85.63 | 0.87 |
| LAV | 61.85 | 94.46 | 0.64 |
| TransFuser | 61.18 | 86.69 | 0.71 |
| Latent TransFuser | 45.20 | 66.31 | 0.72 |
| GRIAD | 36.79 | 61.85 | 0.60 |
| TransFuser+ | 34.58 | 69.84 | 0.56 |
| Rails | 31.37 | 57.65 | 0.56 |
| IARL | 24.98 | 46.97 | 0.52 |
| NEAT | 21.83 | 41.71 | 0.65 |
- InterFuser は公開CARLAリーダーボードで首位にランクインし、Driving Score 76.18、Route Completion 88.23、Infraction Score 0.84 となる。
- 全センサー(frontLRFcLi)を追加すると、ベンチマーク全体で最高の運転性能と安全性を得られる。
- アブレーションでは、全センサーの使用、センサー埋め込み・位置符号化、そして安全コントローラが、アブレーションと比べて指標を有意に改善することを示している。
- モデルはCARLAリーダーボードでTCP、LAV、TransFuser系 variantesなどのいくつかのベースラインを上回る。
- Safety mind map と安全コントローラは性能に大きく寄与しており、安全コントローラを除去すると Driving Score と Infraction Score が低下する。
- このアプローチはCARLAの敵対的な都市シナリオ(Town05 および CARLA 42 Routes ベンチマーク)で高い性能を達成している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。