[論文レビュー] PlanT: Explainable Planning Transformers via Object-Level Representations
PlanT は自律走行のためのコンパクトなオブジェクトレベル入力(車両と経路)を用いたトランスフォーマー型プランナーを導入し、推論が高速で注意機構による説明性を強化した専門家レベルの性能を実現します。また、認識モジュールと併用することでセンサーベースのプランニングも可能にします。
Planning an optimal route in a complex environment requires efficient reasoning about the surrounding scene. While human drivers prioritize important objects and ignore details not relevant to the decision, learning-based planners typically extract features from dense, high-dimensional grid representations containing all vehicle and road context information. In this paper, we propose PlanT, a novel approach for planning in the context of self-driving that uses a standard transformer architecture. PlanT is based on imitation learning with a compact object-level input representation. On the Longest6 benchmark for CARLA, PlanT outperforms all prior methods (matching the driving score of the expert) while being 5.3x faster than equivalent pixel-based planning baselines during inference. Combining PlanT with an off-the-shelf perception module provides a sensor-based driving system that is more than 10 points better in terms of driving score than the existing state of the art. Furthermore, we propose an evaluation protocol to quantify the ability of planners to identify relevant objects, providing insights regarding their decision-making. Our results indicate that PlanT can focus on the most relevant object in the scene, even when this object is geometrically distant.
研究の動機と目的
- Dense pixel-level inputs ではなく、コンパクトなオブジェクトレベル表現を用いて自動運転のプランニングを動機づける。
- 車両と経路セグメントを操作するトランスフォーマー型プランナーを開発し、 ego-trajectory を予測する。
- オブジェクトレベルのプランニングが効率的な推論で最先端の性能を達成できることを示す。
- どのオブジェクトがプランニング決定に最も影響を与えるかを特定する説明性プロトコルを提案する。
提案手法
- シーンを6つの属性を持つオブジェクトトークン(車両と経路セグメント)として表現し、それらを埋め込みトークン化してトランスフォーマーエンコーダに供する。
- CLSトークンベースのトランスフォーマーエンコーダを用いてシーン情報を集約し、GRUベースのデコーダで将来のウェイポイントを生成する。
- デコーダの初期化にバイナリの信号灯フラグを追加し、4ステップのBEV軌跡を予測する。
- 他車丼の属性をビンに離散化してクロスエントロピー損失を適用する補助タスクを導入する。
- ウェイポイントのL1損失と車両属性のクロスエントロピー損失を組み合わせたマルチタスク損失(λ重み付け)で学習する。
実験結果
リサーチクエスチョン
- RQ1オブジェクトレベルのトランスフォーマー表現は、都市部の運転ベンチマークでピクセルベースのプランナーと同等またはそれを上回ることができるか。
- RQ2入力要素(全周視野、速度、経路表現)はプランニング性能にとってどの要因として重要か。
- RQ3PlanT の説明性はどの程度か、注意機構は最も関連するオブジェクトを安全なプランニングのために特定できるか。
- RQ4PlanT は認識モジュールと組み合わせるとセンサーベースのプランニングへ転用可能か。
- RQ5データ量とモデル規模の拡大はプランニング性能にどのような影響を与えるか。
主な発見
| Method | Input | DS ↑ | RC ↑ | IS ↑ | CV ↓ | IT ↓ |
|---|---|---|---|---|---|---|
| PlanCNN | 360° view including back, speed, and route elements | 77.47 ± 1.34 | 94.53 ± 2.59 | 0.81 ± 0.03 | 0.43 ± 0.05 | 28.94 |
| PlanT | 360° view including back, speed, and route elements | 81.36 ± 6.54 | 93.55 ± 2.62 | 0.87 ± 0.05 | 0.31 ± 0.12 | 10.79 |
| PlanT w/o back view | 30° side view, no rear vehicles | 72.86 ± 5.56 | 93.55 ± 2.62 | 0.65 ± 0.06 | 0.97 ± 0.09 | 37.61 |
| PlanT w/ perception | Camera + LiDAR perception module | 57.66 ± 5.01 | 88.20 ± 0.94 | 0.65 ± 0.06 | 0.97 ± 0.09 | 37.61 |
| Expert | Obj. + Route + Actions | 76.91 ± 2.23 | 88.67 ± 0.56 | 0.86 ± 0.03 | - | - |
- PlanT は Longest6 で専門家レベルの運転性能を達成し、ピクセルベースのベースラインより推論が速い。
- 全方位の視野、車両速度、およびより大きなデータ/モデルサイズは PlanT と PlanCNN の性能を大幅に向上させる。
- 認識モジュールを組み合わせた PlanT は TransFuser および LAV を大幅に上回る(表1に示す DS の改善)。
- PlanT のアテンション重みはオブジェクトの関連性の信頼できる説明を提供し、RFDS において PlanCNN を上回る。
- PlanT は 3× データセット(MEDIUM)で 81.36 DS を達成し PlanCNN より約 3 倍速く、PlanT MINI は同等の DS で約 5.3 倍高速。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。