[論文レビュー] LAD-Drive: Bridging Language and Trajectory with Action-Aware Diffusion Transformers
LAD-Driveはアクションデコーダとアクション認識拡散デコーダを用いて高レベルの言語駆動意図を低レベルの運動計画から分離し、LangAutoでマルチモーダル条件付実行を実現、最先端の結果を達成。
While multimodal large language models (MLLMs) provide advanced reasoning for autonomous driving, translating their discrete semantic knowledge into continuous trajectories remains a fundamental challenge. Existing methods often rely on unimodal planning heads that inherently limit their ability to represent multimodal driving behavior. Furthermore, most generative approaches frequently condition on one-hot encoded actions, discarding the nuanced navigational uncertainty critical for complex scenarios. To resolve these limitations, we introduce LAD-Drive, a generative framework that structurally disentangles high-level intention from low-level spatial planning. LAD-Drive employs an action decoder to infer a probabilistic meta-action distribution, establishing an explicit belief state that preserves the nuanced intent typically lost by one-hot encodings. This distribution, fused with the vehicle's kinematic state, conditions an action-aware diffusion decoder that utilizes a truncated denoising process to refine learned motion anchors into safe, kinematically feasible trajectories. Extensive evaluations on the LangAuto benchmark demonstrate that LAD-Drive achieves state-of-the-art results, outperforming competitive baselines by up to 59% in Driving Score while significantly reducing route deviations and collisions. We will publicly release the code and models on https://github.com/iis-esslingen/lad-drive.
研究の動機と目的
- 言語推論と軌道計画を統合したマルチモーダル自動運転を動機づける。
- 離散的な言語トークンと連続的な運動のモダリティ差を解消する。
- 確率的な高レベルアクション分布を明示的にモデル化することでモード平均化を防ぐ。
- 意味論的意図と車両運動学の両方に拠った拡散ベースの軌道生成を地固めする。
提案手法
- LLM由来の文脈から学習されるアクションデコーダによる明示的な確率的メタアクション(信念)状態を導入する。
- 信念状態と自車状態を状態-意図表現を介して拡散ベースの軌道デコーダに条件付けする。
- k-meansクラスタリングで学習したドメイン整合的なモーションアンカーを用いて二つのデノイジングステップを持つ切断拡散過程を初期化する。
- 高次元のLLM埋め込みを安定した拡散基盤にマッピングする特徴ボトルネックを適用する。
- 二段階の訓練を行う:空間的グラウンディングで実現可能な経路を学習し、次に意味論的整合でアクションを軌道へ結びつける。
実験結果
リサーチクエスチョン
- RQ1言語と知覚からの意味論的意図を低レベルの軌道実行から信頼性高く分離するにはどうすればよいか。
- RQ2確率的メタアクションで条件付けられたアクション認識拡散モデルは、ワンホットや暗黙的条件付けよりもマルチモーダル軌道計画を改善できるか。
- RQ3ドメイン整合的なモーションpriorsと意味論的特徴ボトルネックが計画の安定性と安全性に与える影響は何か。
- RQ4明示的な状態-意図条件付けは LangAuto設定における運動学的実現可能性と指示遵守を改善するか。
主な発見
| Method | DS (Tiny) | RC (Tiny) | IS (Tiny) | DS (Short) | RC (Short) | IS (Short) | DS (Long) | RC (Long) | IS (Long) | DS (Mean) | RC (Mean) | IS (Mean) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| LAD-Drive (Ours) | 83.5 | 87.0 | 0.95 | 71.3 | 78.1 | 0.89 | 49.8 | 58.3 | 0.86 | 68.2 | 74.5 | 0.90 |
| LMDrive (Reported) | 66.5 | 77.9 | 0.85 | 50.6 | 60.0 | 0.84 | 36.2 | 46.6 | 0.81 | 51.1 | 61.5 | 0.83 |
| LMDrive (Checkpoint) | 60.7 | 71.0 | 0.82 | 41.3 | 57.0 | 0.79 | 26.8 | 36.5 | 0.77 | 42.9 | 54.8 | 0.79 |
| AD-H | 77.5 | 85.1 | 0.91 | 56.1 | 68.0 | 0.78 | 44.0 | 53.2 | 0.83 | 59.2 | 68.8 | 0.84 |
| BEVDriver | 70.2 | 81.3 | 0.87 | 66.7 | 77.8 | 0.87 | 48.9 | 59.7 | 0.82 | 61.9 | 72.9 | 0.85 |
| SToRM | 78.8 | 86.9 | 0.92 | 64.5 | 74.7 | 0.88 | 44.2 | 56.8 | 0.82 | 62.5 | 72.8 | 0.87 |
| VLDrive | 81.9 | 85.5 | 0.94 | 67.4 | 78.1 | 0.85 | 43.8 | 54.5 | 0.84 | 64.4 | 72.7 | 0.88 |
| AdaDrive | 80.9 | 87.6 | 0.90 | 70.6 | 85.3 | 0.81 | 42.9 | 53.4 | 0.82 | 64.8 | 75.4 | 0.84 |
- LAD-DriveはLangAutoで平均運転スコア(DS)の最先端68.2を達成し、LMDriveベースラインを59%上回った。
- LMDriveチェーンポイントと比較して、LAD-Driveはルート逸脱(RD)を11.95から2.31に低減し、動的エージェントに対する違法行為率をCVを2.83から0.67、CPを0.08から0.02へ低減した。
- 明示的な横方向アクション条件付けとegoグラウンディングを組み合わせたとき、アブレーションの中で最良の性能(DS 68.2、RC 74.5、IS 0.90)を示した。
- アーキテクチャはRoute Completion(RC)とDriving Scoreを大幅に向上させつつ、LMDriveベースラインと比較してデコーダー パラメータを1.48M削減し、競争力のあるレイテンシ(47.04 ms)を維持した。
- 2段階の訓練戦略(空間グラウンディング→意味論的整合)は、物理的に実現可能な軌道と意味論的リアリズムのバランスを取るうえで重要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。