[論文レビュー] Language-Driven Interactive Traffic Trajectory Generation
InteractTraj は language-to-code エンコーダと code-to-trajectory デコーダを導入し、自然語言描述からインタラクティブな交通軌跡を生成、車両相互作用をモデリングすることで WOMD と nuPlan で最先端のリアリズムを達成します。
Realistic trajectory generation with natural language control is pivotal for advancing autonomous vehicle technology. However, previous methods focus on individual traffic participant trajectory generation, thus failing to account for the complexity of interactive traffic dynamics. In this work, we propose InteractTraj, the first language-driven traffic trajectory generator that can generate interactive traffic trajectories. InteractTraj interprets abstract trajectory descriptions into concrete formatted interaction-aware numerical codes and learns a mapping between these formatted codes and the final interactive trajectories. To interpret language descriptions, we propose a language-to-code encoder with a novel interaction-aware encoding strategy. To produce interactive traffic trajectories, we propose a code-to-trajectory decoder with interaction-aware feature aggregation that synergizes vehicle interactions with the environmental map and the vehicle moves. Extensive experiments show our method demonstrates superior performance over previous SoTA methods, offering a more realistic generation of interactive traffic trajectories with high controllability via diverse natural language commands. Our code is available at https://github.com/X1a-jk/InteractTraj.git
研究の動機と目的
- 言語入力で現実的で制御可能な交通軌跡生成を動機づける。
- 抽象的な言語説明を具体的な相互作用認識表現へ橋渡しする。
- 相互作用認識コード化と集約を活用して一貫した複数車両軌跡を生成する。
- 実世界ベンチマーク(WOMD, nuPlan)で最先端ベースラインと比較評価する。
提案手法
- 言語-to-code エンコーダと code-to-trajectory デコーダの二部構成アーキテクチャで InteractTraj を提案する。
- 言語を三種類の相互作用認識数値コードにエンコードする:相互作用コード、車両コード、マップコード。
- GPT-4 のプロンプトを用いて、相対位置、距離、車両状態、マップ特徴を捉えるコードを生成。
- マップ、車両、相互作用情報を統合する二段階の相互作用認識特徴量集約を介してコードを軌跡へデコードする。
- 抽出されたコードから ground-truth 軌跡を再構成し、軌跡損失と相対距離損失を最小化することで訓練する。
実験結果
リサーチクエスチョン
- RQ1自然言語コマンドをマルチ車両ダイナミクスを反映した相互作用認識コードへ変換するにはどうすればよいか?
- RQ2これらのコードをデコードする code-to-trajectory デコーダは現実的でインタラクティブな交通軌跡を生成できるか?
- RQ3言語条件付きインタラクティブ軌跡は、現実性と制御性の点で従来の言語駆動型または非インタラクティブなベースラインを上回るか?
- RQ4生成品質への相互作用コードと集約戦略の貢献はどれくらいか?
主な発見
| データセット | 手法 | mADE ↓ | minADE ↓ | mFDE ↓ | minFDE ↓ | SCR ↓ | HD ↓ |
|---|---|---|---|---|---|---|---|
| WOMD | TrafficGen | 9.531 | 1.440 | 20.106 | 3.690 | 0.086 | 5.733 |
| WOMD | LCTGen | 1.262 | 0.224 | 2.696 | 0.463 | 0.072 | 1.295 |
| WOMD | InteractTraj(w/o I) | 1.205 | 0.207 | 2.479 | 0.346 | 0.090 | 1.210 |
| WOMD | InteractTraj | 1.067 | 0.181 | 2.190 | 0.320 | 0.070 | 1.076 |
| nuPlan | TrafficGen | 9.418 | 1.416 | 19.686 | 3.627 | 0.082 | 5.874 |
| nuPlan | LCTGen | 1.161 | 0.218 | 2.497 | 0.448 | 0.074 | 1.301 |
| nuPlan | InteractTraj(w/o I) | 1.108 | 0.181 | 2.277 | 0.323 | 0.070 | 1.150 |
| nuPlan | InteractTraj | 0.962 | 0.160 | 1.987 | 0.321 | 0.067 | 1.129 |
- InteractTraj は WOMD および nuPlan で SoTA 的リアリズムを達成し、ベースラインと比較して誤差を削減。
- WOMD では InteractTraj は mADE 1.067、minADE 0.181、mFDE 2.190、minFDE 0.320、SCR 0.070、HD 1.076 を達成。
- nuPlan では InteractTraj は mADE 0.962、minADE 0.160、mFDE 1.987、minFDE 0.321、SCR 0.067、HD 1.129 を達成。
- 相互作用コードを使わないアブレーション版は性能が劣ることを確認、相互作用認識入力の有効性を裏付け。
- ユーザ調査では、インタラクション種別を問わず InteractTraj が LCTGen よりシナリオ生成を好まれる傾向が高い。
- アブレーション研究は、提案コンポーネントと離散化選択の全てからの利点を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。