Skip to main content
QUICK REVIEW

[論文レビュー] Language Conditioned Traffic Generation

Shuhan Tan, Boris Ivanovic|arXiv (Cornell University)|Jul 16, 2023
Autonomous Vehicle Technology and Safety被引用数 9
ひとこと要約

LCTGen は GPT-4 ベースの解釈器、地図取得モジュール、クエリベースのトランスフォーマー生成器を用いて、自然言語説明から現実的な交通シナリオを生成する、現実性と制御性の点で従来手法を上回る言語条件付き交通生成モデルです。

ABSTRACT

Simulation forms the backbone of modern self-driving development. Simulators help develop, test, and improve driving systems without putting humans, vehicles, or their environment at risk. However, simulators face a major challenge: They rely on realistic, scalable, yet interesting content. While recent advances in rendering and scene reconstruction make great strides in creating static scene assets, modeling their layout, dynamics, and behaviors remains challenging. In this work, we turn to language as a source of supervision for dynamic traffic scene generation. Our model, LCTGen, combines a large language model with a transformer-based decoder architecture that selects likely map locations from a dataset of maps, and produces an initial traffic distribution, as well as the dynamics of each vehicle. LCTGen outperforms prior work in both unconditional and conditional traffic scene generation in terms of realism and fidelity. Code and video will be available at https://ariostgx.github.io/lctgen.

研究の動機と目的

  • 自然言語で制御可能な現実的でスケーラブルな交通シナリオ生成を動機づける。
  • 言語-交通ペアデータがなくても、ユーザーの説明と一致する交通初期状態とダイナミクスの生成を可能にする。
  • 言語モデルを活用してコンパクトな構造化表現を導出し、適切な地図を検索する。
  • 地図と構造化された記述を統合して完全な交通軌跡を生成するエンドツーエンドの生成器を開発する。
  • 指示的な編集と制御可能なポリシー評価への適用性を示す。

提案手法

  • インタプリタは、GPT-4を用いたインコントレクション学習とチェーン・オブ・ソウト・ prompting を用いて、自然言語入力をコンパクトな構造化表現 z に変換します。
  • Retrieval は、構造化表現 z とターゲットシナリオに最も適合する実世界の地図データセットからマップ領域をサンプリングする。
  • Generator は、マップ機能とエージェントのクエリを取り込み、単一のフォワードパスでエージェント間・エージェントとマップ間の相互作用を共同でモデル化するクエリベースのトランスフォーマーです。
  • シーンデコーディングは、エージェントをマップの車線セグメント上に配置し、エージェント属性と動作をガウス混合モデルと複数の将来軌跡を用いて予測します。
  • エンコーダ/トレーニングパイプラインは、シナリオのみの運転データから現実のシナリオを再構成することを、シーンを構造化表現に翻訳し、 Generator をエンドツーエンドで訓練することで学習します。
  • このアーキテクチャは、特定の言語入力と地図に対して複数のシーンをサンプリングすることをサポートし、確率的性とスケーラビリティを可能にします。

実験結果

リサーチクエスチョン

  • RQ1自然言語の記述を用いて、現実的な交通シーンを制御可能に生成することはできますか?
  • RQ2ペアの言語–交通データがなくても、LLMベースのインタプリタは言語とシーン表現をどのように橋渡しできますか?
  • RQ3クエリベースのトランスフォーマー生成器は、複数のエージェントと地図間の相互作用を効果的にモデル化して、一貫した軌跡を生み出しますか?
  • RQ4LCTGen は指示的な交通シナリオ編集や制御可能なポリシー評価に用いることができますか?

主な発見

  • LCTGen は、無条件および言語条件付きの交通生成において、従来の研究より現実性と制御性が優れている。
  • 言語による条件付けは、位置、進行方向、速度の属性精度をベースラインと比較して顕著に向上させる。
  • 運動品質は、mADE および mFDE で、言語条件付けを使用した場合、ベースラインより顕著に改善される。
  • 無条件版(w/o z)も、多くの指標で強力な事前モデル(TrafficGen)を上回っており、エンドツーエンドのトランスフォーマー設計を裏付けている。
  • 人間の評価では、LCTGen は衝突レポートと属性記述に関して、ベースラインよりテキスト記述とより良く整合することが示された。
  • 本モデルは指示的編集をサポートし、制御可能なポリシー評価に利用できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。