QUICK REVIEW

[論文レビュー] Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research

Cole Gulino, Justin Fu|arXiv (Cornell University)|Oct 12, 2023

Autonomous Vehicle Technology and Safety被引用数 22

ひとこと要約

tldr: Waymax は、実世界データ（Waymo Open Motion Dataset）に基づく、 differentiable でハードウェア加速されたマルチエージェント自動運転シミュレータであり、閉ループおよび開ループの設定で計画エージェントの高速、in-graph トレーニングとベンチマークを可能にする。

ABSTRACT

Simulation is an essential tool to develop and benchmark autonomous vehicle planning software in a safe and cost-effective manner. However, realistic simulation requires accurate modeling of nuanced and complex multi-agent interactive behaviors. To address these challenges, we introduce Waymax, a new data-driven simulator for autonomous driving in multi-agent scenes, designed for large-scale simulation and testing. Waymax uses publicly-released, real-world driving data (e.g., the Waymo Open Motion Dataset) to initialize or play back a diverse set of multi-agent simulated scenarios. It runs entirely on hardware accelerators such as TPUs/GPUs and supports in-graph simulation for training, making it suitable for modern large-scale, distributed machine learning workflows. To support online training and evaluation, Waymax includes several learned and hard-coded behavior models that allow for realistic interaction within simulation. To supplement Waymax, we benchmark a suite of popular imitation and reinforcement learning algorithms with ablation studies on different design decisions, where we highlight the effectiveness of routes as guidance for planning agents and the ability of RL to overfit against simulated agents.

研究の動機と目的

目的は自動運転計画研究のための速く、現実味のあるシミュレーションを動機づけ、 sim-to-real のギャップを最小化すること。
アクセラレータ上でのトレーニングを可能にする in-graph 実行が可能な、 differentiable でハードウェア加速されたマルチエージェント・シミュレータを提供すること。
learned および hard-coded の挙動モデルと現実的なインタラクティブエージェントを用いたオンライン学習と評価を可能にすること。
多様な実データ初期化シナリオで模倣学習と強化学習の計画アルゴリズムをベンチマークすること。

提案手法

Waymo Open Motion Dataset の実世界走行データを使用して、多様なマルチエージェントシナリオを初期化および再生する。
JAX で構築された differentiable かつハードウェア加速されたシミュレータを実装し、GPU/TPU 上で実行し in-graph トレーニングをサポートする。
ルート情報・目標情報を持ち、反応的な sim エージェント（例：IDM）を備えた、マルチエージェントおよび ego 中心の計画環境の両方を提供する。
動的オブジェクトのダイナミクスを delta アクション空間または bicycle アクション空間で定義し、さまざまな観測関数と route-on/off-route のパス概念をサポートする。
閉ループで計算される指標のスイート（例：ルート進捗、オフルート、オフロード、衝突、運動的実現不能、変位誤差）と、複数のベースラインエージェント（expert、BC、DQN、Wayformer）を提供する。

実験結果

リサーチクエスチョン

RQ1実データのログを用いて、スケーラブルなデータ駆動型シミュレータが現実的なマルチエージェント走行相互作用を再現できるか。
RQ2ハードウェア加速された微分可能シミュレーションは、自動運転の計画ポリシーの学習と評価をより速く促進できるか。
RQ3ルート条件付けとインタラクティブな sim エージェントが閉ループ設定での計画性能に与える影響はどの程度か。
RQ4Waymax を用いて reactive シミュレータや記録された軌跡と比較して、模倣学習と強化学習のベースラインはどう適合するか。

主な発見

Waymax は GPU 上でバッチサイズ 16 でのステップ実行時間を 3 ms 未満、単一ステップ実行で 1000 Hz 以上のスループットを達成する。
ルート条件付けはルート追従性を改善し、模倣学習におけるオフロードおよび衝突率を低減する。
離散的な bicycle アクションを用いた模倣は専門家ベースラインと競合する性能を示し、ルート条件付けされた BC は強いルート準拠を示す。
IDM インタラクティブエージェントに対して RL エージェントを訓練すると、記録されたエージェントに対して訓練するより効果が薄い場合があり、インタラクティブなシミュレータの挙動への過学習を示唆する。
IDM シミュレータに対する評価は衝突を減少させる一方で、協調的なダイナミクスがより容易になるため RL エージェントの学習を妨げる可能性がある。
Waymax はアクセラレータ上での in-graph トレーニングを可能にし、エンドツーエンドの微分可能シミュレーションワークフローを実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。