QUICK REVIEW

[論文レビュー] Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models

J. L. Vázquez Burguete, Alexander Liniger|arXiv (Cornell University)|Apr 5, 2022

Autonomous Vehicle Technology and Safety被引用数 29

ひとこと要約

論文は、予測と計画を密に結合させる対話的なモーション予測-計画モジュールを提案し、ゲーム理論的MPCと新規の対話型マルチエージェントポリシー(IMAP)を用いてモデルベースの模倣学習で訓練する。

ABSTRACT

In most classical Autonomous Vehicle (AV) stacks, the prediction and planning layers are separated, limiting the planner to react to predictions that are not informed by the planned trajectory of the AV. This work presents a module that tightly couples these layers via a game-theoretic Model Predictive Controller (MPC) that uses a novel interactive multi-agent neural network policy as part of its predictive model. In our setting, the MPC planner considers all the surrounding agents by informing the multi-agent policy with the planned state sequence. Fundamental to the success of our method is the design of a novel multi-agent policy network that can steer a vehicle given the state of the surrounding agents and the map information. The policy network is trained implicitly with ground-truth observation data using backpropagation through time and a differentiable dynamics model to roll out the trajectory forward in time. Finally, we show that our multi-agent policy network learns to drive while interacting with the environment, and, when combined with the game-theoretic MPC planner, can successfully generate interactive behaviors.

研究の動機と目的

エージェント間の双方向の相互作用を考慮するために予測と計画を結合させる動機づけ。
計画された自車の軌道に反応する対話型マルチエージェント予測(IMAP)ポリシーを導入。
微分可能なダイナミクスを用いたモデルベースの模倣学習でIMAPポリシーを訓練。
反応的な意思決定を改善するために地図情報とエージェント相互作用を取り入れる。
大規模なモーションデータセットで対話的な挙動生成をデモンストレーションする。

提案手法

状態・隠れ状態・地図を、微分可能な一輪車ダイナミクスモデルを用いて状態・隠れ状態・地図を行動へ写像する抽象的なマルチエージェントポリシーを定式化する。
バックプロパゲーション・トゥ・タイムと模倣損失を用いたモデルベースの模倣学習でポリシーを訓練する。
IMAPポリシーを、意図（エージェントへの注意）、物理（状態上のグラフニューラルネットワーク）、地図（Cross-attentionを用いたVectorNetベースの地図エンコーディング）という3つの相互作用モジュールで構成する。
再帰的GRUバックボーンを用いて相互作用埋め込みを融合し、微分可能なダイナミクスのために squashed Gaussian として行動を生成する。
閉ループ訓練を適用して単なる外挿ではなく反応的挙動を促進し、ゲーム理論的MPC設定における最善応答のような計画を可能にする。
対話型予測計画フレームワーク内で微分可能なダイナミクスモデルを活用して軌跡をロールアウトし、端から端まで訓練する。

実験結果

リサーチクエスチョン

RQ1学習されたマルチエージェントポリシーをMPCプランナーに埋め込むことで、明示的な報酬関数学習なしに自車と他エージェントの挙動を捉えられるか？
RQ2IMAPポリシーで意図・物理・地図の相互作用を取り入れると、実世界データセット上での反応的予測と計画の性能は向上するか？
RQ3微分可能なダイナミクスを用いたモデルベースの模倣学習は、複数エージェントの安定した対話的軌跡生成を可能にするか？
RQ4HD-Map情報とマルチエージェント相互作用を条件としたとき、対話型予測計画モジュールの性能はどうなるか？

主な発見

対話型の予測-計画モジュールは、予測とゲーム理論的計画を組み合わせることが可能で、対話的挙動を生成できる。
新規のIMAPポリシーは、微分可能なダイナミクスを用いたモデルベースの模倣学習によって環境と相互作用しつつ走行を学習できる。
意図・物理・地図の三つの相互作用チャネルは、GRU・GNN・VectorNet成分を介して統合され、実行可能な軌跡を生成する。
ポリシーは Lyft Level 5 および Waymo Open Motion Dataset の大規模モーションデータセット上で反応的挙動を示す。
訓練は閉ループ・教師フォーシング風の戦略を用いて過度の外挿を避け、衝突回避と車線遵守のスキルを促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。