[論文レビュー] Trajectory Forecasts in Unknown Environments Conditioned on Grid-Based Plans
P2T は Plans-to-Trajectories を提案します。未知の環境における multimodal な歩行者と車両の軌跡を、MaxEnt IRL によってグリッドベースの計画を推定し、その計画を条件として注意機構を用いたデコーダで連続軌跡を生成する。
We address the problem of forecasting pedestrian and vehicle trajectories in unknown environments, conditioned on their past motion and scene structure. Trajectory forecasting is a challenging problem due to the large variation in scene structure and the multimodal distribution of future trajectories. Unlike prior approaches that directly learn one-to-many mappings from observed context to multiple future trajectories, we propose to condition trajectory forecasts on plans sampled from a grid based policy learned using maximum entropy inverse reinforcement learning (MaxEnt IRL). We reformulate MaxEnt IRL to allow the policy to jointly infer plausible agent goals, and paths to those goals on a coarse 2-D grid defined over the scene. We propose an attention based trajectory generator that generates continuous valued future trajectories conditioned on state sequences sampled from the MaxEnt policy. Quantitative and qualitative evaluation on the publicly available Stanford drone and NuScenes datasets shows that our model generates trajectories that are diverse, representing the multimodal predictive distribution, and precise, conforming to the underlying scene structure over long prediction horizons.
研究の動機と目的
- 未知の環境における歩行者と車両の軌跡を、過去の運動とシーンレイアウトを用いて予測する。
- predefined goals なしに粗い 2-D グリッド上で妥当な目標と経路を推定する。
- 解釈可能な計画表現を用いて、サンプルされたグリッド計画に条件づけられた連続軌跡を生成する。
- 多様でありつつシーン適合性がある軌跡を生成し、下流の計画のためのコンパクトな予測セットを提供する。
提案手法
- MaxEnt IRL を再定式化して、一時的な経路報酬と終端目標報酬を同時に推定する。
- 局所シーンパッチを経路と目標報酬へマップする CNN ベースの報酬モデルを学習する。
- 目標条件なしの MaxEnt ポリシーを用いて、潜在的な目標へ向かう多様なグリッドベースの計画をサンプリングする。
- サンプルされた計画と運動履歴を連携させて連続的な未来軌跡へマッピングする注意機構付き軌跡生成器を構築する。
- 計画を条件づけた軌跡生成器を、エンコーダ–デコーダ(GRU および BiGRU)とソフトアテンションを用いて訓練し、計画に条件づけられた軌跡を生成する。
- サンプルした軌跡を K 個の代表的未来へクラスタリングし、下流の計画のために用いる。
実験結果
リサーチクエスチョン
- RQ1未知のシーンで事前に定義された終点なしに、グリッドベースの MaxEnt IRL は妥当で多様な目標と経路を推定できるか。
- RQ2 サンプルされたグリッド計画に条件づけられた軌跡は、シーン構造により適合し、長期的な精度を示すのか、従来の多様性を重視するアプローチと比べてどうか。
- RQ3 計画に条件づけられた注意機構付き軌跡生成器は、下流の自律システムの計画に適した多様でなおかつ正確な未来を生成できるか。
主な発見
- モデルは長期的にも基盤となるシーンに適合する多様な軌跡を生成する。
- P2T は Stanford Drone および NuScenes データセットの複数の評価指標で強いサンプル品質指標と競合または最先端の結果を達成する。
- 従来の多様性を重視する予測で見られる recalls-precision のトレードオフに対応しつつ、精度を向上させる。
- K 個にクラスタリングされた軌跡を提供することで、異なる K 値の再訓練なしに計画者にとってコンパクトな表現を実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。