[論文レビュー] Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding
HPTR は Knarpe アテンションと異種ポリライン表現を導入し、共有/静的文脈を用いたリアルタイムでスケーラブルなモーション予測を実現。競争力のある精度を維持しつつ、待機遅延とメモリ使用を大幅に削減。
The real-world deployment of an autonomous driving system requires its components to run on-board and in real-time, including the motion prediction module that predicts the future trajectories of surrounding traffic participants. Existing agent-centric methods have demonstrated outstanding performance on public benchmarks. However, they suffer from high computational overhead and poor scalability as the number of agents to be predicted increases. To address this problem, we introduce the K-nearest neighbor attention with relative pose encoding (KNARPE), a novel attention mechanism allowing the pairwise-relative representation to be used by Transformers. Then, based on KNARPE we present the Heterogeneous Polyline Transformer with Relative pose encoding (HPTR), a hierarchical framework enabling asynchronous token update during the online inference. By sharing contexts among agents and reusing the unchanged contexts, our approach is as efficient as scene-centric methods, while performing on par with state-of-the-art agent-centric methods. Experiments on Waymo and Argoverse-2 datasets show that HPTR achieves superior performance among end-to-end methods that do not apply expensive post-processing or model ensembling. The code is available at https://github.com/zhejz/HPTR.
研究の動機と目的
- オンボード自動運転システムのリアルタイムモーション予測を動機づける。
- エージェントに依存しないスケーラブルな表現を提案し、文脈をエージェント間で共有する。
- オンライン計算を最小化するための非同期・階層的更新を備えたTransformer ベースのアーキテクチャ(HPTR)を開発する。
提案手法
- 全入力をグローバル姿勢と局所属性を持つ異種ポリラインとして表現する。
- Kenarpe:相対姿勢エンコード付きの K 最近傍アテンションを導入し、Transformer におけるペアワイズ相対表現を可能にする。
- HPTR を構築する:クラス内・クラス間のアテンションと非同期トークン更新を備えた階層的 Transformer フレームワークで、静的文脈を再利用する。
- 出力を混合ガウスとしてデコードし、多モダルト轨道を推定。ロス項(信頼度、位置、ヨー、速度)の組み合わせで訓練する。
- マップ、信号機、エージェントをポリラインとして表現し、オンライン推論時に静的マップ特徴を再利用して効率を高める。
実験結果
リサーチクエスチョン
- RQ1Knarpe はモーション予測のためのペアワイズ相対ポリラインの Transformer ベース処理を効果的に可能にするか。
- RQ2HPTR はエンドツーエンドで競争力のある精度を達成し、シーン中心アプローチの効率に追随または凌駕するか。
- RQ3オンライン推論における文脈共有と非同期トークン更新によって、メモリと遅延にどの程度の利得が得られるか。
- RQ4Waymo Open Motion、Argoverse-2 の大規模データセットで、後処理やモデルトensembing を使わずに最先端手法と比較して HPTR はどう機能するか。
主な発見
- HPTR はエージェント中心手法の最先端と競合する性能を示しつつ、ベースラインと比べてメモリと遅延を大幅に削減(約80%程度削減)。
- オンライン推論中に静的マップ特徴をキャッシュすることで、単一GPUで64エージェントの40フレーム/秒のリアルタイム予測を実現。
- HPTR はシーン中心のベースラインを上回り、エージェント中心アプローチと緊密に一致、特に下三角アテンション配置を用いると際立つ。
- Waymo および Argoverse-2 のベンチマークで、HPTR は高価な後処理やモデルアンサンブルなしのエンドツーエンド手法の上位にランクイン。
- 提案された Knarpe アテンションは異種ポリライン間での効率的な文脈共有を可能にし、混雑した交通状況でのスケーラビリティを改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。