Skip to main content
QUICK REVIEW

[논문 리뷰] Latent Variable Sequential Set Transformers For Joint Multi-Agent Motion Prediction

Roger Girgis, Florian Golemo|arXiv (Cornell University)|2021. 02. 19.
Autonomous Vehicle Technology and Safety인용 수 38
한 줄 요약

AutoBots는 잠재 변수, 트랜스포머 기반 인코더/디코더를 사용해 집합 시퀀스를 모델링하여 다에이전트 모션 예측의 다중 모드 미래 궤적을 빠르게 생성하고 장면 일관된 예측을 제공합니다. nuScenes와 Argoverse에서 강력한 성능을 보이고 단일 GPU 학습을 가능하게 합니다.

ABSTRACT

Robust multi-agent trajectory prediction is essential for the safe control of robotic systems. A major challenge is to efficiently learn a representation that approximates the true joint distribution of contextual, social, and temporal information to enable planning. We propose Latent Variable Sequential Set Transformers which are encoder-decoder architectures that generate scene-consistent multi-agent trajectories. We refer to these architectures as "AutoBots". The encoder is a stack of interleaved temporal and social multi-head self-attention (MHSA) modules which alternately perform equivariant processing across the temporal and social dimensions. The decoder employs learnable seed parameters in combination with temporal and social MHSA modules allowing it to perform inference over the entire future scene in a single forward pass efficiently. AutoBots can produce either the trajectory of one ego-agent or a distribution over the future trajectories for all agents in the scene. For the single-agent prediction case, our model achieves top results on the global nuScenes vehicle motion prediction leaderboard, and produces strong results on the Argoverse vehicle prediction challenge. In the multi-agent setting, we evaluate on the synthetic partition of TrajNet++ dataset to showcase the model's socially-consistent predictions. We also demonstrate our model on general sequences of sets and provide illustrative experiments modelling the sequential structure of the multiple strokes that make up symbols in the Omniglot data. A distinguishing feature of AutoBots is that all models are trainable on a single desktop GPU (1080 Ti) in under 48h.

연구 동기 및 목표

  • 다중 에이전트 모션 예측을 다중 모드 모구를 포착하는 잠재 변수의 시퀀스로 모델링한다.
  • 시간적 및 사회적 주의를 포함한 인코더-디코더 트랜스포머 아키텍처를 개발한다.
  • 학습 가능한 시드 매개변수로 다중 미래 모드를 단일 패스로 디코딩한다.
  • 에이전트 및 집합에 대한 순열 등가성을 보장한다.
  • nuScenes, Argoverse, TrajNet++, Omniglot 데이터셋에서 강력한 성능을 입증한다.

제안 방법

  • 에이전트-세트의 시퀀스를 시계열 및 사회적 멀티헤드 셀프 어텐션 블록이 교차되게 인코딩하여 컨텍스트 텐서를 생성한다.
  • 인코더 컨텍스트에 조건화된 모드별 학습가능 시드 매개변수 행렬과 반복된 MABD/MAB 레이어를 사용해 여러 미래 모드를 병렬로 디코딩한다.
  • CNN에서 파생된 벡터 M_i를 에이전트 및 타임스텝에 걸쳐 재현해 추가 환경 컨텍스트를 통합한다.
  • 이산 Z와 변분적 유사 Q를 활용한 잠재 변수 목표를 통해 포스트eriors를 근사하며 모드 엔트로피 정규화를 통해 다양한 출력을 유도한다.
  • 각 미래 타임스텝마다 각 에이전트의 분포 매개변수(예: 이변 Gaussian)로 출력을 생성한다.
  • 순열 등가성을 보이고 모드당 한 번의 순방향 패스로 오토리그레이티브 베이스라인과의 비교를 통해 추론 속도를 평가한다.

실험 결과

연구 질문

  • RQ1잠재 변수 시퀀스 세트 트랜스포머(AutoBot)가 시간적 및 사회적 상호작용을 함께 모델링해 일관된 다에이전트 미래를 생성할 수 있는가?
  • RQ2학습 가능한 시드 매개변수로 단일 패스 디코딩이 오토레이그래스틱 샘플링 없이도 다중 모드를 효율적으로 포착하는가?
  • RQ3AutoBot이 실제 자율주행 벤치마크(nuScenes, Argoverse)와 합성 다에이전트 데이터셋(TrajNet++)에서 어떤 성능을 보이는가?
  • RQ4Omniglot 스트로크 시퀀스와 같은 과제에서도 시나리오에 일관된 다양한 경로를 생성할 수 있는가?
  • RQ5AutoBot의 계산 효율성은 오토리그레이티브 또는 에이전트별 생성 방법과 비교해 어떤 차이가 있는가?

주요 결과

지표AutoBot-Ego (c=10)AutoBot-Ego (앙상블)AutoBot-Ego (테스트) Min ADE (5)AutoBot-Ego (테스트) Min ADE (10)미스 비율 Top-5 (2m)미스 비율 Top-10 (2m)최소 FDE (1)이탈 도로 비율
nuScenes - Min ADE (5)1.431.37--0.660.458.660.03
nuScenes - Min ADE (10)1.051.03--0.620.448.190.02
  • AutoBot-Ego는 NuScenes에서 강력한 결과를 달성하고 Min ADE(10) 및 이탈 비율이 가장 낮으며, 다른 지표도 경쟁력 있다.
  • 세 가지 AutoBot-Ego 모델의 앙상블이 NuScenes에서 성능을 더 향상시킨다.
  • Argoverse에서 AutoBot-Ego(valid)는 Min ADE 0.73, Min FDE 1.10, Miss Rate 0.12를 달성; AutoBot-Ego(test)는 0.89 Min ADE(상위 5) 및 1.41 Min FDE(상위 5)를 달성한다.
  • TrajNet++ 합성 데이터에서 엔코더/디코더의 사회적 주의가 충돌을 줄이고 시나리오 수준의 MinADE/MinFDE를 개선한다.
  • Omniglot 과제에서 AutoBot은 LSTM 베이스라인보다 더 일관되고 양식화된 스트로크를 생성하며 모호성 하에서의 현실적인 완성을 포함한다.
  • AutoBot-Ego는 NuScenes에서 GTX 1080 Ti로 약 3시간에 단일 GPU 학습이 가능하며, 추론은 인용된 비교에서 일부 오토리그레이티브 베이스라인보다 약 2배 빠르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.