[논문 리뷰] Scene Transformer: A unified architecture for predicting multiple agent trajectories
Scene Transformer는 축 분해(attention)로 구성된 장면 중심의 마스크드 시퀀스 모델링 접근법을 사용하여 마진널(marginal) 및 공동(joint) 다중 에이전트 궤적 예측을 통합하고, 목표나 다른 에이전트를 조건으로 설정할 수 있게 한다.
Predicting the motion of multiple agents is necessary for planning in dynamic environments. This task is challenging for autonomous driving since agents (e.g. vehicles and pedestrians) and their associated behaviors may be diverse and influence one another. Most prior work have focused on predicting independent futures for each agent based on all past motion, and planning against these independent predictions. However, planning against independent predictions can make it challenging to represent the future interaction possibilities between different agents, leading to sub-optimal planning. In this work, we formulate a model for predicting the behavior of all agents jointly, producing consistent futures that account for interactions between agents. Inspired by recent language modeling approaches, we use a masking strategy as the query to our model, enabling one to invoke a single model to predict agent behavior in many ways, such as potentially conditioned on the goal or full future trajectory of the autonomous vehicle or the behavior of other agents in the environment. Our model architecture employs attention to combine features across road elements, agent interactions, and time steps. We evaluate our approach on autonomous driving datasets for both marginal and joint motion prediction, and achieve state of the art performance across two popular datasets. Through combining a scene-centric approach, agent permutation equivariant model, and a sequence masking strategy, we show that our model can unify a variety of motion prediction tasks from joint motion predictions to conditioned prediction.
연구 동기 및 목표
- 모델 간섭을 공동으로 고려하여 모든 에이전트 간의 상호 작용을 독립적으로가 아닌 하나의 통합된 예측으로 모듈화된 모션 예측 및 계획의 필요성을 제시한다.
- 밀집한 많은 에이전트가 있는 씬으로 확장 가능한 장면 중심의 순열 등가 변환기 아키텍처를 개발한다.
- 추론 시 AV의 목표나 전체 미래를 조건으로 할 수 있는 마스킹 기반 시퀀스 모델링 형식을 도입한다.
- Argoverse 및 Waymo Open Motion Dataset 전반의 마진널 및 조인트 예측 벤치마크에서 최첨단 성능을 시연한다.
제안 방법
- 씬의 모든 에이전트와 도로 그래프 요소를 씬 중심 텐서 [A, T, D]로 표현한다.
- 시간 축 및 에이전트 축에서의 교대 층으로 축 분해.self-attention을 사용하여 시간적 및 에이전트 간 상호 작용을 효율적으로 포착한다.
- 로드 그래프 정보를 공유 도로 임베딩을 통해 포함하기 위해 교차 어텐션을 적용한다.
- BERT에서 영감을 받은 마스킹된 시퀀스 모델링 목표로 여러 작업(모션 예측, 조건 모션 예측, 목표 조건 예측)을 지원하도록 학습한다.
- 씬당 여러 미래를 디코딩하고, 각 에이전트 궤적과 연관 불확실성 및 방향을 예측한다.
- 마진널 대 조인 예측 작업에 따라 씬 수준 또는 에이전트별 손실을 계산하여 하나의 모델로 작업 간 전환이 가능하게 한다.
실험 결과
연구 질문
- RQ1단일의 씬 중심 트랜스포머 기반 모델이 일관된 미래를 가진 마진널과 조인트 다중 에이전트 예측을 모두 생성할 수 있는가?
- RQ2축 분해 어텐션이 다중 에이전트 모션 모델링에서 전체 조인트 어텐션에 비해 효율성 및 성능을 개선하는가?
- RQ3마스킹된 시퀀스 모델링이 태스크 특화 아키텍처 없이 AV의 목표나 전체 미래에 조건을 부여할 수 있는가?
- RQ4마스킹 전략으로 공동 학습이 마진널 학습보다 더 나은 조인트 예측 지표를 낳는가?
- RQ5standard 벤치마크(Argoverse, Waymo Open Motion)에서 마진널 및 조인트 예측에 대해 모델의 성능은 어떠한가?
주요 결과
- 마진널 모션 예측 벤치마크에서 최첨단 성능을 달성했다 (Argoverse 및 Waymo Open Motion Dataset).
- Joint(상호 작용) 예측 태스크에서 Waymo Open Motion Dataset의 조인 손실로 학습될 때 baselines를 능가한다.
- 축화된 시간 및 에이전트 축 어텐션은 비축 분해(attention) 대비 계산 효율성을 제공하고 정확도를 향상시킨다.
- 마스킹된 시퀀스 모델링은( CMP, GCP )의 유연한 조건 부여를 가능하게 하고 표준 MP 성능을 해치지 않으면서 멀티태스크 학습을 지원한다.
- 단일 모델이 모션 예측, 조건 모션 예측, 목표 조건 예측을 최소한의 성능 저하로 수행할 수 있음을 시연한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.