[논문 리뷰] THOMAS: Trajectory Heatmap Output with learned Multi-Agent Sampling
THOMAS은 계층적 히트맵 디코딩과 학습된 재결합 모듈을 사용하여 모든 에이전트에 대해 장면 일관된 다중 모드 궤적을 생성하는 공동 다중 에이전트 궤적 예측 프레임워크로, Interaction Interpret 트랙에서 최첨단 성능을 달성합니다.
In this paper, we propose THOMAS, a joint multi-agent trajectory prediction framework allowing for an efficient and consistent prediction of multi-agent multi-modal trajectories. We present a unified model architecture for simultaneous agent future heatmap estimation, in which we leverage hierarchical and sparse image generation for fast and memory-efficient inference. We propose a learnable trajectory recombination model that takes as input a set of predicted trajectories for each agent and outputs its consistent reordered recombination. This recombination module is able to realign the initially independent modalities so that they do no collide and are coherent with each other. We report our results on the Interaction multi-agent prediction challenge and rank $1^{st}$ on the online test leaderboard.
연구 동기 및 목표
- 에이전트 간의 일관성을 갖춘 다중 모달 설정에서 미래 궤적을 예측한다.
- 과거 궤적과 HD-Map 컨텍스트를 인코딩하여 에이전트별 미래 히트맵을 생성한다.
- 에이전트별로 여러 엔드포인트를 생성하고 전체 궤적을 재구성한다.
- 샘플링된 엔드포인트를 재결합하여 충돌 없이 장면에 일관된 예측을 보장한다.
제안 방법
- 에이전트 히스토리와 차선 기반 HD-Map 컨텍스트를 공유 그래프 인코더로 처리하고 교차-자체 주의를 적용하여 에이전트별 인코딩을 생성한다.
- 저해상도 그리드에서 최종 해상도로 확장되는 계층적 그리드 정제 스킴을 통해 에이전트별 미래 확률 히트맵을 디코드하고 높은 확률 영역을 선택적으로 정제한다.
- MissRate 기반 디코딩 전략을 사용하여 히트맵에서 각 에이전트당 K개의 엔드포인트를 샘플링하여 다양한 모달리티를 커버한다.
- 역사 및 엔드포인트에 조건화된 MLP를 사용하여 각 엔드포인트에 대한 전체 궤적을 생성한다.
- 교차 주의 및 승자독식 손실을 사용하여 에이전트 모달리티를 정렬하고 합쳐 일관된 장면 모달리티로 재결합하는 재결합 모듈을 도입한다.
실험 결과
연구 질문
- RQ1다중 에이전트 궤적 예측에서 다중 모달성을 잃지 않으면서 에이전트 간의 일관성을 어떻게 보장할 수 있는가?
- RQ2계층적 히트맵 디코더가 많은 에이전트에서도 확장 가능하고 빠른 추론을 유지할 수 있는가?
- RQ3학습된 재결합 모듈이 장면 일관성을 향상시키고 충돌을 줄이면서 주변 정확도 손실을 방지하는가?
- RQ4THOMAS가 해석 가능성 벤치마크에서 최첨단 공동 예측 방법과 어떻게 비교되는가?
주요 결과
| Method | mADE | mFDE | MR | mFDE | MR | SCR | cMR |
|---|---|---|---|---|---|---|---|
| ILVM (Casas et al., 2020) | 0.30 | 0.62 | 10.8 | 0.84 | 19.8 | 5.7 | 21.3 |
| SceneTransformer (Ngiam et al., 2021) | 0.29 | 0.59 | 10.5 | 0.84 | 15.7 | 3.4 | 17.3 |
| THOMAS | 0.31 | 0.60 | 8.2 | 0.76 | 11.8 | 2.4 | 12.7 |
- THOMAS는 Interaction Interpret 트랙에서 ILVM 및 SceneTransformer와 비교하여 최첨단 공동 지표를 달성한다.
- Joint SMR은 베이스라인 대비 약 25% 증가하고 SCR은 약 30% 증가하며, cSMR은 >25% 감소한다.
- 계층적 히트맵 디코딩은 그리드 포인트의 일부만 계산해도(예: 1856/147,456) 0.5 m 해상도에서 192 m 범위의 성능 저하 없이 계산을 수행한다.
- 재결합 모듈은 기존 에이전트 모달리티를 재사용하고 정렬하여 충돌을 줄이고 더 일관된 장면 모달리티를 제공한다.
- GOHOME과 비교할 때 THOMAS는 추론 속도가 더 빠르고(에이전트 수 32-128) 공동 일관성 지표가 개선된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.