[논문 리뷰] Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory Prediction
STAR는 TGConv 그래프 컨볼루션과 외부 메모리를 사용하여 주의력(어텐션) 메커니즘만으로 다섯 데이터셋에서 최첨단 성능으로 보행자 궤적을 예측하기 위해 공간-시간 Transformer를 교차로 배치합니다.
Understanding crowd motion dynamics is critical to real-world applications, e.g., surveillance systems and autonomous driving. This is challenging because it requires effectively modeling the socially aware crowd spatial interaction and complex temporal dependencies. We believe attention is the most important factor for trajectory prediction. In this paper, we present STAR, a Spatio-Temporal grAph tRansformer framework, which tackles trajectory prediction by only attention mechanisms. STAR models intra-graph crowd interaction by TGConv, a novel Transformer-based graph convolution mechanism. The inter-graph temporal dependencies are modeled by separate temporal Transformers. STAR captures complex spatio-temporal interactions by interleaving between spatial and temporal Transformers. To calibrate the temporal prediction for the long-lasting effect of disappeared pedestrians, we introduce a read-writable external memory module, consistently being updated by the temporal Transformer. We show that with only attention mechanism, STAR achieves state-of-the-art performance on 5 commonly used real-world pedestrian prediction datasets.
연구 동기 및 목표
- 혼잡한 장면에서 정확한 보행자 궤적 예측의 동기를 부여한다.
- 주의 기반 메커니즘으로 사회적 상호작용과 시간적 의존성을 모델링한다.
- 공간 모델링을 위한 Transformer 기반 그래프 컨볼루션(TGConv)을 제안한다.
- 공간 및 시간 Transformer를 교차 배치하여 시공간 동역학을 포착한다.
- 읽고 쓸 수 있는 외부 그래프 메모리로 시간적 일관성을 향상시킨다.
제안 방법
- TGConv를 도입하여 공간 상호 작용을 모델링하는 Transformer 기반 그래프 컨볼루션을 제안한다.
- 각 보행자의 시간 의존성을 학습하기 위해 시간 Transformer를 적용한다.
- 공간과 시간 Transformer를 교차 배치하여 결합된 시공간 동역학을 포착한다.
- 시간 단계 간의 시간 임베딩을 매끄럽게 하기 위해 읽기/쓰기 가능한 외부 메모리를 추가한다.
- 두 개의 인코더 블록과 간단한 디코더를 사용하여 미래 궤적을 예측한다.
- 정규 hyperparameters로 Adam을 사용하고 ADE/FDE 지표로 평가하여 엔드투엔드 학습한다.
실험 결과
연구 질문
- RQ1주의 기반 STAR 모델이 표준 데이터셋에서 상태-art 최첨단의 사회 궤적 예측기보다 우수한가요?
- RQ2공간 및 시간 Transformer를 교차 배치하는 것이 분리 처리보다 시공간 모델링에 더 나은가요?
- RQ3TGConv가 전통적인 그래프 컨볼루션(GCN/GAT) 대비 더 우수한 공간 상호작용 모델링을 제공하나요?
- RQ4외부 그래프 메모리가 시간적 일관성과 예측 정확도를 향상시키나요?
주요 결과
| 방법 | ETH_ADE | ETH_FDE | HOTEL_ADE | HOTEL_FDE | ZARA1_ADE | ZARA1_FDE | ZARA2_ADE | ZARA2_FDE | UNIV_ADE | UNIV_FDE | AVG_ADE | AVG_FDE |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| LR | 1.33/ | 2.94 | 0.39/ | 0.72 | 0.62/ | 1.21 | 0.77/ | 1.48 | 0.82/ | 1.59 | 0.79/1.59 | |
| LSTM | 1.13/ | 2.39 | 0.69/ | 1.47 | 0.64/ | 1.43 | 0.54/ | 1.21 | 0.73/ | 1.60 | 0.75/1.62 | |
| S-LSTM [1] | 0.77/ | 1.60 | 0.38/ | 0.80 | 0.51/ | 1.19 | 0.39/ | 0.89 | 0.58/ | 1.28 | 0.53/1.15 | |
| CIDNN [49] | 1.25/ | 2.32 | 1.31/ | 1.86 | 0.90/ | 1.28 | 0.50/ | 1.04 | 0.51/ | 1.07 | 0.89/1.73 | |
| SocialAttention [45] | 1.39/ | 2.39 | 2.51/ | 2.91 | 1.25/ | 2.54 | 1.01/ | 2.17 | 0.88/ | 1.75 | 1.41/2.35 | |
| TrafficPredict [38] | 5.46/ | 9.73 | 2.55/ | 3.57 | 4.32/ | 8.00 | 3.76/ | 7.20 | 3.31/ | 6.37 | 3.88/6.97 | |
| SR-LSTM [53] | 0.63/ | 1.25 | 0.37/ | 0.74 | 0.41/ | 0.90 | 0.32/ | 0.70 | 0.51/ | 1.10 | 0.45/0.94 | |
| STAR-D | 0.56/ | 1.11 | 0.26/ | 0.50 | 0.41/ | 0.90 | 0.31/ | 0.71 | 0.52/ | 1.15 | 0.41/0.87 | |
| STAR | 0.36/ | 0.65 | 0.17/ | 0.36 | 0.26/ | 0.55 | 0.22/ | 0.46 | 0.31/ | 0.71 | 0.26/0.53 | |
| STAR (stochastic) | STAR † | 0.36/0.65 | 0.17/0.36 | 0.26/0.55 | 0.22/0.46 | 0.31/0.71 | 0.31/0.71 | 0.26/0.53 |
- STAR-D(결정론적) 가 다수의 데이터셋에서 견고한 baselines를 능가; STAR(확률적) 샘플링으로 상태-최첨단 성능 달성.
- TGConv(Transformer 기반 그래프 컨볼루션)는 GCN/GAT 대안들보다 특히 인구 밀집도가 높은 상황에서 더 나은 공간 상호작용 모델링을 제공.
- 두 인코더를 교차(먼저 공간, 그다음 시간 또는 그 반대)로 사용하는 것이 일반적으로 단일 인코더보다 더 나은 시공간 표현을 제공.
- 시간 Transformer는 궤적 예측에서 LSTM 기반 시간 모델링보다 향상된 성능을 보인다.
- 외부 그래프 메모리는 매끄러운 시간 임베딩을 제공하고 특히 특정 데이터셋에서 전반적인 성능을 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.