[논문 리뷰] Human Trajectory Prediction using Spatially aware Deep Attention Models
논문은 엔드-투-엔드 SPATIALLY AWARE DEEP ATTENTION 모델을 제시하여 동적 상호작용과 정적 장면 맥락을 함께 모델링하고, 정적 맥 context를 위한 SSCN과 시공간 어텐션 인코더-디코더를 포함합니다.
Trajectory Prediction of dynamic objects is a widely studied topic in the field of artificial intelligence. Thanks to a large number of applications like predicting abnormal events, navigation system for the blind, etc. there have been many approaches to attempt learning patterns of motion directly from data using a wide variety of techniques ranging from hand-crafted features to sophisticated deep learning models for unsupervised feature learning. All these approaches have been limited by problems like inefficient features in the case of hand crafted features, large error propagation across the predicted trajectory and no information of static artefacts around the dynamic moving objects. We propose an end to end deep learning model to learn the motion patterns of humans using different navigational modes directly from data using the much popular sequence to sequence model coupled with a soft attention mechanism. We also propose a novel approach to model the static artefacts in a scene and using these to predict the dynamic trajectories. The proposed method, tested on trajectories of pedestrians, consistently outperforms previously proposed state of the art approaches on a variety of large scale data sets. We also show how our architecture can be naturally extended to handle multiple modes of movement (say pedestrians, skaters, bikers and buses) simultaneously.
연구 동기 및 목표
- 복잡한 환경에서 다중 내비게이션 모드를 사용하여 인간의 궤적을 포착하고 예측한다.
- 주변 대상과의 동적 상호작용뿐만 아니라 대상 주위의 정적 장면 맥락을 통합한다.
- 장기 계획을 향상시키기 위한 공간 맥락 네트워크와 주의 메커니즘을 갖춘 엔드투엔드 아키텍처를 제안한다.
- 보행자 이외의 다수의 이동 대상 클래스 처리를 확장한다.
제안 방법
- 주변의 정적 공간 맥락을 모델링하기 위해 Spatially Static Context Network (SSCN)을 도입한다.
- 동적 사회 맥 context와 정적 맥 context 텐서를 결합하는 풀링 메커니즘을 개발한다.
- 위치, 동적 맥락, 정적 맥 context을 임베딩하는 시공간 주의( Bahdanau 스타일 주의 ) 인코더-디코더를 사용한다.
- 매개변수화된 이변량 가우스 분포를 통해 다음 위치를 예측한다.
- 음의로그가능도(NLL)로 학습하여 모든 대상 유형 모델을 함께 최적화한다.
- 두 가지 변형을 제시한다: 동적 풀링이 포함된 D-ATT와 정적 맥(context) 풀링을 추가한 SD-ATT.
실험 결과
연구 질문
- RQ1정적 장면 맥 context를 보행자 궤적 예측에 어떻게 통합할 수 있는가?
- RQ2동적 사회 풀링과 정적 맥 context를 결합하면 동적 만으로 모델보다 예측 정확도가 향상되는가?
- RQ3모델을 보행자 이외의 다수 이동 객체 클래스에 확장할 수 있는가?
- RQ4시공간 주의가 장기 궤적 계획에 미치는 영향은 무엇인가?
주요 결과
| 데이터셋 | O-LSTM | S-LSTM | D-ATT | SD-ATT | |
|---|---|---|---|---|---|
| Avg. Disp. Error | ETH [11] | 0.49 | 0.50 | 0.47 | - |
| HOTEL [11] | 0.09 | 0.11 | 0.12 | - | |
| ZARA1 [12] | 0.22 | 0.22 | 0.18 | - | |
| GATES1 [13] | 0.16 | 0.12 | 0.11 | 0.09 | |
| GATES2 [13] | 0.15 | 0.17 | 0.14 | 0.10 | |
| GATES3 [13] | 0.18 | 0.16 | 0.13 | 0.13 | |
| Final Disp. Error | ETH [11] | 1.06 | 1.07 | 0.85 | - |
| HOTEL [11] | 0.20 | 0.23 | 0.19 | - | |
| ZARA1 [12] | 0.46 | 0.46 | 0.48 | - | |
| GATES1 [13] | 0.28 | 0.25 | 0.19 | 0.17 | |
| GATES2 [13] | 0.40 | 0.37 | 0.38 | 0.35 | |
| GATES3 [13] | 0.26 | 0.26 | 0.25 | 0.24 |
- 제안된 SD-ATT 모델은 평균 및 최종 변위 오차 모두에서 ETH, HOTEL, ZARA1, GATES1, GATES2, GATES3 데이터세트에서 S-LSTM 및 O-LSTM보다 우수하다.
- SD-ATT 모델은 Stanford Drone Dataset에서도 효과적이며 Social LSTM에 비해 예측이 향상된다.
- SSC N 기반의 정적 맥 context는 궤적 계획에 영향을 주는 의미론적으로 의미 있는 도달 가능 맵을 제공한다.
- 정성적 결과는 비선형 궤적, 충돌 회피 및 정적 맥 context 풀링과 주의로 인해 정적 장애물을 더 잘 처리하는 것을 보여준다.
- 두 가지 변형은 정적 맥(context) 추가(SD-ATT)가 동적 맥(context)만(D-ATT)보다 개선을 가져옴을 보여준다.
- 이 방법은 보행자 이외의 다중 객체 클래스로의 확장을 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.