QUICK REVIEW

[논문 리뷰] An Evaluation of Trajectory Prediction Approaches and Notes on the TrajNet Benchmark

Stefan Becker, Ronny Hug|arXiv (Cornell University)|2018. 05. 19.

Video Surveillance and Tracking Methods참고 문헌 32인용 수 63

한 줄 요약

이 논문은 TrajNet 벤치마크에서 보행자 궤적 예측을 위한 다양한 심층 신경망을 평가하고, 장면 단서 없이 간단한 RNN-Encoder-MLP( RED-predictor )를 경쟁력 있는 기준선으로 확인한다.

ABSTRACT

In recent years, there is a shift from modeling the tracking problem based on Bayesian formulation towards using deep neural networks. Towards this end, in this paper the effectiveness of various deep neural networks for predicting future pedestrian paths are evaluated. The analyzed deep networks solely rely, like in the traditional approaches, on observed tracklets without human-human interaction information. The evaluation is done on the publicly available TrajNet benchmark dataset, which builds up a repository of considerable and popular datasets for trajectory-based activity forecasting. We show that a Recurrent-Encoder with a Dense layer stacked on top, referred to as RED-predictor, is able to achieve sophisticated results compared to elaborated models in such scenarios. Further, we investigate failure cases and give explanations for observed phenomena and give some recommendations for overcoming demonstrated shortcomings.

연구 동기 및 목표

TrajNet 데이터셋을 사용한 단일 궤적 보행자 경로 예측의 효과성을 평가한다.
데이터셋 속성 및 노이즈를 분석하여 견고한 기준선을 확립한다.
사람의 상호작용 cue 없이도 예측 성능을 개선하기 위한 간단한 전처리 및 모델 조정 제안한다.
한계 모드를 식별하고 한계를 극복하기 위한 권고를 제시한다.

제안 방법

월드-평면 보행자 데이터를 대상으로 단순한 기준선(MLP, RNN 변형, TCN)과 더 복잡한 Seq2Seq 구조를 비교한다.
학습 안정화 및 운동 동역학 반영을 위해 입력 및 출력으로 오프셋/속도를 사용한다.
Adam 옵티마이저를 사용하는 TensorFlow에서 MSE 손실로 8개의 관측 위치를 학습하여 다음 12개 위치를 예측한다.
일반 궤적 예측 지표로 ADE와 FDE를 사용하여 평가한다.
스플라인 기반 스무딩을 통한 데이터셋 노이즈를 분석하여 실제 노이즈를 추정한다.
RED-예측기: RNN-Encoder와 최종 예측에 대한 밀집한 MLP를 결합하여 개발한다.

실험 결과

연구 질문

RQ1트레이네트 월드 H-H 데이터에서 인간 상호작용 cue 없이 기본 심층 네트워크를 사용했을 때 달성 가능한 최대 예측 정확도는 어느 수준인가?
RQ2오프셋 기반 입력, 표준화와 같은 간단한 전처리 선택이 사회적 또는 장면 컨텍스트를 사용하는 더 복잡한 모델과 비교해 예측 성능에 어떤 영향을 미치는가?
RQ3간단한 RNN-Encoder-MLP가 사회적 이나 장면 컨텍스트를 활용하는 정교한 모델과 비견될 성능에 도달할 수 있는가?

주요 결과

접근 방식	전체 평균 ↓	FDE [m] ↓	ADE [m] ↓	참고문헌
RED	0.797	1.229	0.364	Ours
Social Forces (EWAP)	0.819	1.266	0.371	Helbing and Molnár [15]
Social Forces (ATTR)	0.904	1.395	0.412	Helbing and Molnár [15]
social lstm_v2	1.387	2.098	0.675	Alahi et al. [10]
social lstm	1.563	2.299	0.826	Alahi et al. [10]
social lstm_v3	2.874	4.323	1.424	Alahi et al. [10]
Interactive Gaussian Processes	1.642	1.038	2.245	Ellis et al. [40]
Linear Interpolation	0.894	1.359	0.429
Linear MLP (Pos)	1.041	1.592	0.491
Linear MLP (Off)	0.896	1.384	0.407
Non-Linear MLP (Off)	2.103	3.181	1.024
Linear RNN	0.951	1.482	0.420
Non-Linear RNN	0.841	1.300	0.381
Linear RNN-Encoder-MLP	0.892	1.381	0.404
Non-Linear RNN-Encoder-MLP	0.827	1.276	0.377
Linear Seq2Seq	0.923	1.429	0.418
Non-Linear Seq2Seq	0.860	1.331	0.390
TCN	0.841	1.301	0.381
Gated TCN	0.947	1.468	0.426

RED-예측기(RNN-Encoder와 밀집된 MLP 결합)가 더 정교한 모델에 비해 경쟁력 있는 결과를 달성한다.
아키텍처 전반에서 예측은 종종 선형 보간 기준선에 근접하며 단일 최적 모델이 뚜렷하지 않다.
전체 경로를 예측하는 것이 순차 예측에서의 오차 누적을 완화하는 데 도움이 된다.
입력으로 오프셋/속도를 사용하면 원시 위치보다 안정성과 성능이 향상된다.
RNN-Encoder-MLP가 종종 많은 기준선을 능가하지만 다수의 아키텍처가 비슷한 성능을 보인다.
장면 컨텍스트 및 인간-간의 상호작용은 단일 궤적 모델을 넘어 정확도를 더 높일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.