QUICK REVIEW

[論文レビュー] An Evaluation of Trajectory Prediction Approaches and Notes on the TrajNet Benchmark

Stefan Becker, Ronny Hug|arXiv (Cornell University)|May 19, 2018

Video Surveillance and Tracking Methods参考文献 32被引用数 63

ひとこと要約

この論文は TrajNet ベンチマークで歩行者の軌跡を予測するさまざまな深層ニューラルネットワークを評価し、シーン cues を用いない競争力のあるベースラインとして単純な RNN-Encoder-MLP（RED-predictor）を特定します。

ABSTRACT

In recent years, there is a shift from modeling the tracking problem based on Bayesian formulation towards using deep neural networks. Towards this end, in this paper the effectiveness of various deep neural networks for predicting future pedestrian paths are evaluated. The analyzed deep networks solely rely, like in the traditional approaches, on observed tracklets without human-human interaction information. The evaluation is done on the publicly available TrajNet benchmark dataset, which builds up a repository of considerable and popular datasets for trajectory-based activity forecasting. We show that a Recurrent-Encoder with a Dense layer stacked on top, referred to as RED-predictor, is able to achieve sophisticated results compared to elaborated models in such scenarios. Further, we investigate failure cases and give explanations for observed phenomena and give some recommendations for overcoming demonstrated shortcomings.

研究の動機と目的

TrajNet データセットを用いた単一軌跡歩行者経路予測の深層ニューラルネットワークの有効性を評価する。
データセット特性とノイズを分析して堅牢なベースラインを確立する。
人間の介在 cues なしで予測を改善するための簡素な前処理とモデル調整を提案する。
失敗モードを特定し、限界を克服するための推奨事項を提供する。

提案手法

世界平面の歩行者データ上で、単純なベースライン（MLP、RNN 系、TCN）とより複雑な Seq2Seq アーキテクチャを比較する。
学習を安定化させ、運動ダイナミクスを反映するために入力・出力としてオフセット/速度を用いる。
8 個の観測位置を用いて次の 12 位置を予測するために TensorFlow と Adam オプティマイザで MSE 損失で訓練する。
ADE および FDE を共通の軌跡予測指標として用いて評価する。
スプリンベースの平滑化によるデータセットのノイズを解析して地上真値ノイズを推定する。
RED-predictor を開発する：最終予測のための上部に密な MLP を備えた RNN-Encoder。

実験結果

リサーチクエスチョン

RQ1トラジェニット・ワールド H-H データに対して、人間の介在 cues を用いないベースライン深層ネットワークで実現可能な最大予測精度はどれくらいか。
RQ2オフセットベースの入力、標準化といった簡易な前処理の選択は、社会的・シーン文脈を用いる複雑なモデルと比較して予測性能にどのような影響を与えるか。
RQ3単純な RNN-Encoder-MLP が、社会的またはシーン文脈を利用する精巧なモデルに匹敵する性能を達成できるか。

主な発見

Approach	Overall Average ↓	FDE [m] ↓	ADE [m] ↓	Reference
RED	0.797	1.229	0.364	Ours
Social Forces (EWAP)	0.819	1.266	0.371	Helbing and Molnár [15]
Social Forces (ATTR)	0.904	1.395	0.412	Helbing and Molnár [15]
social lstm_v2	1.387	2.098	0.675	Alahi et al. [10]
social lstm	1.563	2.299	0.826	Alahi et al. [10]
social lstm_v3	2.874	4.323	1.424	Alahi et al. [10]
Interactive Gaussian Processes	1.642	1.038	2.245	Ellis et al. [40]
Linear Interpolation	0.894	1.359	0.429
Linear MLP (Pos)	1.041	1.592	0.491
Linear MLP (Off)	0.896	1.384	0.407
Non-Linear MLP (Off)	2.103	3.181	1.024
Linear RNN	0.951	1.482	0.420
Non-Linear RNN	0.841	1.300	0.381
Linear RNN-Encoder-MLP	0.892	1.381	0.404
Non-Linear RNN-Encoder-MLP	0.827	1.276	0.377
Linear Seq2Seq	0.923	1.429	0.418
Non-Linear Seq2Seq	0.860	1.331	0.390
TCN	0.841	1.301	0.381
Gated TCN	0.947	1.468	0.426

RED-predictor（RNN-Encoder に Dense MLP を上部に置いた構成）は、より精巧なモデルと比べても競争力のある結果を示す。
アーキテクチャを超えて、予測はしばしば線形補間ベースラインに近く、単一の最適モデルは明確には特定されない。
全経路を予測する（ステップごとではなく）方が、逐次予測での誤差蓄積を軽減する。
入力としてオフセット/速度を用いると、 raw-position よりも安定性と性能が向上する。
RNN-Encoder-MLP は多くのベースラインを上回ることが多いが、複数のアーキテクチャが類似の性能を示す。
シーン文脈と人と人の相互作用は、単一軌跡モデルを超えて精度をさらに向上させる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。