QUICK REVIEW

[論文レビュー] Human Trajectory Prediction using Spatially aware Deep Attention Models

Daksh Varshneya, G. Srinivasaraghavan|arXiv (Cornell University)|May 26, 2017

Video Surveillance and Tracking Methods参考文献 22被引用数 77

ひとこと要約

この論文は、動的相互作用と静的シーン文脈を同時にモデリングすることで人間の軌跡を予測するエンドツーエンドのスペーシャル対応ディープアテンションモデルを提示します。静的文脈のSSCNと時空間アテンションエンコーダ-デコーダを用います。

ABSTRACT

Trajectory Prediction of dynamic objects is a widely studied topic in the field of artificial intelligence. Thanks to a large number of applications like predicting abnormal events, navigation system for the blind, etc. there have been many approaches to attempt learning patterns of motion directly from data using a wide variety of techniques ranging from hand-crafted features to sophisticated deep learning models for unsupervised feature learning. All these approaches have been limited by problems like inefficient features in the case of hand crafted features, large error propagation across the predicted trajectory and no information of static artefacts around the dynamic moving objects. We propose an end to end deep learning model to learn the motion patterns of humans using different navigational modes directly from data using the much popular sequence to sequence model coupled with a soft attention mechanism. We also propose a novel approach to model the static artefacts in a scene and using these to predict the dynamic trajectories. The proposed method, tested on trajectories of pedestrians, consistently outperforms previously proposed state of the art approaches on a variety of large scale data sets. We also show how our architecture can be naturally extended to handle multiple modes of movement (say pedestrians, skaters, bikers and buses) simultaneously.

研究の動機と目的

Crowdのある場面で人間の軌跡をキャプチャして予測する。
動的相互作用と周囲の静的シーン文脈の両方を考慮する。
長期計画の改善のために空間的文脈ネットワークとアテンション機構を備えたエンドツーエンドのアーキテクチャを提案する。
歩行者を超える複数の移動主体クラスへの拡張を検討する。

提案手法

Space-静的文脈ネットワーク（SSCN）を導入し、主体の周囲の静的空間文脈をモデリングする。
動的な社会的文脈と静的文脈テンソルを組み合わせるプーリング機構を開発する。
時空間アテンションエンコーダ-デコーダを用いて、位置・動的文脈・静的文脈を埋め込み、Bahdanau風アテンションを適用する。
次の位置をパラメトリックな二変量ガウス分布で予測する。
すべての主体タイプのモデルを同時に最適化するために負の対数尤度で訓練する。
D-ATT（動的プーリング）とSD-ATT（静的文脈プーリングを追加した）という2つの変種を示す。

実験結果

リサーチクエスチョン

RQ1静的なシーン文脈を歩行者の軌跡予測にどう組み込めるか。
RQ2動的社会的プーリングと静的文脈を組み合わせると、動的のみのモデルより予測精度は向上するか。
RQ3歩行者以外の複数の移動物体クラスへの拡張は可能か。
RQ4時空間アテンションが長期的な軌跡計画に与える影響は何か。

主な発見

データセット	O-LSTM	S-LSTM	D-ATT	SD-ATT
Avg. Disp. Error	ETH [11]	0.49	0.50	0.47	-
HOTEL [11]	0.09	0.11	0.12	-
ZARA1 [12]	0.22	0.22	0.18	-
GATES1 [13]	0.16	0.12	0.11	0.09
GATES2 [13]	0.15	0.17	0.14	0.10
GATES3 [13]	0.18	0.16	0.13	0.13
Final Disp. Error	ETH [11]	1.06	1.07	0.85	-
HOTEL [11]	0.20	0.23	0.19	-
ZARA1 [12]	0.46	0.46	0.48	-
GATES1 [13]	0.28	0.25	0.19	0.17
GATES2 [13]	0.40	0.37	0.38	0.35
GATES3 [13]	0.26	0.26	0.25	0.24

提案されたSD-ATTモデルはETH、HOTEL、ZARA1、GATES1、GATES2、GATES3データセットにおいて、平均移動誤差と最終移動誤差の両方でS-LSTMおよびO-LSTMを上回る。
SD-ATTモデルはStanford Drone Datasetでも有効で、Social LSTMより予測が改善。
SSCNベースの静的文脈は意味論的に解釜可能な到達性マップを提供し、軌道計画に影響を与える。
静的文脈プーリングとアテンションによって非線形軌道、衝突回避、静的障害物のより良い扱いが示される。
2つの変種は、静的文脈を追加するSD-ATTが動的文脈のみのD-ATTより改善をもたらすことを示している。
このアプローチは歩行者以外の複数のオブジェクトクラスへの拡張をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。