QUICK REVIEW

[論文レビュー] Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory Prediction

Cunjun Yu, Xiao Ma|arXiv (Cornell University)|May 18, 2020

Anomaly Detection Techniques and Applications参考文献 51被引用数 35

ひとこと要約

STAR は TGConv グラフ畳み込みと外部メモリを用いた、空間・時間の Transformer を interleaved に組み合わせ、注意機構のみを用いて5つのデータセットで最先端の歩行者軌跡予測を達成します。

ABSTRACT

Understanding crowd motion dynamics is critical to real-world applications, e.g., surveillance systems and autonomous driving. This is challenging because it requires effectively modeling the socially aware crowd spatial interaction and complex temporal dependencies. We believe attention is the most important factor for trajectory prediction. In this paper, we present STAR, a Spatio-Temporal grAph tRansformer framework, which tackles trajectory prediction by only attention mechanisms. STAR models intra-graph crowd interaction by TGConv, a novel Transformer-based graph convolution mechanism. The inter-graph temporal dependencies are modeled by separate temporal Transformers. STAR captures complex spatio-temporal interactions by interleaving between spatial and temporal Transformers. To calibrate the temporal prediction for the long-lasting effect of disappeared pedestrians, we introduce a read-writable external memory module, consistently being updated by the temporal Transformer. We show that with only attention mechanism, STAR achieves state-of-the-art performance on 5 commonly used real-world pedestrian prediction datasets.

研究の動機と目的

混雑した場面での正確な歩行者軌跡予測の動機づけ。
注意ベースの機構で社会的相互作用と時間的依存性をモデル化。
空間モデリングのためのTransformerベースのグラフ畳み込み（TGConv）を提案。
空間と時間のTransformerを交互に用いて時空間ダイナミクスを捉える。
時間ステップ間の時系列埋め込みを滑らかにする読み書き可能な外部グラフメモリを導入。

提案手法

空間的相互作用をモデリングするTransformerベースのグラフ畳み込みである TGConv を導入。
各歩行者の時間的依存性を学習するための時間的Transformer を適用。
空間的および時間的Transformerを交互に配置して連結された時空間ダイナミクスを捉える。
時間ステップ間で時系列埋め込みを滑らかにする読み書き可能な外部メモリを追加。
将来の軌跡を予測するために2つのエンコーダブロックと単純なデコーダを使用。
ADE/FDE 指標で定義済みのハイパーパラメータと評価で Adam によるエンドツーエンド訓練。

実験結果

リサーチクエスチョン

RQ1注意機構ベースの STAR モデルは標準データセット上で最先端の社会的軌道予測器を上回れるか。
RQ2空間と時間のTransformerを交互に処理することは、個別処理よりも優れた時空間モデリングをもたらすか。
RQ3TGConv は従来のグラフ畳み込みと比較して空間的相互作用のモデリングに優れているか。
RQ4外部グラフメモリは時間的一貫性と予測精度を改善するか。

主な発見

方法	ETH_ADE	ETH_FDE	HOTEL_ADE	HOTEL_FDE	ZARA1_ADE	ZARA1_FDE	ZARA2_ADE	ZARA2_FDE	UNIV_ADE	UNIV_FDE	AVG_ADE
LR	1.33/	2.94	0.39/	0.72	0.62/	1.21	0.77/	1.48	0.82/	1.59	0.79/1.59
LSTM	1.13/	2.39	0.69/	1.47	0.64/	1.43	0.54/	1.21	0.73/	1.60	0.75/1.62
S-LSTM [1]	0.77/	1.60	0.38/	0.80	0.51/	1.19	0.39/	0.89	0.58/	1.28	0.53/1.15
CIDNN [49]	1.25/	2.32	1.31/	1.86	0.90/	1.28	0.50/	1.04	0.51/	1.07	0.89/1.73
SocialAttention [45]	1.39/	2.39	2.51/	2.91	1.25/	2.54	1.01/	2.17	0.88/	1.75	1.41/2.35
TrafficPredict [38]	5.46/	9.73	2.55/	3.57	4.32/	8.00	3.76/	7.20	3.31/	6.37	3.88/6.97
SR-LSTM [53]	0.63/	1.25	0.37/	0.74	0.41/	0.90	0.32/	0.70	0.51/	1.10	0.45/0.94
STAR-D	0.56/	1.11	0.26/	0.50	0.41/	0.90	0.31/	0.71	0.52/	1.15	0.41/0.87
STAR	0.36/	0.65	0.17/	0.36	0.26/	0.55	0.22/	0.46	0.31/	0.71	0.26/0.53
STAR (stochastic)	STAR †	0.36/0.65	0.17/0.36	0.26/0.55	0.22/0.46	0.31/0.71	0.31/0.71	0.26/0.53

STAR-D（決定論的）は複数のデータセットで堅固なベースラインを上回り、STAR（確率的）は確率的サンプリングで最先端の性能を達成する。
TGConv（Transformerベースのグラフ畳み込み）は、特に混雑度が高い場合に GCN/GAT の代替より空間的相互作用モデリングが優れている。
2つのエンコーダを交互に配置する（空間→時間、またはその逆）は、単一のエンコーダよりも一般に良い時空間表現をもたらす。
時間的Transformer は軌道予測におけるLSTMベースの時間モデリングより改善。
外部グラフメモリは時間的埋め込みを滑らかにし、特定のデータセットで全体的な性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。