[論文レビュー] Scene-LSTM: A Model for Human Trajectory Prediction
Scene-LSTMは、歩行者の軌跡とシーン文脈の両方をLSTMの2レベルグリッドでモデル化することにより人間の動きを予測し、混雑した場面でいくつかのベースラインを上回る。
We develop a human movement trajectory prediction system that incorporates the scene information (Scene-LSTM) as well as human movement trajectories (Pedestrian movement LSTM) in the prediction process within static crowded scenes. We superimpose a two-level grid structure (scene is divided into grid cells each modeled by a scene-LSTM, which are further divided into smaller sub-grids for finer spatial granularity) and explore common human trajectories occurring in the grid cell (e.g., making a right or left turn onto sidewalks coming out of an alley; or standing still at bus/train stops). Two coupled LSTM networks, Pedestrian movement LSTMs (one per target) and the corresponding Scene-LSTMs (one per grid-cell) are trained simultaneously to predict the next movements. We show that such common path information greatly influences prediction of future movement. We further design a scene data filter that holds important non-linear movement information. The scene data filter allows us to select the relevant parts of the information from the grid cell's memory relative to a target's state. We evaluate and compare two versions of our method with the Linear and several existing LSTM-based methods on five crowded video sequences from the UCY [1] and ETH [2] datasets. The results show that our method reduces the location displacement errors compared to related methods and specifically about 80% reduction compared to social interaction methods.
研究の動機と目的
- 静止した混雑した場面で精度を向上させるために、歩行者の軌道予測へシーン情報を組み込む。
- 各グリッドセルにscene-LSTMを持つ2レベルのグリッド構造を開発し、サブグリッドがより細かな空間粒度を捉える。
- Pedestrian Movement LSTMsと対応するScene-LSTMsを結合して、次の動きを共同で予測する。
- グリッドセルの記憶から関連する非線形移動情報を抽出するシーンデータフィルタを設計する。
提案手法
- ターゲットごとに2つの結合LSTMネットワーク: Pedestrian Movement LSTMとグリッドセルごとに対応するScene-LSTM。
- 2レベルのグリッド構造: SceneはScene-LSTMsを持つグリッドセルに分割され、各セルはさらに細かな粒度のサブグリッドに分割される。
- グリッドセル内で一般的な軌道パターン(例:片道に曲がる、停留所で停止する)をモデル化して予測を通知。
- ターゲット状態に相対したグリッドセルから関連する記憶情報を選択するシーンデータフィルタ。
- 訓練はターゲットおよびグリッドセル全体でPedestrianとScene LSTMの同時最適化を行う。
実験結果
リサーチクエスチョン
- RQ1Scene-LSTMを介してシーン情報を統合することは、混雑した場面での歩行者軌道の予測精度を改善しますか?
- RQ2結合されたScene-LSTMとPedestrian-Movement LSTMネットワークは、ベースラインの線形法や他のLSTMベースの手法を上回りますか?
- RQ32レベルのグリッド表現は、将来の軌道に影響を与える一般的な移動パターンを捉えることができますか?
- RQ4ターゲットに関連する非線形移動情報を保持するシーンデータフィルタの有効性はどの程度ですか?
主な発見
- 本手法は関連手法と比較して位置ずれ誤差を低減します。
- 社会的相互作用法と比較して約80%の誤差削減を達成します。
- 特定のコンポーネントの有無による2つのバージョンをUCYおよびETHデータセットで評価しました。
- 評価にはUCYとETHの混雑した5つのビデオシーケンスを使用しました。
- 結果は、いくつかの既存のLSTMベースのベースラインおよび線形モデルよりも大幅な改善を示します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。