[論文レビュー] Soft + Hardwired Attention: An LSTM Framework for Human Trajectory Prediction and Abnormal Event Detection
本稿では、監視映像における人間の軌跡予測および異常イベント検出を目的として、ソフトアテンションとハードワイヤードアテンションを組み合わせた新しいLSTMベースのフレームワークを提案する。学習可能なソフトアテンションと手作業で設計された空間的アテンション重みを統合することで、密で複雑な環境における軌跡予測の精度が向上し、手作業で特徴を設計する必要のないエンドツーエンドの異常検出が可能となり、2つの公的データセットにおいて最先端の手法を上回る性能を発揮した。
As humans we possess an intuitive ability for navigation which we master through years of practice; however existing approaches to model this trait for diverse tasks including monitoring pedestrian flow and detecting abnormal events have been limited by using a variety of hand-crafted features. Recent research in the area of deep-learning has demonstrated the power of learning features directly from the data; and related research in recurrent neural networks has shown exemplary results in sequence-to-sequence problems such as neural machine translation and neural image caption generation. Motivated by these approaches, we propose a novel method to predict the future motion of a pedestrian given a short history of their, and their neighbours, past behaviour. The novelty of the proposed method is the combined attention model which utilises both "soft attention" as well as "hard-wired" attention in order to map the trajectory information from the local neighbourhood to the future positions of the pedestrian of interest. We illustrate how a simple approximation of attention weights (i.e hard-wired) can be merged together with soft attention weights in order to make our model applicable for challenging real world scenarios with hundreds of neighbours. The navigational capability of the proposed method is tested on two challenging publicly available surveillance databases where our model outperforms the current-state-of-the-art methods. Additionally, we illustrate how the proposed architecture can be directly applied for the task of abnormal event detection without handcrafting the features.
研究の動機と目的
- 高密度な観察者を伴う複雑な環境における歩行者の軌跡を正確に予測する課題に対処すること。
- 周囲の歩行者の影響をモデル化するために、学習可能なソフトアテンションと空間的に構造化されたハードワイヤードアテンションを組み合わせることで、軌跡予測の精度を向上させること。
- 手作業で設計された特徴を必要とせず、LSTMの隠れ状態を活用することでエンドツーエンドの異常イベント検出を可能とすること。
- 多様な群衆ダイナミクスを伴う実世界の監視データセットにおいて、モデルの頑健性と一般化性能を示すこと。
提案手法
- 時間的経過に伴う歩行者の順序付き軌跡をモデル化するために、エンコーダデコーダ型LSTMアーキテクチャを用いる。
- 注目対象の歩行者の自身の軌跡を、学習されたアテンション関数を用いてソフトアテンションで符号化する。
- 空間的近接性と相対的位置に基づいて、周囲の歩行者の影響をモデル化するため、ハードワイヤードアテンション重みを導入する。
- ソフトアテンションとハードワイヤードアテンションのコンテキストベクトルを統合し、将来の軌跡予測のための統一された表現を生成する。
- DBSCANを用いたクラスタリングに基づく異常イベント検出のために、LSTMエンコーダおよびデコーダの隠れ状態を活用する。
- 観測された軌跡上でエンドツーエンドに学習させ、将来のパスを予測し、通常の行動からの逸脱を検出する。
実験結果
リサーチクエスチョン
- RQ1ソフトアテンションとハードワイヤードアテンションを組み合わせたハイブリッドアテンション機構は、数百人の周囲の歩行者が存在する密な群衆シナリオにおける軌跡予測を改善できるか?
- RQ2提案手法は、歩行者密度が高く相互作用が激しい実世界の監視データにどの程度一般化できるか?
- RQ3手作業で特徴を設計しないで、LSTMの隠れ状態を用いて異常行動をどの程度効果的に検出できるか?
- RQ4軌跡予測の精度および異常検出性能の観点から、最先端の手法と比較して、本モデルはどの程度優れているか?
主な発見
- 本モデルは2つの公的監視データセットにおいて最先端の性能を達成し、既存の手法よりも軌跡予測精度が優れていた。
- ハイブリッドアテンション機構により、数百人の周囲の歩行者が存在する状況でも性能が著しく向上し、実世界の密な環境へのスケーラビリティが実証された。
- 正例の55件中47件(85.5%の再現率)を検出できた。これは、単純なベースラインが29件(52.7%の再現率)しか検出できなかったのと比較して顕著な優位性を示した。
- 誤検出の主な原因は、突然の方向転換(切符を買うために)など、まれだが非異常な行動であり、低頻度パターンに対して感受性が高いことが示された。
- 予測されたパスと観測されたパスが近くても、急激な方向転換、円運動、異常な速度を伴う異常イベントを効果的に検出できた。
- LSTM隠れ状態のクラスタリングにより特徴なしで異常イベント検出を実現した点で、本フレームワークは強力な一般化性能を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。