[論文レビュー] Learning Deep Representations of Appearance and Motion for Anomalous Event Detection
本論文では、スタックドノイズ除去オートエンコーダーを用いて、外見と動きの表現を同時に学習する、新しい教師なし深層学習フレームワークであるAppearance and Motion DeepNet (AMDN) を提案する。二重融合戦略(早期融合と後期融合の組み合わせ)により、外見と動きの表現を統合する。本手法はUCSDおよびTrainデータセットにおいて最先端の性能を達成し、フレーム単位およびピクセル単位の異常検出において、Ped1とPed2でそれぞれAUCスコア0.952および0.938を達成した。
We present a novel unsupervised deep learning framework for anomalous event detection in complex video scenes. While most existing works merely use hand-crafted appearance and motion features, we propose Appearance and Motion DeepNet (AMDN) which utilizes deep neural networks to automatically learn feature representations. To exploit the complementary information of both appearance and motion patterns, we introduce a novel double fusion framework, combining both the benefits of traditional early fusion and late fusion strategies. Specifically, stacked denoising autoencoders are proposed to separately learn both appearance and motion features as well as a joint representation (early fusion). Based on the learned representations, multiple one-class SVM models are used to predict the anomaly scores of each input, which are then integrated with a late fusion strategy for final anomaly detection. We evaluate the proposed method on two publicly available video surveillance datasets, showing competitive performance with respect to state of the art approaches.
研究の動機と目的
- 手作業で設計された特徴量が事前仮定に依存するため、複雑で混雑した動画監視シーンにおける異常イベントの検出という課題に対処すること。
- 深層オートエンコーダーを用いて、教師なしの方法で外見と動きのパターンの豊かな識別的表現を学習すること。
- 早期融合と後期融合の利点を組み合わせた新規な二重融合戦略により、外見、動き、および統合表現を統合し、異常検出の性能を向上させること。
- 従来の最先端手法と比較して、異常検出および局所化の両面で優れた性能を達成すること。
提案手法
- フレームワークは、動画クリップから外見特徴と動き特徴のそれぞれについて、別々の深層表現を学習するスタックドノイズ除去オートエンコーダー(SDAE)を採用する。
- 外見特徴と動き特徴を連結して第三のSDAEに供給することで、モality特化特徴の早期融合を実現する、統合表現を学習する。
- 外見、動き、および統合表現それぞれに対して、独立して一クラスSVMを訓練し、個別の異常スコアを生成する。
- 後期融合戦略により、学習された重み(αA、αM、αJ)を用いて3つの異常スコアを統合し、最終的な検出出力を得る。
- ネットワークはSGDとモーメンタムを用いて事前学習され、ガウスノイズの不正な汚染(分散0.0003)と固定されたハイパーパramータ(λ=0.01、λF=0.0001、Nb=256)を用いる。
- 融合重みは交差検証を用いて最適化され、Ped1では[0.2,0.5,0.3]、Ped2では[0.2,0.4,0.4]に設定された。
実験結果
リサーチクエスチョン
- RQ1深層オートエンコーダーは、動画における教師なし異常検出のための識別的外見および動き表現を効果的に学習できるか?
- RQ2早期融合と後期融合を組み合わせたハイブリッド融合戦略は、単独の早期または後期融合よりも異常検出性能を向上させるか?
- RQ3外見と動きの統合表現は、モダリティ特化特徴のみを用いる場合と比較して、検出性能を向上させられるか?
- RQ4本手法であるAMDNは、フレーム単位およびピクセル単位の異常検出精度において、最先端手法と比較してどのように差をつけるか?
主な発見
- UCSD Ped1データセットでは、フレーム単位の評価でAUCが0.952、EERが0.126を達成し、多数の既存手法を上回った。
- ピクセル単位の異常局所化では、Ped1でAUCが0.938、EERが0.152を達成し、すべての競合手法を上回った。
- 二重融合戦略は性能向上に顕著な寄与を示し、AMDNは両方のベースライン(統合のみの早期融合、外見と動きのみの後期融合)を上回った。
- Trainデータセットでは、精度-再現率曲線から、AMDNはすべてのベースライン、特に支配的行動学習法および混合ガウスモデルを上回った。
- Ped1およびPed2の学習された融合重みは、それぞれ[0.2,0.5,0.3]および[0.2,0.4,0.4]であり、異常検出において動き特徴により高い依存性があることを示している。
- 本手法はデータセット間で良好に一般化され、複雑で多様な監視シーンにおいても頑健であることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。