QUICK REVIEW

[論文レビュー] Hybrid Deep Network for Anomaly Detection

Trong-Nguyen Nguyen, Jean Meunier|arXiv (Cornell University)|Aug 17, 2019

Anomaly Detection Techniques and Applications参考文献 1被引用数 25

ひとこと要約

本論文は、時空間的ビデオキューブから空間に配慮した特徴を学習することで、監視映像における異常を検出するためのハイブリッドディープ畳み込みオートエンコーダーを提案する。再構築損失と空間分類損失を同時に最適化することで、4つのベンチマークデータセットで最先端の性能を達成し、マルチコンポonentスコア統合による異常スコアの向上と、デコーダーの寄与がアブレーションで示された。

ABSTRACT

In this paper, we propose a deep convolutional neural network (CNN) for anomaly detection in surveillance videos. The model is adapted from a typical auto-encoder working on video patches under the perspective of sparse combination learning. Our CNN focuses on (unsupervisedly) learning common characteristics of normal events with the emphasis of their spatial locations (by supervised losses). To our knowledge, this is the first work that directly adapts the patch position as the target of a classification sub-network. The model is capable to provide a score of anomaly assessment for each video frame. Our experiments were performed on 4 benchmark datasets with various anomalous events and the obtained results were competitive with state-of-the-art studies.

研究の動機と目的

正常パターンが支配的な監視映像におけるレアかつ多様な異常イベントの検出という課題に対処すること。
空間的位置情報を監視信号として組み込むことで、自己教師あり異常検出の性能を向上させること。
複数のパッチ単位のオートエンコーダーを置き換える1つの効率的なディープネットワークを設計すること。
異なるネットワークコンポonentからの再構築スコアと分類ベーススコアを統合することで、異常スコアの精度を向上させること。
デコーダーや adversarial 学習の検出性能への影響を評価すること。

提案手法

モデルは、局所的な動きと外観パターンを捉えるために、サイズ 10×10×3（3つの連続したグレースケールフレーム）の3次元時空間キューブを処理する。
畳み込みオートエンコーダーは、自己教師ありの方法で正常イベントの共有で共通する特徴を学習する。
ボトルネック層に分類サブネットワークを追加し、各空間パッチの位置を別個のクラスとして扱うことで、学習された特徴に空間的識別性を強制する。
ネットワークは再構築損失（L2）と分類交差エントロピー損失の組み合わせを用いて訓練され、ディスクライマーを介したオプションの adversarial 学習も可能である。
異常スコアは複数のソースから計算される：再構築誤差（S_R）、空間分類信頼度（S_x,y）、およびそれらの統合（S_R,x,y）。
アブレーションにより、デコーダーが特徴表現の向上に寄与していることが示されたため、デコーダーは保持されている。

実験結果

リサーチクエスチョン

RQ1空間的位置を監視信号として統合することで、オートエンコーダー特徴の異常検出における識別力が向上するか？
RQ2自己教師あり再構築損失と監視付き分類損失を組み合わせることで、単独で使用する場合よりも性能が向上するか？
RQ3再構築スコアと分類スコアの複数の異常スコアの統合は、最終的な検出性能にどのように影響するか？
RQ4デコーダーはモデルの異常検出能力にどのような影響を与えるか？
RQ5adversarial 学習は、カメラのジャイロや照明変化に対して、特に耐性を高めるか？

主な発見

提案されたハイブリッドモデルは、Avenueデータセットで82.8のSOTA AUC、Traffic-Trainで84.3を達成し、4つのベンチマークデータセットで先行手法を上回った。
UCSD Ped2でのモデル性能は、入力解像度が高くなるにつれて向上した。これは、低解像度のキューブが特徴の豊かさと検出能力を制限している可能性を示唆している。
adversarial 学習は大多数のデータセットで検出性能を向上させたが、Traffic-Trainでは性能が低下した。これは、カメラのジャイロによって空間的テクスチャの一貫性が乱れるためと推測される。
デコーダーを削除すると、UCSD Ped2でAUCが76.8から73.6に低下し、Belleviewで82.7から81.6に低下した。これは、デコーダーが特徴学習に肯定的な貢献をしていることを確認した。
再構築スコアと分類スコアの統合（S_R,x,y）が最も優れた結果をもたらし、複数ソースの異常評価の利点を示した。
分類ヘッドは、オートエンコーダーが空間的に識別可能な特徴を学習するのを効果的に導いた。これは、パッチ位置をクラスラベルとして使用するという新規な手法の有効性を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。