[論文レビュー] Learning Memory-guided Normality for Anomaly Detection
教師なしビデオ異常検知法で、メモリモジュールを用いて複数の典型的な正規パターンを格納し、特徴のコンパクト性と分離性の損失で学習し、最先端の結果を達成。異常を学習させないよう重み付きスキームでメモリを更新する。
We address the problem of anomaly detection, that is, detecting anomalous events in a video sequence. Anomaly detection methods based on convolutional neural networks (CNNs) typically leverage proxy tasks, such as reconstructing input video frames, to learn models describing normality without seeing anomalous samples at training time, and quantify the extent of abnormalities using the reconstruction error at test time. The main drawbacks of these approaches are that they do not consider the diversity of normal patterns explicitly, and the powerful representation capacity of CNNs allows to reconstruct abnormal video frames. To address this problem, we present an unsupervised learning approach to anomaly detection that considers the diversity of normal patterns explicitly, while lessening the representation capacity of CNNs. To this end, we propose to use a memory module with a new update scheme where items in the memory record prototypical patterns of normal data. We also present novel feature compactness and separateness losses to train the memory, boosting the discriminative power of both memory items and deeply learned features from normal data. Experimental results on standard benchmarks demonstrate the effectiveness and efficiency of our approach, which outperforms the state of the art.
研究の動機と目的
- 動画の異常検知を、異常データを訓練データとして用いずに解決する。
- プロトタイプ特徴のメモリを用いて正規パターンの多様性を明示的にモデリングする。
- メモリを介してCNNの再構成/予測能力を制限し、正規パターンに焦点を当てる。
- 異常を学習しない安定なメモリ更新ルールを提案する。
- 標準ベンチマークで最先端の性能を示す。
提案手法
- 各アイテムが典型的な正規パターンを記録するM個のアイテムを持つメモリモジュールを導入する。
- エンコーダ(U-Net)を用いて画素ごとのクエリを生成し、コサイン類似度を介してメモリを読み出し、再構成/予測用に更新された特徴を得る。
- hat{p}_t^k をメモアイテムの加重和として形成する読み出しステップを計算する;その後 q_t と連結してデコードに使用。
- 各アイテムに割り当てられたクエリを用いてメモリアイテムを更新し、v_t^k,m が加重更新を導く;正規フレームに更新を焦点を当てるよう正規化を適用。
- 再構成損失、特徴のコンパクト性損失(q_t^k が最も近いメモリアイテムに近い)と特徴の分離損失(マージンで2番目に近いアイテムを遠ざける)を用いて訓練。
- テスト時には、異常フレームでのメモリ更新を防ぐ重み付き正則スコアを計算し、PSNRベースの再構成品質とメモリベースの不一致の組み合わせとして異常度スコア S_t を導出。
実験結果
リサーチクエスチョン
- RQ1メモリベースの表現は動画フレームの正規パターンの多様性を捉え、異常検知を改善できるか?
- RQ2メモリアイテムとクエリの間でコンパクト性と分離性の両方を強制すると、より識別的な正規パターンのプロトタイプにつながるか?
- RQ3テスト時に異常フレームを取り込まないようにメモリ更新を条件付けできるか?
- RQ4Ped2、Avenue、ShanghaiTechの標準ベンチマークでAUCの観点から最先端手法と比べてどうか?
- RQ5再構成ベースとメモリベースの手がかりのトレードオフは?
主な発見
| 方法 | Ped2 [21] | Avenue [24] | Shanghai [26] |
|---|---|---|---|
| Ours-R w/o Mem. | 86.4 | 80.6 | 65.8 |
| Ours-R w/ Mem. | 90.2 | 82.8 | 69.8 |
| Frame-Pred (Pred.) | 95.4 | 85.1 | 72.8 |
| Ours-P w/o Mem. | 94.3 | 84.5 | 66.8 |
| Ours-P w/ Mem. | 97.0 | 88.5 | 70.5 |
- 予測タスクを用いたメモリ強化モデルは、Ped2のAUC97.0およびAvenueのAUC88.5でトップを達成し、ベースラインを上回る。
- メモリの使用はPed2、Avenue、ShanghaiTechのいずれでも一貫した利得をもたらす(例:Ours-P w/ Mem. はそれぞれ97.0、88.5、70.5を達成)。
- 特徴の分離性損失は性能を大幅に改善(例:分離性を追加した場合、AUCで3.8ポイントの向上というアブレーション結果)。
- 通常フレームのみを更新する(重み付き正則スコア経由)は異常検知性能を改善する。
- 本法は高速で約67fpsの速度で動作し、Flowベースや対戦的手法と比較して精度と実行時間の良好なトレードオフを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。