QUICK REVIEW

[論文レビュー] Are pre-trained CNNs good feature extractors for anomaly detection in surveillance videos?

Tiago S. Nazaré, Rodrigo Fernandes de Mello|arXiv (Cornell University)|Nov 20, 2018

Anomaly Detection Techniques and Applications被引用数 26

ひとこと要約

この論文は、動きのモデリングを一切行わず、フレームの外観のみを用いて監視映像における異常検出のための特徴抽出器として事前学習済みCNN（VGG-16、ResNet-50、Xception、DenseNet-121）を評価する。適切な特徴正規化が極めて重要であることが判明し、最適な正規化を用いることでPed2データセットで最先端の競争力ある結果を達成した。これは、市販のCNN特徴が外観ベースの異常検出の強力なベースラインとして機能できることを示している。

ABSTRACT

Recently, several techniques have been explored to detect unusual behaviour in surveillance videos. Nevertheless, few studies leverage features from pre-trained CNNs and none of then present a comparison of features generate by different models. Motivated by this gap, we compare features extracted by four state-of-the-art image classification networks as a way of describing patches from security video frames. We carry out experiments on the Ped1 and Ped2 datasets and analyze the usage of different feature normalization techniques. Our results indicate that choosing the appropriate normalization is crucial to improve the anomaly detection performance when working with CNN features. Also, in the Ped2 dataset our approach was able to obtain results comparable to the ones of several state-of-the-art methods. Lastly, as our method only considers the appearance of each frame, we believe that it can be combined with approaches that focus on motion patterns to further improve performance.

研究の動機と目的

事前学習済みCNNが監視映像における異常検出のための効果的な特徴抽出器として機能するかどうかを調査すること。
4つの最先端の画像分類ネットワーク（VGG-16、ResNet-50、Xception、DenseNet-121）が動画異常検出においてどの程度の性能を示すかを比較すること。
異なる特徴正規化手法（0-1、zスコア、L1、L2）が検出性能に与える影響を分析すること。
将来的に動きベースのアプローチと組み合わせる可能性がある方法のための、強力な外観のみのベースラインを確立すること。
動画異常検出において、事前学習モデルおよび正規化戦略の選定に関する実証的ガイドラインを提供すること。

提案手法

UCSD Ped1およびPed2データセットの監視映像の各フレームから16ピクセルのストライドで32×32の画像パッチを抽出した。
事前学習済みImageNetモデル（VGG-16、ResNet-50、Xception、DenseNet-121）の畳み込み層を用いて、各パッチからの深層特徴を抽出した。
抽出された特徴に4種類の正規化手法（0-1、zスコア、L1、L2）を適用し、その後続の異常検出性能を向上させた。
正規化された特徴を用いて、正常パターンからの逸脱に基づいて異常を検出するため、1クラス分類器（One-Class SVM）を訓練した。
フレームレベルの異常検出において、等誤差率（EER）および受信者操作特性曲線下の面積（AUC）を用いて性能を評価した。
最先端の手法と比較するため、最も性能の良かったモデルと正規化の組み合わせを選定した。

実験結果

リサーチクエスチョン

RQ1微調整なしで、事前学習済みCNNが監視映像における異常検出のための効果的な特徴抽出器として機能できるか？
RQ2異なる事前学習済みCNNアーキテクチャ（VGG-16、ResNet-50、Xception、DenseNet-121）は、外観ベースの異常検出においてどの程度の性能を示すか？
RQ3異なる特徴正規化手法（0-1、zスコア、L1、L2）が異常検出性能に与える影響は何か？
RQ4事前学習ネットワークからの外観のみの特徴は、最先端の手法と比較して競争力のある結果を達成できるか？
RQ5視覚的特徴が異なるデータセット間（例：Ped1のパースの変化 vs. Ped2の一貫したパース）で顕著な性能差が生じるか？

主な発見

特徴正規化は性能に顕著な影響を与え、ResNet-50およびXceptionではzスコア正規化が最も優れた結果を示したのに対し、DenseNet-121では0-1正規化が最良であった。
Ped2データセットでは、最も優れた設定（DenseNet-121に0-1正規化）でAUCが88.93%、EERが19.55%を達成し、最先端の手法と同等の性能を示した。
Ped1データセットでは、最高でAUC 64.06%、EER 40.40%を記録したが、これは古典的手法と同等の性能であったが、最良のSOTA手法には及ばなかった。これは、パースの変化が要因と考えられる。
特徴数を50から100に増やすことで一般的に性能が向上したが、推論時間の増加を伴った。
外観特徴のみを用いても強力な性能を達成したため、動きベースのアプローチと組み合わせた場合の強力なベースラインとして機能することが示唆された。
結果から、適切に正規化された市販のCNN特徴は、タスク固有の微調整なしで監視映像における異常検出に非常に効果的であることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。