[論文レビュー] Object-centric Auto-encoders and Dummy Anomalies for Abnormal Event Detection in Video
本稿では、動画における異常イベント検出のため、オブジェクト中心のオートエンコーダーフレームワークとワン・ヴァーズス・レスト多クラス分類手法を組み合わせた手法を提案する。教師なしオートエンコーダーを用いて検出されたオブジェクトから動きと外観特徴を学習し、正常性クラスタを別々のクラスとして扱うことで、最先端の性能を達成した。上海技術大学データセットでは、先行研究と比較して8.4%の絶対的AUC向上を達成した。
Abnormal event detection in video is a challenging vision problem. Most existing approaches formulate abnormal event detection as an outlier detection task, due to the scarcity of anomalous data during training. Because of the lack of prior information regarding abnormal events, these methods are not fully-equipped to differentiate between normal and abnormal events. In this work, we formalize abnormal event detection as a one-versus-rest binary classification problem. Our contribution is two-fold. First, we introduce an unsupervised feature learning framework based on object-centric convolutional auto-encoders to encode both motion and appearance information. Second, we propose a supervised classification approach based on clustering the training samples into normality clusters. A one-versus-rest abnormal event classifier is then employed to separate each normality cluster from the rest. For the purpose of training the classifier, the other clusters act as dummy anomalies. During inference, an object is labeled as abnormal if the highest classification score assigned by the one-versus-rest classifiers is negative. Comprehensive experiments are performed on four benchmarks: Avenue, ShanghaiTech, UCSD and UMN. Our approach provides superior results on all four data sets. On the large-scale ShanghaiTech data set, our method provides an absolute gain of 8.4% in terms of frame-level AUC compared to the state-of-the-art method [Sultani et al., CVPR 2018].
研究の動機と目的
- 異常イベントが希少かつ文脈依存的である動画における異常イベント検出の課題に、従来の外れ値検出手法を越えて対処すること。
- シーン内のオブジェクトに注目することで、外観と動きの両方の特徴をオブジェクト中心の畳み込みオートエンコーダーを用いて特徴表現を向上させること。
- 外れ値検出タスクとしての異常イベント検出ではなく、クラスタリングを用いて正常性クラスを定義することで、多クラス分類問題として異常イベント検出を形式化すること。
- 他のクラスタをダミー異常として扱うワン・ヴァーズス・レスト分類を用いて、合成された異常訓練データを生成すること。
- オブジェクト中心の特徴学習と判別的分類を組み合わせることで、ベンチマークデータセットにおいて優れた性能を達成すること。
提案手法
- 各フレームに対して1ショット検出器(SSD)を用いて関連するオブジェクトを局所化する。
- 検出されたオブジェクトから抽出した外観および動き特徴に対して、オブジェクト中心の畳み込みオートエンコーダーを独立して学習する。
- オートエンコーダーからの潜在表現をk-meansを用いてクラスタリングし、複数の正常性クラスタを形成する。
- 各クラスタに対してワン・ヴァーズス・レストの2値分類器を訓練し、他のすべてのクラスタを負例(ダミー異常)として扱う。
- 推論時、すべてのワン・ヴァーズス・レスト分類器のうち最高のスコアが負である場合、テストサンプルは異常とラベル付けされる。
- 本手法は、多クラス学習の判別的パワーを活用しながらも、正常シーンの教師なし特徴学習を維持している。
実験結果
リサーチクエスチョン
- RQ1フレームレベルや局所特徴抽出と比較して、オブジェクト中心の特徴学習は異常イベント検出性能を向上させるか?
- RQ2正常性クラスタを用いた多クラス分類問題としての異常イベント検出は、従来の1クラス外れ値検出を上回るか?
- RQ3他のクラスタを「ダミー異常」として用いることは、ワン・ヴァーズス・レスト分類器を用いた異常検出の訓練において効果的か?
- RQ4外観特徴と動き特徴のどちらが動画における異常イベント検出に貢献しているか?
- RQ5本フレームワークは、シーンの複雑さや異常タイプが異なる多様な動画ベンチマークに一般化可能か?
主な発見
- 上海技術大学データセットでは、本手法がフレームレベルで84.9%のAUCを達成し、最先端手法[34]と比較して8.4%の絶対的向上を示した。
- Avenueデータセットでは、フレームレベルAUCが先行最先端手法[14]と比較して1.5%の絶対的向上を示した。
- アブレーションスタディの結果、オブジェクト中心のオートエンコーダー特徴を除去するとAUCが72.4%に低下し、オブジェクトレベル表現の重要性が示された。
- ワン・ヴァーズス・レストSVMを1クラスSVMに置き換えるとAUCが5.7%低下し、多クラス定式化の利点が裏付けられた。
- ハイパーパramータの選択に対して頑健であり、SVM正則化パラメータを変更してもフレームレベルAUCの変動は0.3%未満にとどまった。
- フレームワークはTitan Xp GPU上で約11FPSで処理可能であり、オブジェクト検出が主なボトル neck であった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。