QUICK REVIEW

[論文レビュー] Real-Time Anomaly Detection and Localization in Crowded Scenes

Mohammad Sabokrou, Mahmood Fathy|arXiv (Cornell University)|Nov 21, 2015

Anomaly Detection Techniques and Applications参考文献 18被引用数 48

ひとこと要約

本論文では、スパース自己符号化器を用いて学習されたグローバルおよびローカル特徴——デュアルビュー記述子——を用いて、混雑なシーンにおけるリアルタイムの異常検出および局所化手法を提案する。正常なピクセルパッチのパターンをガウス分布でモデル化し、マハラノビス距離を計算することで、フレームレベルおよびピクセルレベルの両方で高い精度を達成しており、ピクセルレベル性能において最先端の手法を上回り、25 fps（誤差を多少許容すれば最大200 fps）で実行可能である。

ABSTRACT

In this paper, we propose a method for real-time anomaly detection and localization in crowded scenes. Each video is defined as a set of non-overlapping cubic patches, and is described using two local and global descriptors. These descriptors capture the video properties from different aspects. By incorporating simple and cost-effective Gaussian classifiers, we can distinguish normal activities and anomalies in videos. The local and global features are based on structure similarity between adjacent patches and the features learned in an unsupervised way, using a sparse auto- encoder. Experimental results show that our algorithm is comparable to a state-of-the-art procedure on UCSD ped2 and UMN benchmarks, but even more time-efficient. The experiments confirm that our system can reliably detect and localize anomalies as soon as they happen in a video.

研究の動機と目的

高コストな計算や局所化精度の低さのため、既存手法が失敗しやすい混雑な動画シーンにおけるリアルタイムの異常検出および局所化の課題に対処すること。
軌道ベースや低レベル特徴手法の限界を克服するため、局所的およびグローバルな空間時間的パターンを捉えるデュアルビュー記述子アプローチを導入すること。
25 fpsでのリアルタイム処理（25 fps）を実現しながらも、特にピクセルレベルの局所化において高い検出精度を維持できる計算効率の高いフレームワークを開発すること。
リアルタイム対応ができないか、正確な異常局所化ができない既存手法を改善するため、ガウス分類を用いてグローバルおよびローカル特徴表現を統合すること。

提案手法

動画を重複のない立方体形状の空間時間的パッチに分割することで、動きと構造の局所的分析を可能にする。
正常な動画パッチ上で非教師ありで学習されたスパース自己符号化器を用いて、判別性の高いグローバルおよびローカル特徴を学習する。
隣接するパッチ間の構造類似度を計算することで、異常を示す突然の空間時間的変化を検出する。
すべての正常パッチをガウス分布でモデル化し、推論時にマハラノビス距離を用いて異常分類を実行する。
重み付き意思決定戦略を用いてグローバルおよびローカルビューの予測を統合し、検出および局所化精度を向上させる。
パラメータβを用いたデュアルピクセルレベル評価指標を導入し、細粒度な異常領域検出を可能にする。

Figure 1: The scheme of our algorithm ( left to right ): Input frames, two views of patches (global and local), modeling the data using Gaussian distributions, and making the final decision

実験結果

リサーチクエスチョン

RQ1グローバルおよびローカルの2ビュー特徴表現は、単一ビューまたは低レベル特徴手法と比較して、混雑なシーンにおけるリアルタイムの異常検出および局所化を改善できるか？
RQ2スパース自己符号化器による特徴学習は、異常検出のための正常パッチモデリングの判別力をどの程度向上させるか？
RQ3本手法は、ピクセルレベルの局所化精度および計算効率の面で、最先端のアプローチと比較してどの程度優れているか？
RQ4グローバルおよびローカル記述子の統合により、リアルタイム動画ストリームにおいて低誤検出率でより信頼性の高い異常検出が可能になるか？

主な発見

本手法はUCSD ped2データセットでピクセルレベルの等確率誤り率（EER）24%を達成し、次善の手法（Liら、29.9% EER）を上回った。
UCSD ped2データセットでは、フレームレベルEERが19%であり、Liら（18.5%）に次ぐ2位で、0.5%の差をつけていた。
標準的なハードウェア（3.5 GHz CPU、8GB RAM）上でも25 fpsで動画処理が可能であり、わずかな誤差を許容すれば最大200 fpsまで向上し、競合手法を著しく上回った。
UMNデータセットではEERが2.5%、AUCが99.6%を達成し、最高の既存結果（EER: 2.8%）を上回り、フレームレベル検出において最先端の性能を示した。
デュアルピクセルレベル評価では、β = 0.05およびβ = 0.10の状態でも高い局所化精度を維持しており、ピクセルレベル性能がフレームレベル結果と密接に一致した。
グローバルおよびローカルビューの統合により検出の信頼性が向上し、個々の分類器も良好に機能しており、特にUMNデータセットではグローバルモデルが優れた性能を示した。

Figure 2: Video representation: Each video is represented through a number of non-overlapping cubic patches, covering the whole space-time in the video.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。