QUICK REVIEW

[論文レビュー] An Attribute-based Method for Video Anomaly Detection

Tal Reiss, Yedid Hoshen|arXiv (Cornell University)|Dec 1, 2022

Anomaly Detection Techniques and Applications被引用数 21

ひとこと要約

この論文は、物体中心の速度と姿勢特徴を用いた解釈可能な属性ベースのビデオ異常検知手法を提案し、深層表現を拡張して、訓練なしでPed2、Avenue、ShanghaiTechのAUROCで最先端を達成する。

ABSTRACT

Video anomaly detection (VAD) identifies suspicious events in videos, which is critical for crime prevention and homeland security. In this paper, we propose a simple but highly effective VAD method that relies on attribute-based representations. The base version of our method represents every object by its velocity and pose, and computes anomaly scores by density estimation. Surprisingly, this simple representation is sufficient to achieve state-of-the-art performance in ShanghaiTech, the most commonly used VAD dataset. Combining our attribute-based representations with an off-the-shelf, pretrained deep representation yields state-of-the-art performance with a $99.1\%, 93.7\%$, and $85.9\%$ AUROC on Ped2, Avenue, and ShanghaiTech, respectively.

研究の動機と目的

異常の曖昧さと人間に理解しやすい理由付けの必要性から、解釈可能なVADを動機づける。
動画フレーム内の物体に対して、単純な属性ベース表現（速度と姿勢）を提案する。
明示的属性表現と暗黙的な深層特徴を組み合わせて性能を最大化する。
3つの公開VADデータセットで最先端の性能を示す。

提案手法

速度、姿勢、深層特徴（CLIP）を用いた物体中心のビデオ表現。
Velocity: 物体ごとに方向ビンごとに平均された光フローの大きさをヒストグラム風に集計。
Pose: 物体ごとに正規化された単一フレームの人間姿勢ランドマーク（AlphaPose）をサイズ不変の記述子に変換。
Deep features: CLIPベースのオブジェクトレベル埋め込みを用いて明示的属性を超える残余属性を捉える。
Density-based anomaly scoring: 特徴ごとに別々の推定器（速度はGMM、姿勢と深層特徴はkNN）を用い、フレーム全体でオブジェクトごとに最大スコアを算出し、キャリブレーションと時間的平滑化を適用する。

実験結果

リサーチクエスチョン

RQ1単純で解釈可能な物体中心属性（速度と姿勢）がVADにおいて異常を効果的に検出できるか？
RQ2明示的属性表現と暗黙的な深層表現を組み合わせることでVADの性能は向上するか？
RQ3密度推定ベースの異常スコアは標準的なVADデータセット上で最先端手法と競えるか？
RQ4モデルの意思決定はどれくらい解釈可能で、属性は異常に対してどのような根拠を提供するか？

主な発見

Dataset	Ped2 Micro AUROC	Ped2 Macro AUROC	Avenue Micro AUROC	Avenue Macro AUROC	ShanghaiTech Micro AUROC	ShanghaiTech Macro AUROC
Ours	99.1	99.9	93.3	96.2	85.9	89.6

属性ベース表現単独または深層特徴を併用する場合、Ped2（99.1 micro）、Avenue（93.3 micro）、ShanghaiTech（85.9 micro）でフレームレベルAUROCの最先端を達成。
速度特徴はAvenueとShanghaiTechで最も強い信号を提供し、速度と姿勢を組み合わせると高性能を発揮する；深層特徴を追加するといくつかのデータセットで利益を得るが、無関係属性の影響で劣化する場合もある。
全体として、本法はPed2で99.1% microおよび99.9% macro、Avenueで93.3% microおよび96.2% macro、ShanghaiTechで85.9% microおよび89.6% macro AUROCを達成する（表2）。
このアプローチは解釈可能な意思決定を提供する：異常は珍しい速度、姿勢、または深層特徴の差異に結びつけられ、人間にも理解できる根拠を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。