[論文レビュー] Geometry-Aware Semantic Reasoning for Training Free Video Anomaly Detection
MM-VAD は訓練不要の映像異常検知を、双曲空間とテスト時プロンプト最適化を用いた適応的で幾何学的に aware な多模態意味推論へ再定式化し、マハラノビ斯 Refinement と説明のための LLM ベースのQA を組み合わせる。
Training-free video anomaly detection (VAD) has recently emerged as a scalable alternative to supervised approaches, yet existing methods largely rely on static prompting and geometry-agnostic feature fusion. As a result, anomaly inference is often reduced to shallow similarity matching over Euclidean embeddings, leading to unstable predictions and limited interpretability, especially in complex or hierarchically structured scenes. We introduce MM-VAD, a geometry-aware semantic reasoning framework for training free VAD that reframes anomaly detection as adaptive test-time inference rather than fixed feature comparison. Our approach projects caption-derived scene representations into hyperbolic space to better preserve hierarchical structure and performs anomaly assessment through an adaptive question answering process over a frozen large language model. A lightweight, learnable prompt is optimised at test time using an unsupervised confidence-sparsity objective, enabling context-specific calibration without updating any backbone parameters. To further ground semantic predictions in visual evidence, we incorporate a covariance-aware Mahalanobis refinement that stabilises cross-modal alignment. Across four benchmarks, MM-VAD consistently improves over prior training-free methods, achieving 90.03% AUC on XD-Violence and 83.24%, 96.95%, and 98.81% on UCF-Crime, ShanghaiTech, and UCSD Ped2, respectively. Our results demonstrate that geometry-aware representation and adaptive semantic calibration provide a principled and effective alternative to static Euclidean matching in training-free VAD.
研究の動機と目的
- ラベル付きデータなしで、スケーラブルかつドメイン一般性を持つ異常推論として訓練不要の VAD を動機づける。
- ハイパーボリック空間にキャプションを埋め込むことで階層的な多模態シーン意味を捉える。
- 凍結された大規模言語モデルを用いた適応的なプロンプトを介して文脈依存の異常推論を実現する。
- 視覚的証拠を用いたクロスモーダル refinements によって semantic predictions を地上化し、意思決定を安定化させる。
提案手法
- 凍結キャプショニングモデルを用いて映像・音声ストリームから視覚キャプションと音声キャプションを生成する。
- 文脈に基づく自己整列を通じてノイズを削減するためにキャプションをフィルタリング・クリーニングする。
- キャプションを双曲空間へ射影し、階層性を保つために測地幾何的平均と融合する。
- 学習可能なテスト時プロンプト Q を用いた凍結 LLM に対する適応的 QA 形式で異常検知を定式化する。
- テスト時に無监督でプロンプトを最適化し、信頼性の高いスパースな異常予測を促す(エントロピーとスパース性の目的関数)。
- 視覚埋め込みとのクロスモーダル共分散を用いて予測を再評価する Mahalanobis 基づく refinement を適用する。
実験結果
リサーチクエスチョン
- RQ1ハイパーボリック表現と適応的プロンプティングは、ユークリッド結合と静的プロンプトに比べて訓練不要の VAD を改善できるか。
- RQ2適応的プロンプト最適化は、マルチモーダル・ゼロショット設定においてより安定的で解釈可能な異常決定を生み出すか。
- RQ3クロスモーダル Mahalanobis Refinement は言語ベースの予測と視覚証拠の整合性にどのように影響するか。
主な発見
- MM-VAD は XD-Violence で訓練不要 VAD 手法の最先端性能(AUC 90.03%)および UCF-Crime(AUC 83.24%)を達成。
- 映像のみのベンチマーク(ShanghaiTech、UCSD Ped2)では、MM-VAD が LAVAD よりそれぞれ +2.40 ポイント、+2.70 ポイントの AUC を上回る。
- 双曲結合とキャプションクリーニングは、ユークリッド結合と未処理キャプションよりも AUC を大きく改善。
- 適応的プロンプト最適化(テスト時)は異常検知性能に顕著な向上をもたらす。
- マハラノビ斯基バリデーションによるクロスモーダル refinement は、視覚特徴分布に予測を地球化することで異常スコアを安定化させる。
- MM-VAD は訓練不要運用を凍結バックボーンのまま維持しつつ、頑健で解釈可能な異常説明を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。