QUICK REVIEW

[論文レビュー] A Survey on Deep Learning Techniques for Video Anomaly Detection

Jessie James P. Suarez, Prospero C. Naval|arXiv (Cornell University)|Sep 29, 2020

Anomaly Detection Techniques and Applications参考文献 31被引用数 25

ひとこと要約

本サーベイは、深層学習を用いた動画異常検出の技術について包括的な概要を提供し、異常同定アプローチ（再構成、将来フレーム予測、分類、スコアリング）に基づいて手法を分類している。特徴量の手作業抽出からエンド・ツー・エンド学習へのシフトが強調され、空間的・時間的モデリングの重要性が強調され、実世界での導入に向けた課題に対処するため、より強固な評価指標と弱教師付き学習の導入が求められている。

ABSTRACT

Anomaly detection in videos is a problem that has been studied for more than a decade. This area has piqued the interest of researchers due to its wide applicability. Because of this, there has been a wide array of approaches that have been proposed throughout the years and these approaches range from statistical-based approaches to machine learning-based approaches. Numerous surveys have already been conducted on this area but this paper focuses on providing an overview on the recent advances in the field of anomaly detection using Deep Learning. Deep Learning has been applied successfully in many fields of artificial intelligence such as computer vision, natural language processing and more. This survey, however, focuses on how Deep Learning has improved and provided more insights to the area of video anomaly detection. This paper provides a categorization of the different Deep Learning approaches with respect to their objectives. Additionally, it also discusses the commonly used datasets along with the common evaluation metrics. Afterwards, a discussion synthesizing all of the recent approaches is made to provide direction and possible areas for future research.

研究の動機と目的

最近の深層学習アプローチを、最終的な異常同定メカニズムに基づいて体系的に分類すること。
一般的に使用されるデータセットと評価指標を分析し、現在のベンチマークにおける制限を強調するとともに、より現実的で大規模なデータの必要性を指摘すること。
現在の研究におけるギャップを特定し、特に文脈に配慮したモデリングの欠如と、アノテーション負荷を軽減するための弱教師付きまたは教師なし学習の必要性を明らかにすること。
トレンドの統合と方向性の提案により、今後の研究を導くこと。具体的にはエンド・ツー・エンドアーキテクチャ、アテンションメカニズム、および改善された評価基準を含む。

提案手法

深層学習に基づく異常検出手法を4種類に分類：再構成ベース、将来フレーム予測ベース、分類ベース、スコアリングベースのアプローチ。
空間的・時間的特徴（例：オプティカルフロー、動きのパターン、外観表現）を深層ネットワークへの入力として使用する方法をレビュー。
アテンションメカニズムやトランスフォーマーが、異常検出における文脈モデリングの向上にどのように活用されているかを分析。
自己符号化器、変分自己符号化器、GANが、再構成または生成的モデリングを通じて正常な動画パターンを学習する役割を評価。
完全な教師なし学習なしに学習を支援するため、低レベル特徴（例：オプティカルフロー、勾配ヒストグラム）を深層ネットワークに統合する方法を議論。
特徴の学習と異常検出を同時に最適化する統一的でエンド・ツー・エンドの深層学習フレームワークの必要性を提言。これにより、実装性と耐性が向上する。

実験結果

リサーチクエスチョン

RQ1オートエンコーダ、GAN、トランスフォーマーなどの異なる深層学習アーキテクチャは、多様な動画データセットにおいて、どのように異常検出性能を発揮するか？
RQ2現在の評価指標（フレーム単位およびピクセル単位）は、実世界の異常検出タスクにおけるモデル性能をどれほど的確に反映しているか？
RQ3現在のデータセットの主な制限は何か。また、それらをどのように改善することで、実生活の監視シナリオをよりよく再現できるか？
RQ4弱教師付きまたは教師なし学習は、動画異常検出における高コストな手作業アノテーションへの依存をどの程度軽減できるか？
RQ5アテンションメカニズムと文脈モデリングは、微細またはレアな異常を検出する際の深層学習モデルの耐性をどのように向上させることができるか？

主な発見

深層学習手法は、特徴量の自動抽出により、従来の手作業特徴抽出手法を凌駕する空間的・時間的特徴を学習することで、動画異常検出の性能を著しく向上させた。
再構成ベースおよび将来フレーム予測ベースのアプローチが主流であり、自己符号化器やGANがUCSDやUCF-Crimeなどのベンチマークデータセットで優れた性能を示している。
オプティカルフローと外観特徴を深層ネットワーク内に統合することで、特に動きに基づく異常の検出精度が向上する。
進展は見られるが、現在の評価指標は異常領域の空間的局在化を十分に評価できていないため、より強固で文脈に配慮した指標の必要性が高まっている。
Sultaniら（2018）やLiuら（2018）の研究で提供された大規模データセットは、モデルの訓練を改善しているが、アノテーション作業が依然として主要なボトルネックである。
今後の研究は、エンド・ツー・エンドの深層学習フレームワーク、文脈に配慮したモデリング、弱教師付き学習の優先的推進が求められ、実世界への適用性を高めるとともにアノテーション依存を低減できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。