[論文レビュー] Cleaning Label Noise with Clusters for Minimally Supervised Anomaly Detection
本稿では、動画レベルでのラベルのみが与えられる設定において、バイナリクラスタリングを用いてラベルノイズを除去する弱教師あり異常検出フレームワークを提案する。深層ネットワークとクラスタリングに基づく疑似ラベル付けを共同最適化することで、UCF-Crimeでは78.27%、ShanghaiTechでは84.16%のフレームレベルAUCを達成し、ノイズが多く、最小限の教師あり設定下で先行手法を著しく上回る性能を発揮する。
Learning to detect real-world anomalous events using video-level annotations is a difficult task mainly because of the noise present in labels. An anomalous labelled video may actually contain anomaly only in a short duration while the rest of the video can be normal. In the current work, we formulate a weakly supervised anomaly detection method that is trained using only video-level labels. To this end, we propose to utilize binary clustering which helps in mitigating the noise present in the labels of anomalous videos. Our formulation encourages both the main network and the clustering to complement each other in achieving the goal of weakly supervised training. The proposed method yields 78.27% and 84.16% frame-level AUC on UCF-crime and ShanghaiTech datasets respectively, demonstrating its superiority over existing state-of-the-art algorithms.
研究の動機と目的
- 部分的な異常により顕著なノイズを含む動画レベルラベルしか入手できない状況下で、頑健な異常検出モデルを訓練する課題に対処すること。
- 正常なセグメントが誤って異常とラベル付けされるノイズラベルの影響を軽減するために、クラスタリングベースの精錬機構を導入すること。
- 深層ネットワークとクラスタリングアルゴリズムがトレーニング中に互いに向上させる相互学習フレームワークを構築し、検出性能を向上させること。
- フレームレベルのアノテーションが高価であるため、それを避ける最小限の教師あり設定下で、ベンチマークデータセットにおいて最先端の性能を達成すること。
提案手法
- 各動画を重複のない16フレームのセグメント(f=16)に分割し、セグメントレベルの分析を可能にする。
- 事前学習済みのC3Dネットワークを用いて各セグメントから特徴量を抽出し、コンact表現を取得する。
- ReLU関数とドロップアウトを含む2層の全結合層を通し、異常スコアを予測する。
- 1番目の全結合層からの特徴量に対して、二値クラスタリング(k=2)を適用し、セグメントを正常クラスタと異常クラスタに分類する。
- 異常動画ではクラスタ間の分離を促進し、正常動画ではクラスタの融合を促すクラスタリング距離損失($L_c$)を導入する。
- 異常動画のセグメントに対して、クラスタ割り当てに基づき疑似ラベル($y^p$)を生成し、均一な動画レベルラベルを洗練されたセグメントレベルの監視に置き換える。
実験結果
リサーチクエスチョン
- RQ1動画レベルラベルしか入手できない弱教師あり異常検出において、バイナリクラスタリングがラベルノイズを効果的に低減できるか?
- RQ2深層ニューラルネットワークとクラスタリングの間で共同最適化を行うフレームワークは、独立したモデルと比較して検出性能を向上させるか?
- RQ3UCF-Crime や ShanghaiTech といった標準ベンチマークにおいて、提案手法のクラスタリングベース疑似ラベル付けは、既存手法と比較してAUCでどのように優れているか?
- RQ4クラスタリング距離損失と疑似ラベル付けは、全体の性能向上にそれぞれどの程度寄与しているか?
主な発見
- 提案手法はUCF-Crimeデータセットで78.27%のフレームレベルAUCを達成し、比較対象の最先端手法のほとんどを上回るが、より複雑なグラフ畳み込みネットワークを用いるZhongら[8]を除いては、すべての手法を上回る。
- ShanghaiTechデータセットでは、84.16%のフレームレベルAUCを達成し、同じ評価プロトコル下でZhongら[8]を7.72ポイントも上回る。
- アブレーションスタディの結果、クラスタリングベースの疑似ラベル($y^p$)を除去すると、ShanghaiTechで2.51%、UCF-Crimeで1.63%のAUC低下が生じ、性能向上におけるその重要性が示された。
- クラスタリング距離損失($L_c$)を除去すると、ShanghaiTechで0.79%、UCF-Crimeで1.09%のAUC低下が生じ、クラスタ分離の観点からその重要性が裏付けられた。
- 定性的な結果から、モデルは明確な異常スコアパターンを生成し、異常セグメントを的確に強調するとともに、正常動画における誤検出(ファルス・ポジティブ)を効果的に抑制していることが確認された。
- 本手法はC3D特徴量と単一ストリームアーキテクチャのみを用いてSOTA結果を達成しており、マルチストリーム入力や複雑な構造に依存せず、効率性と再現可能性を確保している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。