Skip to main content
QUICK REVIEW

[論文レビュー] SRVAU-R1: Enhancing Video Anomaly Understanding via Reflection-Aware Learning

Zihao Zhao, Shengting Cao|arXiv (Cornell University)|Feb 1, 2026
Anomaly Detection Techniques and Applications被引用数 0
ひとこと要約

SRVAU-R1 は、反射志向のデータパイプラインと二段階学習フレームワーク(SFT と RFT)を構築することで、マルチモーダル LLM に自己反省と自己訂正を可能にし、動画異常理解を反射-aware に推進します。

ABSTRACT

Multi-modal large language models (MLLMs) have demonstrated significant progress in reasoning capabilities and shown promising effectiveness in video anomaly understanding (VAU) tasks. However, existing MLLM-based approaches remain largely focused on surface-level descriptions of anomalies, lacking deep reasoning over abnormal behaviors like explicit self-reflection and self-correction. To address that, we propose Self-Reflection-Enhanced Reasoning for Video Anomaly Understanding (SRVAU-R1), a reflection-aware learning framework that incorporates reflection in MLLM reasoning. Specifically, SRVAU-R1 introduces the first reflection-oriented Chain-of-Thought dataset tailored for VAU, providing structured supervision with initial reasoning, self-reflection, and revised reasoning. Based on that, it includes a novel reflection-aware learning paradigm with supervised fine-tuning and reinforcement fine-tuning to enhance multi-modal reasoning for VAU. Extensive experiments on multiple video anomaly benchmarks demonstrate that SRVAU-R1 consistently outperforms existing methods, achieving significant improvements in both temporal anomaly localization accuracy and reasoning quality.

研究の動機と目的

  • 複雑な異常の深く時間的に根拠づけられた理解を、表面的な説明を超えて動機づける。
  • VAU タスクにおけるマルチモーダル LLM で明示的な自己反省と自己訂正を可能にする。
  • 反射志向の思考連鎖データセットと監督信号を提供する。
  • 推論品質と堅牢性を向上させる二段階トレーニングパラダイム(SFT→RFT)を開発する。

提案手法

  • 初期の推論、自己反省、改訂推論信号を追加する反射志向のデータ構築パイプラインを構築する。
  • 反射強化 VAU に特化した Chain-of-Thought 学習データセットを作成する。
  • 二段階学習パラダイムを採用する:反射強化の監督付きファインチューニング(SFT)と、GRPO を基盤とした反射 aware の強化学習ファインチューニング(RFT)。
  • RFT の複合報酬を、タスク正確性、反射品質、時間的 IoU(tIoU)成分を含む形で設計する。
  • 時間的 IoU 報酬を組み込み、時間的推論を真の異常区間と整合させる。

実験結果

リサーチクエスチョン

  • RQ1Explicit な自己反省は、VAU における推論品質と時間的位置づけをどう改善するか?
  • RQ2反射志向のデータセットと二段階訓練は、データセット間で堅牢で一般化可能な VAU 性能を生み出すか?
  • RQ3反射データ規模と教師モデルの影響は SRVAU-R1 の性能にどう影響するか?
  • RQ4反射 aware の強化学習(GRPO ベース)は VAU タスクのベースラインと比べてどうか?

主な発見

  • SRVAU-R1 は MSAD および UCF-Crime で QA 精度と VAU-Eval スコアを一貫して改善する。
  • SRVAU-R1 は時間的異常の基づけ(mIoU 及び recalls の向上)で、ECVA および MSAD の OOD 設定を含むベースラインよりも優れている。
  • アブレーションにより、反射データと二段階の SFT+RFT が重要であり、反射データを除くと性能が大幅に低下することが示された。
  • 反射 aware 学習は明確な“aha モーメント”を生み、初期推論を改訂して局在化と因果理解を向上させる。
  • 自己反省を明示的に示さない二段思考は限定的な改善しかもたらさず、堅牢な VAU のためには明示的な自己反省の必須性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。