Skip to main content
QUICK REVIEW

[논문 리뷰] Instance-Aligned Captions for Explainable Video Anomaly Detection

Inpyo Song, Minjun Joo|arXiv (Cornell University)|2026. 01. 13.
Anomaly Detection Techniques and Applications인용 수 0
한 줄 요약

본 논문은 비디오 이상 탐지에서 각 텍스트 주장과 특정 객체 인스턴스를 연결하는 인스턴스 정렬 캡션을 도입하고, 8개 벤치마크를 근거 기반의 per-instance 설명으로 확장하며 VIEW360을 VIEW360+로 확장합니다. 또한 현재 LLM/VLM 설명이 근거 제시와 일관성에서 어려움을 보임을 보여주고, 검증 가능한 시각-텍스트 정렬의 필요성을 강조합니다.

ABSTRACT

Explainable video anomaly detection (VAD) is crucial for safety-critical applications, yet even with recent progress, much of the research still lacks spatial grounding, making the explanations unverifiable. This limitation is especially pronounced in multi-entity interactions, where existing explainable VAD methods often produce incomplete or visually misaligned descriptions, reducing their trustworthiness. To address these challenges, we introduce instance-aligned captions that link each textual claim to specific object instances with appearance and motion attributes. Our framework captures who caused the anomaly, what each entity was doing, whom it affected, and where the explanationis grounded, enabling verifiable and actionable reasoning. We annotate eight widely used VAD benchmarks and extend the 360-degree egocentric dataset, VIEW360, with 868 additional videos, eight locations, and four new anomaly types, creating VIEW360+, a comprehensive testbed for explainable VAD. Experiments show that our instance-level spatially grounded captions reveal significant limitations in current LLM- and VLM-based methods while providing a robust benchmark for future research in trustworthy and interpretable anomaly detection.

연구 동기 및 목표

  • Explainable VAD 설명에서 공간적 근거 부족 문제를 다룬다.
  • 세분화 마스크에 연결된 인스턴스 수준의 물체-기반 캡션을 제공한다.
  • VIEW360 데이터셋을 VIEW360+로 확장하여 더 넓은 시나리오와 이상을 반영한다.
  • 역할 인지가 가능한 인스턴스 정렬 캡션으로 8개의 VAD 벤치마크를 주관 평가를 위한 통합 표준으로 주석 처리한다.
  • 기존 LLM- 및 VLM 기반 설명의 한계를 시연하고 견고한 벤치마크를 확립한다.

제안 방법

  • 피해자/타겟에 대한 가해자(혹은 피해자) 역할 인지 인스턴스 마스크로 비디오를 주석화한다.
  • PROMPT에서 프레임 단위의 세분화 마스크를 생성하기 위해 SAM2를 사용한다.
  • 참조 맥락과 일치하도록 객체 시퀀스를 잘라 객체별 캡션을 생성한다.
  • 설명을 지상화하기 위해 각 캡션을 해당 인스턴스 세분화와 연결한다.
  • 합성 Cap-IoU F_SC 지표와 거짓 양성 엔터티 수(FPE)를 사용하여 캡션 품질과 공간 정 grounding을 평가한다.
  • 캡션-전용, 세분화 전용, 다단계 VLM+SAM2 파이프라인을 데이터셋 간에 비교한다.
Figure 1 : Comparison of anomaly understanding paradigms. (a) Traditional score-only detection raises an alert but provides no explainability. (b) LLM/VLM-based systems generate textual explanations but lack spatial grounding—when multiple people match the description or the model attends to wrong o
Figure 1 : Comparison of anomaly understanding paradigms. (a) Traditional score-only detection raises an alert but provides no explainability. (b) LLM/VLM-based systems generate textual explanations but lack spatial grounding—when multiple people match the description or the model attends to wrong o

실험 결과

연구 질문

  • RQ1인스턴스 정렬 캡션이 VAD 설명에 대해 검증 가능한 근거를 제공할 수 있는가?
  • RQ2현재의 LLM- 및 VLM 기반 방법이 인스턴스 수준 시각적 증거에 강하게 근거를 두었을 때 어떻게 수행되는가?
  • RQ3다중 엔터티 상호 작용에서 기존의 근거 기반/설명 가능한 VAD 접근법의 주요 실패 모드는 무엇인가?
  • RQ4VIEW360+가 이상 유형과 공간 근거 요구사항 측면에서 기존 데이터셋과 어떻게 다른가?
  • RQ5통합 평가 프로토콜은 설명 가능한 VAD에서 캡션 품질과 공간 근거 사이의 차이를 드러내는가?

주요 결과

  • 인스턴스 정렬 캡션은 모든 주장을 객체 인스턴스에 근거를 두고 연결하여 누구-무엇-누구-어디 추론을 검증 가능하게 한다.
  • 근거 기반 설명은 현재 LLM- 및 VLM 기반 방법의 중요한 한계를 드러내며, 오 grounding 및 엔터티 환상 현상을 포함한다.
  • 다단계 VLM+SAM2 파이프라인은 단일 단계 모델보다 데이터셋 전반에서 더 신뢰할 수 있는 근거 기반 설명을 제공한다.
  • 가해자 근거 부여는 모델과 데이터셋 전반에서 피해자/대상 근거 부여보다 일관되게 강한 경향이 있다.
  • VIEW360+는 도시 안전 시나리오를 더 잘 반영하기 위해 이상 유형을 확장하고 egocentric 360° 비디오에서 공간 근거 평가를 향상시킨다.
  • 통합 인스턴스 정렬 주석 프레임워크는 설명 가능한 VAD의 견고한 평가를 촉진하고 현재 접근 방식의 명확한 실패 모드를 강조한다.
Figure 2 : Comparison of anomaly‐understanding paradigms. (a) Traditional VAD predicts only anomaly scores without explanations. (b) VLM‐based VAD generates textual descriptions but lacks object‐level grounding. (c) Grounding VLMs provide spatial localization but do not produce object‐specific expla
Figure 2 : Comparison of anomaly‐understanding paradigms. (a) Traditional VAD predicts only anomaly scores without explanations. (b) VLM‐based VAD generates textual descriptions but lacks object‐level grounding. (c) Grounding VLMs provide spatial localization but do not produce object‐specific expla

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.